Apache Hop – Ein Produktivitäts-Sprung in der Datenintegration?

Altertümlich ist gut: meinst du grau statt farbig? Also ich mag das nüchterne GUI von Hop, wobei man es schon aufpeppen könnte.

Airflow kenne ich - aber das ist etwas anderes: Airflow „orchestriert“ Workflows und kann (fremde) „Tasks“ ausführen. Diese müssen in Python geschrieben sein, wo man Pandas verwenden kann (was dann wieder nicht Low-Code ist) - oder aber externe Tools. Eines der Tools ist dbt (für SQL-Transformationen) oder Apache Spark - oder aber Apache Hop (im Batch-Betrieb), für das es ein spezielles Airflow Plugin gibt (vgl. hier).

Ich stelle allgemein fest, dass der Begriff „Workflow“ oft Verwirrung stiftet. Ich spreche daher lieber von 1. Datenflussmanagement und 2. Datenverarbeitung. Beide Begriffe überschneiden sich, werden aber oft unterschiedlich verwendet.

  • Datenflussmanagement (Synonyme Workflow, „Orchestrierung“) ist das übergeordnete Management (Steuerung, Terminierung, Fehlerbehandlung) von Aufgaben (Tasks) und Prozessen.
  • Datenverarbeitung (Synonyme Workflow, Task, Transformation, Pipeline) ist die „inhaltliche Verarbeitung“, die Datentransformation - also die eigentlichen Verarbeitungsschritte, die Daten verändern oder analysieren.

Apache Hop ist ein Werkzeug, das sowohl Datenflussmanagement als auch Datenverarbeitung abdeckt (hybrid). Es sprich von „Workflows/Actions“ wenn es um Datenflussmanagement geht und von „Pipelines/Transformations“ wenn es um Datenverarbeitung geht.

FME ist auch so ein hybrides Low-Code-Werkzeug, aber kommerziell. Unter den Open Source Tools, die ich evaluiert habe, gibt es noch Apache NiFi, das wie Apache Airflow „nur“ Datenflussmanagement macht, aber mit Fokus auf Echtzeitverarbeitung und Monitoring. Schliesslich gibt es noch KNIME, das „nur“ Datenverarbeitung macht mit Fokus auf Machine Learning.