Extract, Transform, Load (ELT): Prozess und Nutzen

Der Prozess ETL umfasst drei Schritte zur Verarbeitung von Daten. Dabei dient ein ETL-Prozess dazu, Daten aus verschiedenen Datenquellen nutzbar zu machen und in einem Data Warehouse für die Nutzung verfügbar zu stellen. Häufig kommt dieser Prozess zur Verarbeitung großer Datenmengen in Bereichen wie Big Data oder Business Intelligence zum Einsatz und birgt so große Wettbewerbsvorteile für Unternehmen.

Was genau hinter dem ETL-Prozess steckt, wie er funktioniert und was ETL von ELT unterscheidet, erfahren Sie in diesem Beitrag.

Inhaltsverzeichnis:

1. Was ist ETL und wofür wird es verwendet?
2. Wie funktioniert der ETL-Prozess?
3. Warum Sie ETL brauchen: Die Vorteile von ETL.
4. Was ist der Unterschied zwischen ETL und ELT?
5. Fazit
6. FAQ

Was ist ETL und wofür wird es verwendet?

ETL ist eine Abkürzung für den Prozess des Extrahierens, Transformierens und Ladens von Daten. Das Ziel des Prozesses ist es, Daten aus verschiedenen Datenquellen in eine einzelne Quelle zu übertragen: in ein Data Warehouse

Die Nutzung eines ETL-Prozesses hängt primär damit zusammen, dass heutzutage unternehmensrelevante Daten aus unterschiedlichen internen sowie externen Quellen stammen. Da diese Informationen unterschiedlichen Ursprung haben, müssen sie zunächst gebündelt erfasst werden. Aufgrund der Verschiedenheit dieser Daten, werden sie im nächsten Schritt bereinigt und es erfolgt eine Aufbereitung dieser Rohdaten. 

Wie genau der ETL-Prozess Schritt-für-Schritt funktioniert, erklären wir im nächsten Abschnitt. 

Wie funktioniert der ETL-Prozess?

ETL beschreibt die Verarbeitung von Daten in einer spezifischen Reihenfolge. Sehen wir uns die drei Schritte gemeinsam an.

Erhebung der Datenquellen und Sammlung in einem Data Warehouse mit den Einzelschritten: Extract, Transform, Load.
Der ETL-Prozess mit den drei Teilschritten Extract, Transform, Load.

Extract (Extrahieren/Herausfiltern)

Nur wenige Unternehmen verlassen sich auf einen einzigen Datentyp. Die Vielzahl an Unternehmen setzt bei der Verwaltung ihres Datenbestands auf mehrere Datenquellen. Damit dies möglich ist, müssen zunächst einmal unterschiedliche Daten erfasst werden.  

Das Extrahieren (Extract) beschreibt den ersten wichtigen Schritt eines ETL-Prozesses. Dabei geht es vorwiegend um die Auswahl der Daten für den nachfolgenden Transformationsprozess. Häufig werden hinsichtlich der Extraktion nur Teilbereiche einzelner Quelldatenbanken bezogen.  

Aus einer virtuellen Infrastruktur werden Rohdatensätze gewonnen. Diese werden dann entweder in vollem Umfang oder nach vorher definierten Regeln integriert. Die rohen Daten werden kopiert und von der jeweiligen Quelle in den gewünschten Bereich exportiert (die Staging Area). 

Dabei ist es unwichtig, ob die Daten strukturiert oder unstrukturiert vorliegen. Wichtiger ist, dass das Programm so designed ist, dass es die Datenquelle in den Punkten performance und response time nicht negativ beeinflusst. 

Die Rohdaten im Rahmen des Extraktionsprozesses setzen sich größtenteils aus den folgenden Daten zusammen:

  • Daten bestehender Datenbanken  
  • Vertriebs- und Marketingaktivitäten 
  • Daten von mobilen Geräten und Apps 
  • Daten aus CRM-Systemen 
  • Aktivitätsprotokolle 
  • Anwendungsbezogene Performance-Daten 
  • Transaktionsaktivitäten 

Transform (Transformieren/Umwandeln)

Grundlegend geht es innerhalb der Transformationsphase darum, dass extrahierte Daten mit dem Format der Zieldatenbank übereinstimmen. Dementsprechend unterteilt sich der Transformationsprozess in mehrere Einzelschritte. Diese sehen wie folgt aus: 

  1. Bestimmung von Richtlinien bei der Formatierung 
  2. Bereinigung von falschen Daten 
  3. Entfernung doppelter Daten 
  4. Sortierung und Zusammenfassung passender Daten 
  5. Feinabstimmung von Datenbestand und Zielschemata 

Der Transformationsprozess wird im Allgemeinen als wichtigster Schritt des ETL-Prozesses angesehen. Dies liegt vor allem daran, dass die Transformation der Daten die Datenintegrität erheblich verbessert und dazu beiträgt, dass bestehende Daten am Zielort einerseits vollständig kompatibel und andererseits einsatzbereit ankommen.

Load (Laden/Bereitstellen)

Im letzten Schritt eines ETL-Prozesses werden die im vorigen Prozess umgewandelten und aufbereiteten Daten geladen. Dies bedeutet, dass das eigentliche Integrieren des bereinigten Datenbestands in ein Data Warehouse oder eine generelle Zieldatenbank erfolgt.  

Dabei wird zwischen drei Loading Types unterschieden: 

1. Initial Load beschreibt die erste Ladung des Data Warehouse.
2. Incremental Load beschreibt das Hinzufügen von Änderungen.
3. Full Refresh beschreibt das vollständige Entleeren von Inhalten mehrerer Tables und das Ersetzen dieser.

Während dieser Integration ist die Zieldatenbank oder das Data Warehouse häufig gesperrt, um fehlerhafte Auswertungen zu vermeiden. Zudem lassen sich nicht nur neue Daten in ein Data Warehouse integrieren. Auch bestehende Datenbestände innerhalb einer Zieldatenbank lassen sich stetig aktualisieren. 

Zudem lassen sich Veränderungen des Data Warehouse protokollieren, sodass diese jederzeit wahrnehmbar sind.  

In der folgenden Abbildung sehen wir den Prozess des ETL im Zusammenhang mit dem Data Warehouse grafisch abgebildet: Die Daten werden aus verschiedenen Quellen (z.B. Oracle., SQL-Server) extrahiert und in die Staging Area exportiert. In der Staging Area findet das Transformieren der Daten statt, um diese dann anschließend in das Data Warehouse zu laden. Die Daten können dann jederzeit abgerufen und zu Analysezwecken verwendet werden.

Der ETL-Prozess: Von der Staging-Area, über das Transformieren bis zum Laden ins Data Warehouse.
Der ELT-Prozess mit den einzelnen Teilschritten abgebildet.

Nachdem nun klar ist, wie der ETL-Prozess funktioniert, stellt sich die Frage, wozu man diesen Prozess für die Datenverarbeitung verwenden sollte?

Warum Sie ETL brauchen: Die Vorteile von ETL.

Die Integration eines ETL-Prozesses bietet einige Vorteile innerhalb eines Unternehmens. Durch die Extraktion, Säuberung und Transformation ermöglicht ETL es dem Unternehmen eine zentrale Datenbasis zu schaffen, die für spätere Analysen der Unternehmens- und Geschäftsdaten dient.

Zu den wesentlichen Vorteilen gehören folgende:  

Verbesserung des ROI  

Aufgrund der Digitalisierung und der damit verbundenen Ansammlung riesiger Datenmengen ist es für viele Unternehmen keine Leichtigkeit, Daten sinnvoll zu organisieren und verständlich bereitzustellen. Demnach bleiben oftmals einige Potentiale unausgeschöpft.

Zudem lassen sich mithilfe eines ETL-Prozesses Daten aus sämtlichen Quellen zusammenführen, sodass diese sinnvoll zur weiteren Verwendung genutzt werden können. Dieser verbesserte Überblick von unternehmensrelevanten Daten steht meist in einem festen Zusammenhang mit der Erhöhung des Umsatzes sowie der Verbesserung des ROI.  

Skalierbarkeit der Leistung 

Mit zunehmendem Wachstum und sich verändernden Marktdynamiken, sind Unternehmen gezwungen, ihre Ressourcen und angewandten Technologien zu optimieren und verändern. Dazu gehört vorwiegend, dass durch die Integration eines ETL-Systems, die Nutzung weiterer Technologien möglich ist. 

Dahingehend lassen sich einige Tools im Sinne eines Add-Ons für den ETL-Prozess im Data Warehouse bereitstellen. Zu diesen Tools gehören beispielswiese Tools zur Extraktion großer Datenmengen oder Tools zur Datenvisualisierung. Die Integration solcher sinnvollen Anwendungen trägt zunehmend zur Verbesserung und Skalierbarkeit der Leistung eines Unternehmens bei.  

Effiziente Business Intelligence 

Technologien auf Basis eines ETL-Prozesses verbessern im Wesentlichen den Datenzugriff. Dadurch ist es beispielsweise jederzeit möglich, dass ein Unternehmen auf diejenigen Datensätze zurückgreifen kann, die für den jeweiligen Zeitpunkt relevant sind.  

Diese Hilfestellung wirkt sich zunehmend auf das operative sowie strategische Geschäft aus, indem das Unternehmen auf Basis fundierter Daten seine Entscheidungen datengestützt ableiten kann. Schlussendlich erhalten Unternehmen die Möglichkeit, sich von der Konkurrenz durch verbesserte Entscheidungen langfristig abzusetzen.  

Was ist der Unterschied zwischen ETL und ELT?

Der Unterschied findet sich im Bereich „Operations“, genauer gesagt sind die Prozesse Load und Transform betroffen. Während ETL die rohen Daten nach der Extraction transformiert, um sie anschließend in die Zielquelle zu laden, lädt ELT die rohen Daten nach der Extraction direkt in die Zielquelle. Erst in der Zielquelle selbst werden die Rohdaten transformiert wie benötigt.

Sehen wir uns die Unterschiede nochmals in Form einer Tabelle an:

ItemsETLELT
DatengrößeKleine DatenGroße Daten 
Reihenfolge des ProzessesExtrahierenTransformierenLadenExtrahierenLadenTransformieren
Location Staging AreaBefindet sich auf Server der ELT-SolutionBefindet sich auf der Zieldatenbasis
Zeit der LadungLänger (multistage-process)Kürzer (Ladung folgt direkt nach Extraktion)
Gegenüberstellung der Unterschiede von den Prozessen ETL und ELT.

Fazit

Zusammenfassend können wir also festhalten, dass ETL für Unternehmen einen Wettbewerbsvorteil bringt. Die im ETL-Prozess gesammelten Daten bieten Entscheidungsträgern eine verbesserte und detailliertere Übersicht über die Lage des Unternehmens. Dadurch rückt das Bauchgefühl in den Hintergrund und Entscheidungen lassen sich auf Basis von Daten und Fakten treffen. 

Schließlich bietet die Integration eines ETL-Prozesses die Möglichkeit, dass alle gesammelten Daten sinnvoll genutzt werden können, damit die Verschwendung wertvoller Ressourcen gemindert wird. 

Sie haben weitere Fragen zum Thema ETL oder wollen gerne mehr rund um das Thema KI erfahren? Dann kontaktieren Sie uns doch gerne!

FAQ

Wofür steht ETL?

ETL steht für das Extrahieren, Transformieren und Laden von Daten in eine Zielquelle. 

Wofür verwendet man ETL? 

ETL wird vor allem für die Verarbeitung von Daten in einem Unternehmen verwendet. ETL-Prozesse eignen sich vor allem dann, wenn kein einheitliches System vorliegt, Schwierigkeiten bei der Datenabfrage bestehen, oder der Informationsbedarf
ausgeweitet wird. 

Was ist der Unterschied zwischen ETL und ELT?

ETL= Extrahieren, Transformieren, Laden
ELT= Extrahieren, Laden, Transformieren
Während ETL den Schritt des Transformierens vor dem Laden in die Zielquelle ausführt, führt ELT den Schritt erst aus, nachdem die Daten in die Zielquelle geladen sind. 

Ihr Ansprechpartner: Vinzent Wuttke

Unternehmen sitzen auf einem ungenutzten Berg von Kundendaten. Wir von datasolut entwickeln künstliche Intelligenz, die Ihr Marketing optimiert. Damit Sie dem richtigen Kunden zur richtigen Zeit das richtige Angebot machen können.