Data Warehouse vs. Data Lake: Gemeinsamkeiten und Unterschiede

Was unterscheidet eigentlich ein Data Warehouse von einem Data Lake? In diesem Beitrag soll es ausschließlich um die Beantwortung dieser Frage gehen. Beide Konzepte stellen Speichermöglichkeiten für die diversen Daten eines Unternehmens dar, sind aber von Grund auf verschieden.  Unter anderem möchten wir hier herausfinden, was Gemeinsamkeiten und Unterschiede von Data Warehouse und Data Lake […]

Was ist ein Data Lake?

Die Datenplattform besteht aus einem Data Lake, welcher Rohdaten und durch den ETL-Prozess in verarbeitete Daten umwandelt. Dafür werden bestimmte Tools verwendet. Einmal verarbeitet, kann Mehrwert aus den Daten gezogen werden.

Ein Data Lake ist ein zentrales Repository für eine unbegrenzte Menge von strukturierten, semistrukturierten und unstrukturierten Daten in ihrer Rohform. In diesem Beitrag erklären wir, was der Data Lake ist, warum Sie einen Data Lake in Ihrem Unternehmen implementieren sollten, welche Vorteile dieser mit sich bringt und wie der Data Lake aufgebaut ist.  Was ist […]

Auto Loader von Databricks

Databricks Auto Loader ist eine optimierte Dateischnittstelle, die automatisch inkrementelle Datenladungen aus Ihrem Cloud-Speicher durchführen kann, um die geladenen Daten dann in Delta Lake Tables abzuspeichern. Wie genau der Databricks Auto Loader funktioniert erfahren Sie in diesem Artikel. Was ist der Databricks Auto Loader? Databricks Auto Loader ist eine Funktion, die es uns ermöglicht, schnell […]

Customer Data Platform – Funktionen, Vorteile und Unterschiede

Für erfolgreiches Marketing, braucht ein Unternehmen viele Daten und Informationen über die Kunden. Eine Customer Data Platforms (kurz: CDP) stellt die jede Kundeninformation an einer zentralen Stelle bereit. Andere Systeme und analytische Funktionen können diese Daten abgreifen, um das Marketing zu optimieren. Im nachfolgenden Artikel gehen wir auf die verschiedenen Schwerpunkte einer Customer Data Platform näher ein.   Customer Data Platform – Das Wichtigste auf […]

Was macht ein Data Engineer? Überblick über das Berufsbild

Ein Data Engineer beschäftigt sich mit dem Zusammentragen, Aufbereiten und Prüfen von Daten. Die Tätigkeit bildet die Grundlage für Big Data-, Data Warehouse und Analyseprojekte im Kontext von Data Science. Data Engineers sind wichtige Jobprofile jeder datengetrieben Organisation. Steigen wir direkt ein: Data Engineer Jobbeschreibung Das Berufsfeld des Data Engineerings beschäftigt sich mit dem Zusammentragen, […]

Big Data im Marketing: Nutzen, Anwendungen und Herausforderungen

Das Marketing ändert sich grundlegend und Big Data spielt heute eine wichtige Rolle im Marketing. Kundendaten lassen sich einfach sammeln, speichern und analysieren, um Kunden das richtige Angebot zur richtigen Zeit zu machen. Viele Unternehmen haben das enorme Potential von Big Data bereits erkannt und schaffen so einen Wettbewerbsvorteil.  Im nachfolgenden Artikel gehe ich auf die verschiedenen […]

Machine Learning Feature Store für Data Science

Ein Machine Learning Feature Store ist ein zentraler Datenspeicher speziell für Data Science Prozesse. Die Datenzugriffs- und verarbeitungsschicht unterstützt Projekte und Anwendungen des maschinellen Lernens und steigert so Effizienz und Skalierbarkeit. In diesem Beitrag erklären wir, was genau hinter dem Feature Store steckt, welche Vorteile dieser bringt, wie er verwendet wird und vieles mehr. Was […]

Was ist Databricks? Nutzen, Vorteile, Umgebung

Databricks ist ein Cloud-basiertes Tools, welches den gesamten Prozess der Datenverarbeitung vereinfacht: von Data Engineering, über Data Science bis zu Machine Learning. Unternehmen nutzen Databricks um große Datenmengen zu verarbeiten, veredeln und zu analysieren.    Aber was genau ist Databricks, welches sind die Top-Funktionen und woraus ergeben sich die diversen Vorteile? Diese und weitere Fragen wollen […]

ETL mit Apache Spark

Spark als ETL Werkzeug nutzen und von Big Data Performance profitieren Die In-Memory Big Data Plattform Apache Spark dominiert die Big Data Welt. Natürlich lässt sich Spark sehr gut für ETL-Prozesse einsetzen und somit lassen sich täglich enorme Datenmengen bewegen, filtern und transformieren. Große Firmen wie Facebook machen es vor und zeigen mit einem produktiven […]

Streaming Daten: Einführung und Überblick wichtiger Frameworks

Streaming Daten sind Daten, die mit einem Streaming Framework in „Echtzeit“ verarbeitet werden. Der Unterschied zum reinen Message Processing ist, dass Sie komplexe Operationen (Aggregationen, Joins etc.) auf den Datenströmen anwenden können. Im Big Data Umfeld sind Streaming Daten ein interessantes Entwicklungsfeld, welches sich rapide weiterentwickelt und in vielen Use Cases einen Mehrwert bringt. In […]