Was ist Delta Lake? 

Der Delta Lake ist ein Open-Source-Speicherformat, welches das Parquet-Format um ACID-Funktionalität und weiteren Datenbankfeatures erweitert. Die Zuverlässigkeit, Sicherheit und Leistung des Data Lake wird durch das Delta Lake Format verbessert. Es unterstützt ACID-Transaktionen, skalierbare Metadaten, Zeitreise, Change Data Capture Funktionalitäten für Streaming und Batch-Datenverarbeitung. In diesem Beitrag beschäftigen wir uns damit, was das Delta Lake […]

Snowflake vs. Databricks: Was sind die Unterschiede?

Unternehmen stehen vor der Herausforderung Daten in kürzester Zeit für Analysen wie Machine Learning, Dashboards und Auswertungen vorzubereiten. Data Warehouses und Data Lakes haben sich zwar weiterentwickelt, dennoch benötigt es in der Zukunft eine Lösung, die Daten in großen Massen speichern und verwalten kann.  Sowohl Snowflake als auch Databricks bieten eine Lösung, um die Massen […]

Data Warehouse vs. Data Lake: Gemeinsamkeiten und Unterschiede

Was unterscheidet eigentlich ein Data Warehouse von einem Data Lake? In diesem Beitrag soll es ausschließlich um die Beantwortung dieser Frage gehen. Beide Konzepte stellen Speichermöglichkeiten für die diversen Daten eines Unternehmens dar, sind aber von Grund auf verschieden.  Unter anderem möchten wir hier herausfinden, was Gemeinsamkeiten und Unterschiede von Data Warehouse und Data Lake […]

Was ist ein Data Lake?

Die Datenplattform besteht aus einem Data Lake, welcher Rohdaten und durch den ETL-Prozess in verarbeitete Daten umwandelt. Dafür werden bestimmte Tools verwendet. Einmal verarbeitet, kann Mehrwert aus den Daten gezogen werden.

Ein Data Lake ist ein zentrales Repository für eine unendliche Menge von strukturierten, semistrukturierten und unstrukturierten Daten in ihrer Rohform. In diesem Beitrag erklären wir, was der Data Lake ist, warum Sie einen Data Lake in Ihrem Unternehmen implementieren sollten, welche Vorteile dieser mit sich bringt und wie der Data Lake aufgebaut ist.  Was ist […]

Was macht ein Data Engineer? Überblick über das Berufsbild

Ein Data Engineer beschäftigt sich mit dem Zusammentragen, Aufbereiten und Prüfen von Daten. Die Tätigkeit bildet die Grundlage für Big Data-, Data Warehouse und Analyseprojekte im Kontext von Data Science. Data Engineers sind wichtige Jobprofile jeder datengetrieben Organisation. Steigen wir direkt ein: Data Engineer Jobbeschreibung Das Berufsfeld des Data Engineerings beschäftigt sich mit dem Zusammentragen, […]

Customer Data Platform – Funktionen, Vorteile und Unterschiede

Für erfolgreiches Marketing, braucht ein Unternehmen viele Daten und Informationen über die Kunden. Eine Customer Data Platforms (kurz: CDP) stellt die jede Kundeninformation an einer zentralen Stelle bereit. Andere Systeme und analytische Funktionen können diese Daten abgreifen, um das Marketing zu optimieren. Im nachfolgenden Artikel gehen wir auf die verschiedenen Schwerpunkte einer Customer Data Platform näher ein.   Was ist eine Customer Data Platform?  […]

Big Data im Marketing: Nutzen, Anwendungen und Herausforderungen

Das Marketing ändert sich grundlegend und Big Data spielt heute eine wichtige Rolle im Marketing. Kundendaten lassen sich einfach sammeln, speichern und analysieren, um Kunden das richtige Angebot zur richtigen Zeit zu machen. Viele Unternehmen haben das enorme Potential von Big Data bereits erkannt und schaffen so einen Wettbewerbsvorteil.  Im nachfolgenden Artikel gehe ich auf die verschiedenen […]

Was ist Databricks? Nutzen, Vorteile, Umgebung

Databricks ist ein Cloud-basiertes Tools, welches den gesamten Prozess der Datenverarbeitung vereinfacht: von Data Engineering, über Data Science bis zu Machine Learning. Unternehmen nutzen Databricks um große Datenmengen zu verarbeiten, veredeln und zu analysieren.    Aber was genau ist Databricks, welches sind die Top-Funktionen und woraus ergeben sich die diversen Vorteile? Diese und weitere Fragen wollen […]

Machine Learning Feature Store für Data Science

Ein Machine Learning Feature Store ist ein zentraler Datenspeicher speziell für Data Science Prozesse. Die Datenzugriffs- und verarbeitungsschicht unterstützt Projekte und Anwendungen des maschinellen Lernens und steigert so Effizienz und Skalierbarkeit. In diesem Beitrag erklären wir, was genau hinter dem Feature Store steckt, welche Vorteile dieser bringt, wie er verwendet wird und vieles mehr. Was […]

Streaming Daten: Einführung und Überblick wichtiger Frameworks

Streaming Daten sind Daten, die mit einem Streaming Framework in „Echtzeit“ verarbeitet werden. Der Unterschied zum reinen Message Processing ist, dass du komplexe Operationen (Aggregationen, Joins etc.) auf den Datenströmen anwenden kannst. Streaming Daten sind im Big Data Umfeld ein interessantes Entwicklungsfeld, welches sich rapide weiterentwickelt und in vielen Use Cases einen Mehrwert bringt. In […]