Data Warehouse vs. Data Lake: Gemeinsamkeiten und Unterschiede

Was unterscheidet eigentlich ein Data Warehouse von einem Data Lake? In diesem Beitrag soll es ausschließlich um die Beantwortung dieser Frage gehen. Beide Konzepte stellen Speichermöglichkeiten für die diversen Daten eines Unternehmens dar, sind aber von Grund auf verschieden.  Unter anderem möchten wir hier herausfinden, was Gemeinsamkeiten und Unterschiede von Data Warehouse und Data Lake […]

Was ist ein Data Lake? Konzept, Nutzen und Anwendungsfälle

Ein Data Lake ist ein zentrales Repository für eine unendliche Menge von strukturierten, semistrukturierten und unstrukturierten Daten in ihrer Rohform. In diesem Beitrag erklären wir, warum Sie einen Data Lake in Ihrem Unternehmen implementieren sollten, welche Vorteile dieser mit sich bringt und wie der Data Lake aufgebaut ist.  1. Was ist ein Data Lake?2. Warum […]

Was macht ein Data Engineer? Überblick über das Berufsbild

Ein Data Engineer beschäftigt sich mit dem Zusammentragen, Aufbereiten und Prüfen von Daten. Die Tätigkeit bildet die Grundlage für Big Data-, Data Warehouse und Analyseprojekte im Kontext von Data Science. Data Engineers sind wichtige Jobprofile jeder datengetrieben Organisation. Steigen wir direkt ein: Data Engineer Jobbeschreibung Welche Fähigkeiten braucht ein Data Engineer? Welche Aufgaben hat ein […]

Customer Data Platform – Funktionen, Vorteile und Unterschiede

Für erfolgreiches Marketing, braucht ein Unternehmen viele Daten und Informationen über die Kunden. Eine Customer Data Platforms (kurz: CDP) stellt die jede Kundeninformation an einer zentralen Stelle bereit. Andere Systeme und analytische Funktionen können diese Daten abgreifen, um das Marketing zu optimieren. Im nachfolgenden Artikel gehen wir auf die verschiedenen Schwerpunkte einer Customer Data Platform näher ein.   Was ist eine Customer Data Platform?  […]

Big Data im Marketing: Nutzen, Anwendungen und Herausforderungen

Das Marketing ändert sich grundlegend und Big Data spielt heute eine wichtige Rolle im Marketing. Kundendaten lassen sich einfach sammeln, speichern und analysieren, um Kunden das richtige Angebot zur richtigen Zeit zu machen. Viele Unternehmen haben das enorme Potential von Big Data bereits erkannt und schaffen so einen Wettbewerbsvorteil.  Im nachfolgenden Artikel gehe ich auf die verschiedenen […]

Was ist databricks?

Databricks ist eine amerikanische Softwarefirma, die eine auf Apache Spark basierte Analyseplattform zur Verfügung stellt. Die Spark Analyseplattform wird auf den beiden größten Clouddienstanbietern: Microsoft Azure und Amazon AWS angeboten. Databricks wurde von den Entwicklern von Spark gegründet und konzentriert sich auf die Monetarisierung von dem Open Source Big Data System Apache Spark. Steigen wir […]

Machine Learning Feature Store für Data Science

Ein Machine Learning Feature Store ist ein zentraler Datenspeicher speziell für Data Science Prozesse. Projekte und Anwendungen des maschinellen Lernens sind oft teuer und schwer skalierbar. Um die Effizienz und Skalierbarkeit von maschinellem Lernen zu steigern, kommen diese zentralen Datenspeicher für Lerndaten zum Einsatz. Herausforderungen von maschinellem Lernen und Data Science Was ist ein Machine […]

Streaming Daten: Einführung und Überblick wichtiger Frameworks

Streaming Daten sind Daten, die mit einem Streaming Framework in „Echtzeit“ verarbeitet werden. Der Unterschied zum reinen Message Processing ist, dass du komplexe Operationen (Aggregationen, Joins etc.) auf den Datenströmen anwenden kannst. Streaming Daten sind im Big Data Umfeld ein interessantes Entwicklungsfeld, welches sich rapide weiterentwickelt und in vielen Use Cases einen Mehrwert bringt. In […]

ETL mit Apache Spark

Spark als ETL Werkzeug nutzen und von Big Data Performance profitieren Die In-Memory Big Data Plattform Apache Spark dominiert die Big Data Welt. Natürlich lässt sich Spark sehr gut für ETL-Prozesse einsetzen und somit lassen sich täglich enorme Datenmengen bewegen, filtern und transformieren. Große Firmen wie Facebook machen es vor und zeigen mit einem produktiven […]

Hadoop einfach erklärt!

Apache Hadoop ist eine verteilte Big Data Plattform, die von Google basierend auf dem Map-Reduce Algorithmus entwickelt wurde, um rechenintensive Prozesse bis zu mehreren Petabytes zu erledigen. Hadoop ist eines der ersten Open Source Big Data Systeme, welches entwickelt wurde und gilt als Initiator der Big Data Ära. Das verteilte Big Data Framework ist in […]