Was ist Big Data?

Big Data ist ein großer Trend in der Unternehmenswelt und schafft für viele Firmen enorme Werte. Mit Big Data wird die Speicherung, Verarbeitung und Analyse von enormen Datenmengen möglich. Dabei wird spezielle Big Data Technologie eingesetzt, die dies ermöglicht.

In diesem Artikel gehe ich auf die Grundlagen von Big Data ein und beantworte Fragen wie:

Was ist mit Big Data gemeint?

Mit Big Data ist die Speicherung, Verarbeitung und Analyse von enormen Datenmengen gemeint. Oft sind die Datenmengen so groß, dass diese nicht mehr auf einen physischen Rechner passen. Um dieses Problem zu beheben und diese enormen Datenmengen zu analysieren, gibt es Big Data Systeme wie Apache Hadoop und Apache Spark.

Warum ist Big Data so wichtig?

Durch die zunehmende Vernetzung unseres Leben, fallen an vielen verschiedenen Stellen neue Datenpunkte für die Speicherung an. Big Data Systeme können all diese Daten aufnehmen und verarbeiten, daher hat es für Unternehmen einen hohen Wert diese Systeme einzusetzen. So können Unternehmen gezieltere Angebote für Ihre Kunden erstellen, diese noch genauer ansprechen und sogar individuell auf den Preis von Produkten eingehen. 

Big Data Definition

Es gibt viele Definitionen von Big Data, da es viele verschiedene Konzepte beinhaltet. Wenn man den Begriff bei Google sucht bekommt man folgende Definition von Big Data:

1. große Datenmengen – “Big Data analysieren”

2. Technologien zur Verarbeitung und Auswertung riesiger Datenmengen – “der Einsatz von Big Data”

Oft sammeln sich in Unternhemen über Jahre große Datenmengen und sehr interessante Datenquellen an, welche mit Big Data Analytics und Machine Learning einen entscheidenden Mehrwert bringen. Egal ob aus Web-, Sensor- oder unstrukturierten Datenquellen, die Größe wächst kontinuierlich an, allerdings ist  der Nutzwert pro Gigabyte relativ gering. Dies bedeutet, dass die intelligente Analyse für einen Mehrwert entscheidend ist.

Der zweite wichtige Aspekt ist die Big Data Technologie, denn diese unterscheidet sich grundsätzlich in dem ihrem Aufbau und Funktionalität von klassischen Technologien wie bspw. relationalen Datenbanken.

Big Data Technologie (Apache Spark oder Hadoop) ermöglicht nicht nur die Analyse von großen Datenmengen, sondern schafft auch Möglichkeiten viele unterschiedliche Datenformate (z.B. semi- oder unstrukturierte Daten wie Texte, Bilder und Videos) oder Daten in viel höherer Geschwindigkeit zu verarbeiten.

Ein letzter Aspekt den ich einbringen möchte, ist die Art und Weise wie man über Daten als Wettbewerbsfaktor denkt, denn heute werden ganze Geschäftsmodelle rein auf Big Data aufgebaut.

Die 4 Big Data V‘s: Volume, Variety, Velocity, Veracity

Ursprünglich hat Gartner Big Data Konzept anhand von 4 V’s beschrieben, aber mittlerweile gibt es Definitionen, die diese um 1 weiteres V erweitert.

4 Big Data V

  • Volume, beschreibt die extreme Datenmenge. Immer größere Datenmengen sind zu speichern und verarbeiten. Laut Statista 2017 verzehnfacht sich das weltweit jährlich produzierte Datenvolumen bis 2025 auf 163 Zettabyte.
  • Variety, beschreibt die Vielfalt der unterschiedlichste Dateistrukturen: strukturiert, semi-strukturiert und unstrukturiert. All die unstrukturierten Daten sind in relationalen Datenbanken oft garnicht auszuwerten, dennoch tragen sie sehr wertvolle Informationen. Rund 90% der gespeicherten Daten sind in unstrukturierten Formaten wie Texten, Bildern oder Videos gespeichert. Durch Big Data werden diese Daten anhand von Machine Learning analysierbar.
  • Velocity, beschreibt die erhöhte Geschwindigkeit mit der die Daten produziert, aber gleichzeitig auch verarbeitet werden müssen. Heute spielt für viele Unternehmen und Use Cases die Echtzeitverarbeitung eine große Rolle und kann für den entscheidenen Wettbewerbsvorteil sorgen.
  • Veracity, die Unsicherheit (Wahrhaftigkeit) der Daten und Datenqualität. Daten kommen aus verschiedenen Quellen teilweise nicht in der gewünschten Qualität an und können daher nicht wie gewollt eingesetzt werden oder müssen aufwendig nachbereitet werden.

Erweiterung um ein weiteres V

  • Value, der Mehrwert oder Business Value, der durch die großen (verkünpften) Datenmengen erzeugt wird und natürlich druch den Einsatz von Machine Learning Techniken auf diese riesen Datenmengen. Sicherlich eins der wichtigsten V für die Argumentation von Big Data, denn ohne Value gäbe es keinen Grund für diese Vorhaben.

IBM hat für die 4 + 1 Vs (Volume, Variety, Velocity, Veracity, Value) von Big Data eine sehr schöne Infografik erzeugt.

IDM Big Data Vs Infografik Volume, Variety, Velocity, Variety
IBM 4 + 1 V’s of Big Data

Was ist Big Data Analytics? – Big Data Analytics Definition

Big Data Analytics ist ein Begriff, der viele verschiedene Analysen und Methoden vereint. Ich bin der Meinung grundsätzlich kann man den Begriff in zwei Kategorien unterteilen:

  • Analytics, umfasst vor allem die Aufgabenbereiche Analysen, Reporting und Visualisierung. Hier werden die Daten so aufbereitet, das Entscheidungen auf Basis dieser Aufbereitung getroffen werden können.
  • Machine Learning, beschreibt das maschinelle Lernen von Systemen, die durch anhand von Daten lernen und dadurch den Entscheidungsprozess unterstützen. Ein Machine Learning Modell findet Einsatz für die Vorhersage von Ereignissen zur Verbesserung von Geschäftsprozessen oder ermittelt eine relevante Produktempfehlung für Kunden. Auch der große Deep Learning Trend ist hier einzuordnen.

All die oben genannten Themen sind nichts neues und werden täglich in Unternehmen umgesetzt. Der Unterschied zwischen Analytics und Big Data Analytics:

  • Verarbeitung enormer Datenmengen
  • schneller und flexibler Import und Export von Daten
  • Datenaktualität – Realtime
  • schnelle Verarbeitung der Daten
  • bessere Integration von Machine Learning Einsatz
  • Trennung von ML und ETL nicht mehr so stark – Daten sind oft im den gleichen Systemen vorhanden
  • ML-Scorings im Streaming Kontext

Melden Sie sich zum datasolut Navigator an!

Erhalten Sie tiefe Einblicke wie Sie mit künstlicher Intelligenz und maschinellem Lernen Ihr Marketing optimieren können, sowie Zugang zu exklusiven Whitepapern und praktischen Anleitungen.

Mit der Anmeldung zu unserem Newsletter stimmst du unserer Datenschutzerklärung zu.

Big Data Technolgie

Am Markt gibt es viele eine Vielzahl von Big Data Technologien, so fällt es schwer den Überblick zu behalten. Aus meiner Praxiserfahrung kann ich sagen, dass es eigentlich nur eine Handvoll relevante Technologien gibt auf die man sich konzentrieren muss.

Big Data Technologien wie Apache Hadoop, Apache Spark und Apache Kafka entwickeln sich rasant weiter.

Apache Hadoop

Mit Apache Hadoop ist der Grundstein der Big Data Technologie gelegt worden. Das in Java geschriebene, verteile System lässt sich einfach skalieren und ist für große Datenmengen entwickelt. Der von Google Inc. entwickelte MapReduce-Algorithmus ist das Herzstück des Systems und ermöglicht die parallele Datenverarbeitung auf massiven Clustern.

Eine Einführung von mir zu Apache Hadoop findet ihr hier!

In der Praxis wird Hadoop oft als System zur Datenhaltung und für die entwicklung von ETL-Prozessen eingesetzt. Hadoop bietet leider keine direkte Möglichkeit Machine Learning anzuwenden.

Apache Spark

Apache Spark ist im Jahr 2012 entstanden und entwickelt um die Nachteile des Hadoop MapReduce-Algorithmus auszubessern. Spark verarbeitetet, anders als Hadoop, die Datenmengen im Arbeitsspeicher und ist so viel Leistungsfähiger was die Berechnung angeht.

Abfragen im Vergleich Spark vs. Hadoop
Abfragen im Vergleich Spark vs. Hadoop

In der Praxis wird es oft für ETL-Prozesse sowie die Entwicklung und Integration von Machine Learning Algorithmen eingesetzt, aber auch die Realtime-Verarbeitung ist mit Structured Streaming in Spark möglich. Spark ist sicher eines der interessantesten Open Scource Projekte auf dem Markt. Hier erfährst du mehr in meinem Artikel zu: Was ist Apache Spark?

Apache Kafka

Apache Kafka ist ebenfalls ein Open Soucre Projekt der Apache Foundation und wurde bei LinkedIn entwickelt. Mit dem Fokus auf der verteilten Verarbeitung von Datenströmen hat Kafka eine andere Funktion als z.B. Hadoop oder Spark.

Kafka speichert und verarbeitet Datenströme und stellt ein API zum Laden und Exportieren von Datenströmen für andere Systeme bereit. So sind Hadoop und Spark oft Abnehmer von den Datenströmen von Kafka.

Mit Kafka können coole Streaming Use Cases umgesetzt werden, oft kommt Kafka für den Einsatz für das Streaming von Webtrackingdaten zum Einsatz und unterstützt Marketingprozesse im Webshop.

Apache Cassandra

Ist ein verteiltes Datenbanksystem, was für sehr große strukturierte Datensätze ausgelegt ist. Besonders die Robustheit und gute Skalierbarkeit sind die Stärken des spaltenorientierten Systems.

Apache Cassandra zählt zu den NoSQL-Datenbanksystemen und wird ebenfalls als Open Soucre Projekt von der Apache Foundation veröffentlicht. Das Konzept der Schlüssel-Wert-Relation spielt eine große Rolle, was zu schnellen Abfragegeschwindigkeiten führt.

Cassandra wird von großen Unternehmen wie Uber als ML Feature Store eingesetzt. Eine vergleichbare Datenbank ist die Dynamo DB auf Amazon AWS.

Ihr Ansprechparnter: Laurenz Wuttke

Wir entwickeln Künstliche Intelligenz, mit der Sie mehr aus Ihren Kundendaten machen – für wachsende Umsätze und eine nachhaltig hohe Kundenzufriedenheit.

Auch interessant für Sie