Was ist Big Data? Definition, 4 V’s und Technologie

Big Data ist ein großer Trend in der Unternehmenswelt und schafft für viele Firmen enorme Werte. Durch Big Data lassen sich enorme Datenmengen speichern, verarbeiten und analysieren. Spezielle Technologien ermöglichen die Verarbeitung von Datenmengen, die relationale Datenbanken nicht verarbeiten können.

In diesem Artikel gehe ich auf die Grundlagen von Big Data ein.

  1. Was ist mit Big Data gemeint?
  2. Big Data Definition
  3. Warum ist Big Data so wichtig?
  4. Die 4 Big Data V’s: Volume, Variety, Velocity, Veracity
  5. Was ist Big Data Analytics?
  6. Big Data Technologie

Was ist mit Big Data gemeint?

Mit Big Data ist die Speicherung, Verarbeitung und Analyse von enormen Datenmengen gemeint. Diese Datenmengen sind so groß, dass diese sich nicht mehr mit herkömmlicher Hard- und Software verarbeiten lassen und daher spezielle Big Data Hard- und Software benötigt wird.

Big Data löst diese Probleme durch spezielle Hard- und Software, die in einer verteilten Weise d.h. in einem Zusammenschluss von vielen Rechnern (Cluster) arbeiten. Somit sind die Daten in Big Data Systemen nicht mehr auf einem Server gespeichert, sondern die Daten werden auf vielen Rechnern verteilt, die untereinander kommunizieren können. Durch den Zusammenschluss, wird es möglich, enorme Datenmengen zu speichern und zu verarbeiten.

Bekannte Software (Big Data Systeme) für die Verarbeitung von enormen Datenmengen, sind bspw. Apache Hadoop und Apache Spark.

In diesem Video habe ich Big Data erklärt:

Was ist Big Data? Auf unserem YouTube Kanal.

Big Data Definition

Es gibt viele Definitionen von Big Data, da es viele verschiedene Konzepte beinhaltet. Wenn man den Begriff bei Google sucht, bekommt man folgende Definition von Big Data:

1. große Datenmengen – „Big Data analysieren“

2. Technologien zur Verarbeitung und Auswertung riesiger Datenmengen – „der Einsatz von Big Data“

Oft sammeln sich in Unternehmen über Jahre große Datenmengen und sehr interessante Datenquellen an, welche mit Big Data Analytics und Machine Learning einen entscheidenden Mehrwert bringen. Egal ob aus Web-, Sensor- oder unstrukturierten Datenquellen, die Größe wächst kontinuierlich an, allerdings ist der Nutzwert pro Gigabyte relativ gering. Dies bedeutet, dass die intelligente Analyse für einen Mehrwert entscheidend ist.

Der zweite wichtige Aspekt ist die Big Data Technologie, denn diese unterscheidet sich grundsätzlich in dem ihrem Aufbau und Funktionalität von klassischen Technologien wie bspw. relationalen Datenbanken.

Big Data Technologie (Apache Spark oder Hadoop) ermöglicht nicht nur die Analyse von großen Datenmengen, sondern schafft auch Möglichkeiten viele unterschiedliche Datenformate (z.B. semi- oder unstrukturierte Daten wie Texte, Bilder und Videos) oder Daten in viel höherer Geschwindigkeit zu verarbeiten.

Ein letzter Aspekt den ich einbringen möchte, ist die Art und Weise wie man über Daten als Wettbewerbsfaktor denkt, denn heute werden ganze Geschäftsmodelle rein auf Big Data aufgebaut.

Warum ist Big Data so wichtig?

Durch die zunehmende Vernetzung unseres Lebens, fallen an vielen verschiedenen Stellen neue Datenpunkte für die Speicherung an. Jeder Einkauf, jeder Besuch auf einer Social Media Plattform oder jeder Prozess in einer Produktionstraße hinterlässt viele Daten.

Big Data Systeme können all diese Daten aufnehmen und verarbeiten. Unternehmen haben dadruch viele Möglichkeiten diese Daten zu wertvollen Informationen umzuwandeln und zur Optimierung von Prozessen einzusetzen. Folgend Beispiele wofür Big Data genutzt wird:

  • Digitale Assistenten werden mit unmengen von Sprachdaten gefüttert, damit diese unsere Sprache verstehen können.
  • Unternehmen können durch die hinterlassenen Daten gezieltere Angebote für Ihre Kunden erstellen, diese noch genauer ansprechen und sogar individuell auf den Preis von Produkten eingehen.
  • In der Medizin werden Bilder genutzt, um bspw. die Erkennung von Krankheiten wie Krebs zu verbessern.

Die 4 Big Data V’s: Volume, Variety, Velocity, Veracity

Ursprünglich hat Gartner Big Data Konzept anhand von 4 V’s beschrieben, aber mittlerweile gibt es Definitionen, die diese um 1 weiteres V erweitert.

4 Big Data V

  • Volume, beschreibt die extreme Datenmenge. Immer größere Datenmengen sind zu speichern und verarbeiten. Laut Statista 2017 verzehnfacht sich das weltweit jährlich produzierte Datenvolumen bis 2025 auf 163 Zettabyte.
  • Variety, beschreibt die Vielfalt der unterschiedlichste Dateistrukturen: strukturiert, semi-strukturiert und unstrukturiert. All die unstrukturierten Daten sind in relationalen Datenbanken oft gar nicht auszuwerten, dennoch tragen sie sehr wertvolle Informationen. Rund 90% der gespeicherten Daten sind in unstrukturierten Formaten wie Texten, Bildern oder Videos gespeichert. Durch Big Data werden diese Daten anhand von Machine Learning analysierbar.
  • Velocity, beschreibt die erhöhte Geschwindigkeit mit der die Daten produziert, aber gleichzeitig auch verarbeitet werden müssen. Heute spielt für viele Unternehmen und Use Cases die Echtzeitverarbeitung eine große Rolle und kann für den entscheidenden Wettbewerbsvorteil sorgen.
  • Veracity, die Unsicherheit (Wahrhaftigkeit) der Daten und Datenqualität. Daten kommen aus verschiedenen Quellen teilweise nicht in der gewünschten Qualität an und können daher nicht wie gewollt eingesetzt werden oder müssen aufwendig nachbereitet werden.

Erweiterung um zwei weitere Vs

  • Value, der Mehrwert oder Business Value, der durch die großen (verknüpften) Datenmengen erzeugt wird und natürlich durch den Einsatz von Machine Learning Techniken auf diese riesigen Datenmengen. Sicherlich eins der wichtigsten V für die Argumentation von Big Data, denn ohne Value gäbe es keinen Grund für diese Vorhaben.
  • Validity, die Qualität der Daten, denn ohne qualitativ hochwertige Daten ist es für Unternehmen unmöglich einen Mehrwert mit ihren Daten zu erzielen. Daten von minderwertiger Qualität können die Prognose Ergebnisse von Machine Learning Modellen negativ beeinflussen und im schlimmsten Fall zu fehlerhaften Vorhersagen führen.

IBM hat für die 4 + 1 Vs (Volume, Variety, Velocity, Veracity, Value) von Big Data eine sehr schöne Infografik erzeugt.

IDM Big Data Vs Infografik Volume, Variety, Velocity, Variety
IBM 4 + 1 V’s of Big Data

Was ist Big Data Analytics?

Big Data Analytics ist ein Begriff, der viele verschiedene Analysen und Methoden vereint. Ich bin der Meinung grundsätzlich kann man den Begriff in zwei Kategorien unterteilen:

  • Analytics, umfasst vor allem die Aufgabenbereiche Analysen, Reporting und Visualisierung. Hier werden die Daten so aufbereitet, das Entscheidungen auf Basis dieser Aufbereitung getroffen werden können.
  • Machine Learning, beschreibt das maschinelle Lernen von Systemen, die durch anhand von Daten lernen und dadurch den Entscheidungsprozess unterstützen. Ein Machine Learning Modell findet Einsatz für die Vorhersage von Ereignissen zur Verbesserung von Geschäftsprozessen oder ermittelt eine relevante Produktempfehlung für Kunden. Auch der große Deep Learning Trend ist hier einzuordnen.

All die oben genannten Themen sind nichts neues und werden täglich in Unternehmen umgesetzt. Der Unterschied zwischen Analytics und Big Data Analytics:

  • Verarbeitung enormer Datenmengen
  • schneller und flexibler Import und Export von Daten
  • Datenaktualität – Realtime
  • schnelle Verarbeitung der Daten
  • bessere Integration von Machine Learning Einsatz
  • Trennung von ML und ETL nicht mehr so stark – Daten sind oft im den gleichen Systemen vorhanden
  • ML-Scorings im Streaming Kontext

Download:

KI Use Cases für Marketing und Vertrieb

Jetzt eintragen und spannende KI-Projektbeispiele aus der Praxis erhalten:

Big Data Technologie

Am Markt gibt es viele eine Vielzahl von Big Data Technologien, so fällt es schwer den Überblick zu behalten. Aus meiner Praxiserfahrung kann ich sagen, dass es eigentlich nur eine Handvoll relevante Technologien gibt auf die man sich konzentrieren muss.

Big Data Technologien wie Apache Hadoop, Apache Spark und Apache Kafka entwickeln sich rasant weiter.

Apache Hadoop

Mit Apache Hadoop ist der Grundstein der Big Data Technologie gelegt worden. Das in Java geschriebene, verteile System lässt sich einfach skalieren und ist für große Datenmengen entwickelt. Der von Google Inc. entwickelte MapReduce-Algorithmus ist das Herzstück des Systems und ermöglicht die parallele Datenverarbeitung auf massiven Clustern.

Eine Einführung von mir zu Apache Hadoop findet ihr hier!

In der Praxis wird Hadoop oft als System zur Datenhaltung und für die Entwicklung von ETL-Prozessen eingesetzt. Hadoop bietet leider keine direkte Möglichkeit Machine Learning anzuwenden.

Apache Spark

Apache Spark ist im Jahr 2012 entstanden und entwickelt um die Nachteile des Hadoop MapReduce-Algorithmus auszubessern. Spark verarbeitetet, anders als Hadoop, die Datenmengen im Arbeitsspeicher und ist so viel Leistungsfähiger was die Berechnung angeht.

Abfragen im Vergleich Spark vs. Hadoop
Abfragen im Vergleich Spark vs. Hadoop

In der Praxis wird es oft für ETL-Prozesse sowie die Entwicklung und Integration von Machine Learning Algorithmen eingesetzt, aber auch die Realtime-Verarbeitung ist mit Structured Streaming in Spark möglich.

Spark ist sicher eines der interessantesten Open Source Projekte auf dem Markt. Hier erfährst du mehr in meinem Artikel zu: Was ist Apache Spark?

Apache Kafka

Apache Kafka ist ebenfalls ein Open Source Projekt der Apache Foundation und wurde bei LinkedIn entwickelt. Mit dem Fokus auf der verteilten Verarbeitung von Datenströmen hat Kafka eine andere Funktion als z.B. Hadoop oder Spark.

Kafka speichert und verarbeitet Datenströme und stellt ein API zum Laden und Exportieren von Datenströmen für andere Systeme bereit. So sind Hadoop und Spark oft Abnehmer von den Datenströmen von Kafka.

Mit Kafka können coole Streaming Use Cases umgesetzt werden, oft kommt Kafka für den Einsatz für das Streaming von Webtrackingdaten zum Einsatz und unterstützt Marketingprozesse im Webshop.

Apache Cassandra

Ist ein verteiltes Datenbanksystem, was für sehr große strukturierte Datensätze ausgelegt ist. Besonders die Robustheit und gute Skalierbarkeit sind die Stärken des spaltenorientierten Systems.

Apache Cassandra zählt zu den NoSQL-Datenbanksystemen und wird ebenfalls als Open Source Projekt von der Apache Foundation veröffentlicht. Das Konzept der Schlüssel-Wert-Relation spielt eine große Rolle, was zu schnellen Abfragegeschwindigkeiten führt.

Cassandra wird von großen Unternehmen wie Uber als ML Feature Store eingesetzt. Eine vergleichbare Datenbank ist die Dynamo DB auf Amazon AWS.

Ihr Kontakt: Vinzent Wuttke

Unternehmen sitzen auf einem ungenutzten Berg von Kundendaten. Wir von datasolut entwickeln KI, die Ihr Marketing optimiert. Damit Sie dem richtigen Kunden zur richtigen Zeit das richtige Angebot machen können.

Auch interessant für Sie