Der diesjährige Recap Databricks Summit 2024 brachte einige Neuigkeiten aus den Bereichen KI und Datananalyse mit sich. Highlights des Summits waren News zum Mosaic AI und die Vorstellung des Unity Catalog als Open Source: den ersten offenen Katalog für Daten- und AI-Governance, der die Zusammenarbeit und Transparenz von Data-Teams vereinfachen wird.
Der Databricks Data and AI Summit ist eine jährliche Konferenz, die Data Scientist, Data Engineers und Führungskräfte zusammenbringt, um die neuesten Entwicklungen zu Databricks und Künstlicher Intelligenz zu diskutieren. Die Veranstaltung umfasst Keynotes, technische Sessions, Networking-Möglichkeiten und Workshops, und dient als Plattform für Produktankündigungen und Innovationen von Databricks. Dieses Jahr nahmen über 16.000 Dateninteressierte live und über 40.000 virtuell an der Konferenz teil.
Schauen wir uns die Top-Neuigkeiten genauer an.
Neuigkeiten im Bereich Künstliche Intelligenz auf dem Data + AI Summit 2024
Der Data + AI Summit 2024 legte einen besonderen Fokus auf die Fortschritte im Bereich Künstliche Intelligenz. Unter anderem bietet Databricks durch Mosaic AI eine verbesserte Plattform zur Entwicklung und Implementierung von AI-Systemen. Außerdem stellte uns Databricks neue AI-gestützte Business Intelligence Tools vor, die das Durchführen komplexer Datenanalysen vereinfachen sollen.
Wir listen Ihnen die einzelnen Neuigkeiten auf.
Mosaic AI
Mosaic AI ist eine Plattform, die es ermöglicht komplexe KI-Anwendungsfälle schneller und effizienter zu erstellen. Die Plattform garantiert eine hohe Skalierbarkeit und Benutzerfreundlichkeit, damit Unternehmen die Vorteile der Künstlichen Intelligenz für ihre Datenverarbeitung nutzen können, ganz nach dem Motto: Weg von großen Sprachmodellen und hin zu spezifischen Modellen, die im Unternehmenskontext einen großen Mehrwert haben.
„We enable you to very easily, seamlessly be able to build your own AI on your custom data and productionize it and evaluate it.“
Craig Wiley, Databricks
Die Plattform zeichnet sich durch folgende Merkmale aus:
- Skalierbarkeit: Ermöglicht die problemlose Anpassung an große Datenmengen und komplexe Anwendungsfälle.
- Benutzerfreundlichkeit: Bietet eine intuitive Benutzeroberfläche und Tools, die die Entwicklung und Verwaltung von AI-Modellen vereinfachen.
- Integration: Unterstützt die nahtlose Integration mit bestehenden Databricks-Tools und anderen AI-Plattformen.
Vorteile:
- Effizienz: Beschleunigt die Entwicklung und Implementierung von AI-Lösungen
- Flexibilität: Unterstützt eine Vielzahl von Anwendungsfällen, von einfachen Vorhersagemodellen bis hin zu komplexen AI-Systemen
- Zuverlässigkeit: bietet hohe Verfügbarkeit und Leistung, auch bei großen Datenmengen
Somit können wir Mosaic AI verwenden, um Sprachmodelle zu entwickeln, die darauf abzielen spezifische Aufgaben im Unternehmenskontext zu lösen. Zum Beispiel das Coden auf der eigenen Plattform, da es auf die spezifische Datenstruktur trainiert wurde.
Ein weiterer Begriff der vermehrt im diesjährigen Summit in San Francisco fiel ist das Compound AI-System. Hiermit ist das Verwenden unterschiedlicher, mehrschichtige Sprachmodelle oder Systeme gemeint, die in Summe besser arbeiten als ein einzelnes System oder Modell zum Beispiel auf Basis von ChatGPT. Neben dem Mosaic AI und den Compund AI-System stellt Databricks den so genannten Genie Space vor.
Genie Space: Databricks AI/BI
Databricks Genie Space ermöglicht es uns, eine Anfrage in natürlicher Sprache zu stellen, da das Sprachmodell der Schnittstelle diese interpretieren kann. Als Antwort liefert es eine Analyse auf der Grundlage unserer Daten oder zeigt sie direkt in einem Dashboard an. Dies ist besonders interessant für schnelle Antworten auf einfache Fragen.
Databricks AI/BI umfasst eine Reihe von Business Intelligence-Tools, die speziell entwickelt wurden, um tiefere Einblicke in Daten zu ermöglichen und die analytischen Fähigkeiten von Unternehmen zu verbessern.
Technische Details und Funktionen:
- Erweiterte Analysen: Nutzung von AI zur Durchführung komplexer Datenanalysen und zur Erkennung von Mustern, die mit traditionellen BI-Tools schwer zu identifizieren sind.
- Intuitive Dashboards: Benutzerfreundliche Dashboards, die es Nutzern ermöglichen, Datenvisualisierungen und -analysen einfach zu erstellen und zu interpretieren.
- Automatisierte Insights: AI-generierte Erkenntnisse und Empfehlungen, die helfen, datengestützte Entscheidungen schneller zu treffen.
Vorteile:
- Tiefere Einblicke: Erkennung von verborgenen Mustern und Trends in großen Datenmengen
- Effizientere Entscheidungen: Schneller Zugang zu relevanten Daten und AI-generierten Empfehlungen
- Skalierbarkeit: Handhabung großer Datenvolumen und komplexer Analysen ohne Leistungseinbußen
Schauen wir uns nun die Entwicklungen im Bereich Data Engineering an.
Neuigkeiten im Bereich Data Engineering auf dem Data + AI Summit 2024
Im Bereich Data Engineering stellt Databricks auf dem Data + AI Summit 2024 das Feature LakeFlow vor. Der LakeFlow basiert auf den Prinzipien des Databricks WorkFlows und Delta Live Tables „with a little bit of magic sauce“ (Peter Pogorski, Databricks, über LakeFlow).
LakeFlow ermöglicht die Anbindung von Datenbanken auf der Databricks Plattform. Wir sind somit in der Lage über verschiedene Konnektoren verschiedenste Datenbanken und APIs ansteuern.
Die Plattform vereinfacht die Prozesse der Datenaufnahme, -transformation und -orchestrierung und steigert die Effizienz der Verwaltung und Optimierung von Datenpipelines. LakeFlow unterstützt Dateningenieure dabei, Daten aus verschiedenen Quellen nahtlos zu integrieren, zu verarbeiten und bereitzustellen, was die Bereitstellung von Datenprodukten beschleunigt.
Die Vorteile des LakeFlows auf einen Blick:
- Verbesserte Effizienz: Durch die Automatisierung von Datenpipelines werden manuelle Eingriffe minimiert, was die Effizienz der Datenverarbeitung erheblich steigert.
- Beschleunigte Bereitstellung: Datenprodukte können schneller und zuverlässiger bereitgestellt werden, was die Time-to-Insight reduziert.
- Erhöhte Flexibilität: LakeFlow ermöglicht die Integration verschiedenster Datenquellen und -formate, was die Flexibilität bei der Datenverarbeitung erhöht.
Wir sind durch LakeFlow nicht nur in der Lage Daten abzuziehen, sondern können dies mit einem Change-Data-Capture-Verfahren zu tun. Somit haben wir die Möglichkeit unsere Daten inkrementell aus den Quelldaten abzuziehen und sind nicht mehr darauf angewiesen, große Load-Prozesse zu schreiben. Das erleichtert die Projekte und reduziert die Entwicklungszeit.
Neben den Neuigkeiten der Datenintegration, verkündet Databricks ein Update im Bereich Data Streaming. Mit Real-Time Mode for Streaming bietet Databricks eine im Millisekunden-Bereich konsistent schnelle Möglichkeit, Daten zu streamen.
Neuigkeiten im Bereich Delta Lake auf dem Databricks Summit 2024
Die Funktionalität des Delta Lake wird durch die Partnerschaft zwischen Databricks und Tabular optimiert: Delta Lake 4.0. Die Partnerschaft ermöglicht eine flexiblere und effizientere Datenmanagementlösung durch die Interoperabilität über Delta Lake, Iceberg und Hudi hinweg. Unter anderem kamen neue Features hinzu wie das Liquid Clustering. Dies ermöglicht uns Daten auf Basis von Machine Learning neu zu clustern und zu sortieren, um so deutlich schnellere Lesevorgänge zu erzielen (bis zu 12x schneller beim Lesen und bis zu 7x schneller beim Schreiben). Eine weitere Neuerung ist der Open Variant Data Type. Dieser ermöglicht uns das Ablegen von unstrukturierten Daten im Delta Lake.
Die Vorteile auf einem Blick:
- Flexibilität: Unternehmen können ihre bevorzugten Tools und Plattformen nutzen, um ihre spezifischen Anforderungen zu erfüllen.
- Effizienz: Die nahtlose Integration verschiedener Datenformate optimiert die Datenverarbeitungsprozesse und erhöht die betriebliche Effizienz.
- Skalierbarkeit: Durch die Unterstützung mehrerer Datenformate können Unternehmen ihre Dateninfrastrukturen einfacher skalieren und anpassen.
Wie entwickelt sich die SQL-Engine?
Databricks erkennt, dass SQL die meistgenutzte Sprache von Entwicklern ist und arbeitet deswegen stetig an der Entwicklung der SQL-Engine. Die SQL-Engine wurde von Databricks optimiert mit dem Ziel, die Abfragegeschwindigkeit und die Skalierbarkeit zu verbessern. So haben wir nun die Möglichkeit, das Clustering, welches zuvor mit einer ID oder über eine Spalte gemacht werden musste, von Databricks verarbeiten zu lassen. Des Weiteren stellte Databricks die Neuerung Predictive I/O 2.0 vor, mit welcher unsere Queries im Hintergrund optimiert werden.
Das Update umfasst:
- Erweiterte Abfrageoptimierung: SQL-Abfragen können effizienter ausgeführt werden, durch fortschrittliche Algorithmen und Techniken zur Abfrageplanung.
- Skalierbare Infrastruktur: Die Engine kann große Datenmengen verarbeiten, was insbesondere für Big-Data-Anwendungen von Vorteil ist.
- Verbesserte Parallelverarbeitung: Die Nutzung von Rechenressourcen wird optimiert und die Latenzzeiten bei der Abfrageausführung reduziert.
Die Vorteile auf einen Blick:
- Schnellere Abfragen: Reduzierte Abfragezeiten führen zu schnelleren Datenanalysen.
- Bessere Ressourcennutzung: Effiziente Nutzung der verfügbaren Hardware verbessert die Kosteneffizienz.
- Erhöhte Skalierbarkeit: Unterstützung großer Datenvolumen ermöglicht die Bearbeitung komplexer Datenanforderungen.
Schauen wir uns nun die Neuerungen rund um den Unity Catalog an.
Wie steht es um den Unity Catalog?
Der Unity Catalog als Open Source ist der erste offene Katalog für Daten- und AI-Governance in der Branche. Der Katalog erleichtert die Einhaltung von Compliance-Anforderungen und verbessert die Datensicherheit, indem er eine zentrale Quelle für Datenrichtlinien und -standards bereitstellt. Databricks ermöglicht durch die Öffnung des Unity Catalogs als Open Source anderen Firmen und Entwicklern diesen weiterzuentwickeln.
„Meine Hoffnung ist, dass dann mehr Schnittstellen zum Unity Catalog entwickelt werden, und so dieses Governance-Tool stärker Verbreitung findet und mehr Firmen auf diese Technologie setzen.“ – Laurenz Wuttke (Geschäftsführer Datasolut)
Neu zu dem Unity Catalog zugefügt wurden die Metrics. Unity Catalog Metrics ermöglicht uns, Kennzahlen, die wir für BI oder ML entwickelt haben, zu registrieren und die Qualität zu sichern. Durch eine Check-Marc können wir zeigen, dass die entwickelte Metrik qualitativ gut ist. Zudem wurde das Monitoring des Unity Catalogs optimiert durch Unified Monitoring, so dass die Datenplattform besser überwacht werden kann.
Dadurch verspricht Databricks folgende Vorteile:
- Verbesserte Datenqualität und -sicherheit
- Effiziente Datenoperationen
- Compliance und Governance
- Förderung der Zusammenarbeit
Unser Fazit zum Databricks Summit 2024
Der Data- und AI-Summit 2024 von Databricks präsentierte verschiedene Innovationen im Bereich der Künstlichen Intelligenz und Datenanalyse. Top-Announcements waren unter anderem Mosaic AI, der Unity Catalog als Open Source und Databricks LakeFlow, die uns das Arbeiten mit Daten vereinfachen werden.
Sie wollen mehr zum Thema Databricks erfahren? Dann sind Sie hier richtig.
Ihr Ansprechpartner
Ob und wie künstliche Intelligenz Ihnen weiterhelfen kann, können Sie in einem ersten, unverbindlichen Gespräch mit uns herausfinden.
In diesem Gespräch erfahren Sie:
- Wie Ihr Use-Case technisch am besten umgesetzt werden kann
- Wie wir maximal sicher mit Ihren Kundendaten umgehen
- Wie lange wir für die Umsetzung benötigen und wie ein konkreter Projektplan aussehen könnte