Wer Databricks schon länger im Blick hat, kennt das Gefühl: Kaum hat man sich mit einem Feature vertraut gemacht, kündigt Databricks das nächste an. Unity Catalog, Lakeflow, Agent Bricks, Genie Spaces, Serverless OLTP — die Liste wächst schneller, als die meisten Projektteams Schritt halten können.
Das ist keine Kritik. Es ist das Resultat einer Plattform, die konsequent in eine Richtung denkt: alles unter einem Dach. Weniger Toolwildwuchs, weniger Systembrüche, weniger Abhängigkeiten zu Drittsystemen. In diesem Artikel schauen wir uns alle relevanten Databricks Features an — was sie können, wofür sie eingesetzt werden und wie sie zusammenspielen.
Unity Catalog – Governance und Datenverwaltung aus einem Guss
Wer viele Daten hat und viele Nutzer, hat unweigerlich ein Governance-Problem. Wer darf was sehen? Welche Tabellen sind aktuell? Welches Modell ist produktionsreif? Diese Fragen lassen sich ohne ein zentrales Verwaltungselement nicht sauber beantworten.
Der Unity Catalog ist das Fundament von Databricks. Er ist nicht nur ein Metadaten-Katalog für Tabellen, Views und externe Datenbankverbindungen — er verwaltet auch Machine Learning Modelle und generative KI-Modelle. Alles an einem Ort, einheitlich durchsuchbar und steuerbar.
Darüber hinaus übernimmt der Unity Catalog aktive Schutzfunktionen: Datenmaskierung, Row-Level-Filter auf Basis von Nutzerrechten und ein feingranulares Berechtigungskonzept. Das bedeutet in der Praxis: Ein Data Scientist sieht nur die Daten, für die er berechtigt ist — ohne dass man dafür eigene Filter-Logiken in jede Pipeline einbauen muss.
Warum das relevant ist: In größeren Organisationen scheitern Datenprojekte häufig nicht an der Technik, sondern an der Governance. Unity Catalog löst dieses Problem strukturell, nicht durch manuelle Prozesse.
Apache Spark Engine – eine Engine für Batch und Streaming
Die meisten Datenplattformen haben ein stilles Architekturproblem: Batch-Verarbeitung läuft auf einer Engine, Streaming auf einer anderen. Das bedeutet duplizierte Logik, zwei Deployment-Prozesse und zwei Teams, die sich synchron halten müssen.
Databricks baut auf Apache Spark — einem verteilten, in-memory-basierten Processing-Framework, das massiv parallel arbeitet. Entscheidend ist: Es ist eine einheitliche Engine, die über unterschiedliche Interfaces angesprochen werden kann. Einen umfassenden Einstieg in die Plattform bietet unser Artikel Was ist Databricks?
- SQL Warehouses: Standard-SQL für analytische Abfragen, optimiert für BI-Workloads
- Spark Interface: PySpark, R oder Scala für komplexere Transformationen und ML-Pipelines
Das Besondere ist die Dualität: Dieselbe Business-Logik kann ohne Anpassung sowohl als Batch-Job als auch als Streaming-Job laufen. Wer heute einen täglichen ETL-Prozess hat und morgen in Richtung Near-Realtime möchte, muss die Logik nicht neu schreiben — sondern nur den Ausführungsmodus ändern.
Machen Sie Databricks zu Ihrem Wettbewerbsvorteil
Mit unserer Databricks-Beratung entwickeln Sie eine skalierbare Architektur, realisieren produktive Use Cases und befähigen Ihr Team nachhaltig.
Databricks Dashboards – Visualisierung ohne Medienbruch
Der typische Weg in vielen Unternehmen: Daten liegen in einer Data Platform, für die Visualisierung wird Power BI oder Tableau angebunden, und plötzlich sind zwei Teams und zwei Kostenstellen involviert. Wer die Integrationsmöglichkeiten zwischen Power BI und Databricks kennen möchte, findet dort einen detaillierten Vergleich.
Databricks Dashboards bieten einen anderen Ansatz: Die Visualisierungsschicht liegt direkt auf der Plattform, greift auf Daten im Unity Catalog zu und wird von einem SQL Warehouse angetrieben. Kein Datenexport, kein separates Lizenzmodell pro Nutzer.
Das Preismodell unterscheidet sich ebenfalls von klassischen BI-Tools: Statt einer fixen monatlichen Gebühr zahlt man für den tatsächlichen Compute-Verbrauch. Für Dashboards, die selten abgefragt werden, ist das ein echter Kostenvorteil.
In der Vergangenheit waren Databricks Dashboards eher eine Randerscheinung. Das hat sich geändert. Die Entwicklung ist in den letzten Quartalen deutlich beschleunigt worden — und das nächste Feature zeigt, warum. Mehr dazu, wie Databricks die Business-Anwender-Schicht weiterentwickelt, lesen Sie in unserem Artikel zu Databricks One.
Genie Spaces – Self-Service Analytics mit natürlicher Sprache
Die Fachseite möchte wissen, wie sich die Retourenquote im letzten Quartal nach Region aufteilt. Der Wunsch landet beim Data-Team, das ein Dashboard bauen soll — in zwei Wochen, wenn der Sprint es erlaubt.
Dieses Muster kennen viele Unternehmen. Genie Spaces ist der Versuch, es strukturell aufzulösen: ein Interface, in dem Nutzer Fragen in natürlicher Sprache stellen und Databricks die entsprechende SQL-Abfrage generiert und ausführt.
Was in der Theorie einfach klingt, ist in der Umsetzung anspruchsvoll, weil natürlichsprachliche Anfragen oft mehrdeutig sind und die KI im Hintergrund die Datenbankstruktur verstehen muss. Databricks hat hier gut investiert, und die Qualität der Antworten ist für viele Standardfragen bereits praxistauglich.
Besonders nützlich: Genie Spaces lässt sich direkt in Dashboards einbetten. Wer auf einem Dashboard eine weiterführende Frage hat, kann diese direkt eingeben, ohne die Oberfläche zu wechseln. Die KI generiert das SQL, führt es aus und liefert die Antwort — alles innerhalb der bestehenden Governance-Struktur.
Lakeflow – Datenpipelines von der Quelle bis zur Analyse
Wie kommen Daten eigentlich nach Databricks? Und wie werden sie dort verarbeitet? Diese Frage ist in vielen Unternehmen mit einer langen Liste an Tools beantwortet: ein Connector hier, ein ETL-Tool dort, ein Orchestrierungs-Framework obendrauf.
Lakeflow ist das Databricks-Angebot für den gesamten Datenpipeline-Lifecycle — aufgeteilt in drei Module:
| Modul | Funktion |
|---|---|
| Lakeflow Connect | Verbindung externer Datenquellen mit Databricks; CDC-Konnektoren für Realtime-Replikation aus Datenbanken |
| Lakeflow Pipelines | Deklarative ETL-Pipelines; einfache Erstellung von Transformationslogik mit integrierter Fehlerbehandlung |
| Lakeflow Jobs | Orchestrierung und Steuerung aller Workloads auf der Plattform |
Das Ziel ist die Reduktion von Komplexität: Weniger externe Tools, weniger Schnittstellen, weniger Abhängigkeiten. In der Beratungspraxis sehen wir regelmäßig, dass Unternehmen für die Datenpipeline-Ebene allein drei bis fünf verschiedene Systeme betreiben, mit allen Konsequenzen für Wartung, Monitoring und Fehlersuche.
Wie der Aufbau einer skalierbaren Datenplattform mit Databricks in der Praxis aussieht, zeigen wir in einem eigenen Use Case.
Lakeflow Zero Bus – IoT- und Echtzeit-Daten direkt integriert
Streaming-Daten aus Maschinen, Sensoren oder Applikationen haben besondere Anforderungen: hohe Volumen, niedrige Latenz, direkte Verarbeitbarkeit. In klassischen Architekturen steht dafür ein separates Message-Broker-System — Kafka, Event Hubs oder ähnliches — das an die Data Platform angebunden werden muss.
Mit Zero Bus hat Databricks eine native Lösung für genau dieses Szenario eingeführt. Zero Bus ist als direkte Schnittstelle für IoT-Daten und hochfrequente Event-Streams konzipiert und wird nahtlos in die Databricks-Plattform integriert, ohne ein separates System dazwischen.
Für Unternehmen, die Maschinendaten, Klickstreams oder Telemetrie in nahezu Echtzeit verarbeiten und analysieren wollen, bedeutet das: eine Komplexitätsebene weniger und eine engere Integration in den Rest der Plattform.
Bringen Sie Struktur in Ihre Databricks-Architektur
Mit DSX Lakehouse schaffen Sie eine skalierbare, sichere und produktionsreife Lakehouse-Basis in AWS oder Azure.
Agent Bricks – KI-Agenten auf Enterprise-Niveau
Viele Unternehmen bauen KI-Agenten und stellen schnell fest, dass die eigentliche Herausforderung nicht der Agent selbst ist, sondern alles drumherum: Domain-spezifisches Wissen einbinden, Antwortqualität messen, Kosten im Griff behalten, Compliance sicherstellen.
Agent Bricks ist das Databricks-Angebot für den vollständigen Agenten-Lebenszyklus:
- Entwicklung: Agenten bauen, die direkt auf Daten im Unity Catalog zugreifen
- Monitoring: Anfragen loggen, Antwortqualität tracken, Fehlverhalten erkennen
- Optimierung: Agenten günstiger und präziser machen — auf Basis realer Nutzungsdaten
- Governance: Zugriffsrechte werden vom Unity Catalog vererbt, der Agent sieht nur, was der Nutzer sehen darf
Das letzte Punkt ist in der Praxis oft unterschätzt: Wer einen Agenten baut, der auf Unternehmensdaten zugreift, muss sicherstellen, dass dieser Agenten nicht unbeabsichtigt sensible Daten preisgibt. Unity Catalog macht das strukturell, nicht durch manuelle Filterlogik im Agenten-Code.
Databricks Apps – Custom Interfaces direkt auf der Plattform
Wer einen KI-Agenten gebaut hat, braucht meist auch ein Interface dafür. Der klassische Weg: eine separate VM in der Cloud, eine eigene Deploymentpipeline, eine eigene Zugriffsverwaltung.
Databricks Apps bieten eine Alternative: Compute-Ressourcen, die direkt im Unity Catalog verwaltet werden und direkt mit der Plattform verbunden sind. Unterstützt werden beliebige Programmiersprachen — die Anwendung greift über native Interfaces auf Modelle und Daten zu, ohne Umwege.
Das ist besonders sinnvoll für interne Tools: Ein Dashboard für das Vertriebsteam, eine Recommender-Oberfläche für den Customer Service, ein internes Analyse-Frontend für die Controlling-Abteilung. Alles governancegesichert, alles auf einer Plattform.
Serverless OLTP Datenbank – transaktionale Daten trifft Analytics
Klassische OLTP-Datenbanken — Oracle, PostgreSQL, SQL Server — sind optimiert für schnelle Einzelzugriffe. Analytische Funktionen, Machine Learning, komplexe Aggregationen? Nicht ihr Kerngeschäft.
Databricks hat eine Serverless OLTP Datenbank eingeführt, die direkt im Unity Catalog gestartet wird. Sie kombiniert die niedrige Latenz eines Transaktionssystems mit der nativen Anbindung an die analytische Infrastruktur von Databricks.
Konkrete Anwendungsfälle:
- ML Serving: Empfehlungen oder Vorhersagen müssen in Millisekunden an einen Touchpoint geliefert werden. Die OLTP Datenbank übernimmt die schnelle Bereitstellung
- Agent Memory: KI-Agenten brauchen kontextuelle Informationen in Echtzeit: die Datenbank liefert sie
- ERP-Integration: Die längerfristige Vision ist größer: ERP-Backends, die direkt mit der analytischen Schicht von Databricks verbunden sind, und Machine Learning als nativen Bestandteil der Geschäftslogik haben
Das ist keine Science-Fiction. Es ist eine Architektur, die mit dieser OLTP Datenbank greifbar wird.
MLflow – Tracking für klassische und generative KI
Wer Machine Learning ohne Tracking betreibt, weiß nicht, welches Modell unter welchen Bedingungen was geleistet hat. Reproduzierbarkeit, Vergleichbarkeit, Rollback — all das setzt Tracking voraus.
MLflow ist ein Open-Source-Projekt, das Databricks vor Jahren entwickelt hat und das heute Marktstandard im ML-Tracking ist. Es deckt zwei Welten ab:
Klassisches Machine Learning: Forecasting, Klassifikation, Regression — Hyperparameter, Metriken, Artefakte werden versioniert und vergleichbar gemacht.
Generative KI / LLM-Ops: Welche Prompts kommen rein? Welche Antworten generiert der Agent? Wie verändert sich die Qualität über Zeit? MLflow macht auch GenAI-Projekte nachvollziehbar und steuerbar.
In Verbindung mit Unity Catalog sind alle Modelle, ob klassisch oder generativ, zentral registriert, versioniert und mit Zugriffsrechten versehen.
Delta Sharing – Daten einfach und sicher teilen
Der klassische Weg, Daten mit externen Partnern zu teilen: Daten exportieren, SFTP-Server einrichten, Zugangsdaten verteilen, auf den Partner warten. Ineffizient, schwer zu monitoren und fehleranfällig.
Delta Sharing ist ein offenes Protokoll, das direkt aus dem Unity Catalog heraus funktioniert. Partner oder Kunden können Datenzugriffe anfragen, die im Catalog gesteuert und überwacht werden. Kein Datenkopieren, keine separaten Server, kein Kontrollverlust.
Das funktioniert auch intern: Teams, die Daten von anderen internen Domänen beziehen wollen, können über Delta Sharing auf kuratierte Datensätze zugreifen — governed, versioniert, auditierbar.
Fazit: Databricks als Plattform — nicht als Tool-Sammlung
Die Stärke von Databricks liegt nicht in einzelnen Features. Sie liegt in der Kohärenz: Unity Catalog zieht sich als Governance-Schicht durch alle Komponenten. Apache Spark ist die einheitliche Processing-Engine. Lakeflow, Agent Bricks, Dashboards, Genie Spaces — sie alle sind Schichten auf demselben Fundament.
Das hat einen handfesten Vorteil für Unternehmen: Wer in Databricks investiert, reduziert die Anzahl der Tools, die parallel betrieben, integriert und gewartet werden müssen. Weniger Schnittstellen bedeuten weniger Fehlerquellen, weniger Betriebsaufwand und mehr Entwicklungsgeschwindigkeit.
Gleichzeitig gilt: Nicht jedes Feature ist für jedes Unternehmen sofort relevant. Wer gerade eine Datenplattform aufbaut, fängt mit Unity Catalog, Apache Spark und Lakeflow an. Wer KI-Agenten produktiv einsetzen will, schaut sich Agent Bricks und die OLTP Datenbank an. Wer die Fachseite emanzipieren möchte, nimmt Genie Spaces in den Blick.
Die Plattform ist groß. Der richtige Einstieg hängt von Ihren konkreten Anforderungen ab. Wer noch unentschieden ist, ob Databricks die passende Plattform ist, findet in unserem großen Datenplattform-Vergleich 2025 und im direkten Vergleich Databricks vs. Microsoft Fabric eine strukturierte Entscheidungshilfe.
Jetzt starten: Databricks-Strategie mit Datasolut
Als Databricks Champion begleiten wir Unternehmen dabei, die richtigen Features zur richtigen Zeit einzuführen — ohne Overengineering, ohne unnötige Komplexität. Von der ersten Plattformarchitektur bis zur produktiven KI-Anwendung.
Wenn Sie wissen möchten, welche Databricks Features für Ihr Unternehmen heute den größten Hebel haben, sprechen Sie mit uns. Das erste Gespräch ist unverbindlich.
Lassen Sie uns sprechen und Ihr Potenzial entdecken.
Ob und wie künstliche Intelligenz Ihnen weiterhelfen kann, können Sie in einem ersten, unverbindlichen Gespräch mit uns herausfinden.
In diesem Gespräch erfahren Sie:
- Wie Ihr Use-Case technisch am besten umgesetzt werden kann
- Wie wir maximal sicher mit Ihren Kundendaten umgehen
- Wie lange wir für die Umsetzung benötigen und wie ein konkreter Projektplan aussehen könnte