Fabric vs. Databricks: Der Praxis-Guide

Databricks vs. Microsoft Fabric, wer gewinnt die Auszeichnung als beste Datenplattform? So einfach zu beantworten ist das leider nicht. Die beiden Datenplattformen Databricks und MS Fabric unterscheiden sich in verschiedenen Punkten wie der Architektur, dem Kostenmodell und der Anwendung.

In diesem Beitrag erklären wir Ihnen die wichtigsten Unterschiede und beäugen beide Plattformen kritisch. Am Ende sind Sie in der Lage zu entscheiden, welche Plattform für Ihre individuellen Anforderungen am besten ist.

Lassen Sie uns starten!

Vorstellung der Unternehmen

Databricks gehört zu den führenden Anbietern im Bereich der modernen Cloud-Datenplattformen. Es ermöglicht Unternehmen, die stetig wachsenden Mengen an strukturierten und unstrukturierten Daten effizient zu verarbeiten und damit BI / AI Lösungen zu erstellen, die einen Mehrwert für das Unternehmen erzielen. In der Vergangenheit haben wir Data-Warehouses (DWHs) zur Speicherung von strukturierten Daten genutzt, um damit BI-Anwendungen mit Daten zu versorgen. Meist bleiben allerdings wertvolle unstrukturierte Datenquellen wie Texte, Videos oder Bilder ungenutzt. 

Mit modernen Lakehouse-Tools wie Azure Databricks sind Unternehmen in der Lage, alle Datenakteure (Analysts, Data Engineers und Data Scientisten) auf einer Plattform zusammenzubringen, um AI und BI Anwendungsfälle umzusetzen.  

Microsoft Fabric bringt Neuerungen im Bereich der Cloud-Werkzeuge und kombiniert dabei Funktionen bekannter Dienste wie Power BI, Azure Synapse und Azure Data Factory in einer einheitlichen Plattform. 

Schauen wir uns an, wie die beiden Unternehmen entstanden sind. 

Der Hintergrund von Databricks

Databricks hat seine Wurzeln in der Wissenschaft und der Open-Source-Community und wurde 2013 von den ursprünglichen Erfindern von Apache Spark, Delta Lake und MLflow gegründet: Ali Ghodsi, Matei Zaharia, Reynold Xin und Ion Stoica. Als weltweit erste und etablierteste Lakehouse-Plattform in der Cloud vereint Azure Databricks die Vorteile von Data Warehouses und Data Lakes in einer offenen und einheitlichen Plattform für Daten und KI. 

Das Databricks-Projekt wurde entwickelt, um die Nutzung von Spark zu vereinfachen und hat sich mittlerweile zu einer End-to-End Plattform für alle AI und Data Anwendungsfälle entwickelt.  

Databricks übernimmt dabei Aufgaben wie: 

  • die Einrichtung und Konfiguration von Server-Clustern, 
  • die Anbindung an verschiedene Datenquellen (Data Ingestion), 
  • die Bereitstellung von Programmierschnittstellen für Python, Scala und SQL (Notebooks), 
  • Cluster und Workflow Optimierungen sowie Data Ingestion Funktionen wie Auto-Loader und Delta Live Tables (ETL, Data Engineering), 
  • sowie viele weitere komfortable Funktionen, die die Produktivität von Datenteams steigern oder dabei helfen die Total Cost of Ownership (TCO) zu reduzieren. 

Erste Vorteile von der Lakehouse Plattform in Databricks sind:  

  • Single-Source of Truth – es gibt eine Quelle der Wahrheit aller Daten 
  • End-to-End ETL und Streaming Funktionalitäten  
  • Leistungsstarke BI auf dem Data Lake 
  • Erstklassige AI/ML-Fähigkeiten und Unterstützung  
  • Offene, einheitliche Verwaltung und Sicherheit  

Der Hintergrund von Microsoft Fabric

Seit Ende 2023 bietet Microsoft mit Fabric eine End-to-End Analyse- und Datenplattform für Unternehmen an. 

Microsoft Fabric bietet verschiedene Funktionalitäten für:  

  • Datenintegration (Azure Data Factory) 
  • Verarbeitung (Azure Synpase) 
  • Orchestrierung (Workflows) 
  • Transformation (ELT / ETL) 
  • Echtzeit-Ereignisrouting 
  • Berichterstellung (nahtlose Einbindung von PowerBI) 

Weitere Angebote dieser Plattform ergeben sich in Diensten wie Data Factory, Data Science, Echtzeitanalyse, Data Warehouse und Datenbanken. Sie basiert zudem auf dem SaaS-Modell (Software as a Service), sodass die Datenanalyse durch eine benutzerfreundliche Plattform einfache Lösungen bietet und MS Fabric so gerne auch als „All-in-One“-Plattform bezeichnet wird.  

Schauen wir uns die Key-Facts der Entstehung beider Plattformen gegenübergestellt an.

Übersicht über die Datenplattformen Databricks Azure und Microsoft Fabric mit dem Erscheinungsjahr, dem Leistungsmodell, der Unternehmensgröße und dem Jahresumsatz.
Microsoft Fabric vs. Databricks

Da wir nun das Oberflächliche geklärt haben, tauchen wir ein in die Tiefe und werfen einen Blick auf die Architekturen der beiden Datenplattformen.

Wie unterscheiden sich Databricks und Fabric hinsichtlich der Architektur?

MS Fabric und Azure Databricks bieten allround-Lösungen für die Datenverarbeitung an, unterscheiden sich jedoch in ihrem jeweiligen Ansatz und verschiedenen Funktionen. Wir sehen uns die Architektur der beiden Plattformen an.  

Databricks Architektur

Databricks bietet eine Plattform für Data Science, Engineering und Big Data und soll besonders große Unternehmen bei der Datenverarbeitung unterstützen. Kernprodukt ist dabei eine erweiterte Apache Spark Engine, die das Abfragen von Daten ermöglicht. Durch das so genannte Data Lakehouse ist die Data-Intelligence-Plattform in der Lage, sowohl strukturierte als auch unstrukturierte Daten zu laden. Es vereint die Funktionen eines Data Warehouse und eines Data Lake auf einer einzigen Plattform und unterstützt Streaming Analytics, Business Intelligence (BI) und maschinelles Lernen. 

Das Lakehouse basiert auf dem Open-Source-Framework Apache Spark, das es ermöglicht, semi-strukturierte Daten ohne traditionelles Datenbankschema zu analysieren. Damit das Lakehouse trotzdem die Funktionalitäten eines Object Storages bietet, ergänzt Databricks dieses um den Delta Lake. Das Deployment-Modell erfordert eine manuelle Verwaltung der Infrastruktur (wir empfehlen IaC). 

Hierdurch können wir Features wie ACID-Compliance, Time Travel, Meta Daten und ODC nutzen. Außerdem vereinfacht uns Databricks die Zusammenarbeit, weil wir nicht mehr zwischen zwei Speichertools hin- und her kopieren und organisieren müssen. Schließlich sind alle Daten an einem Ort, was zusätzliche Betriebskosten senkt.

Die Data-Intelligence-Plattform von Databricks generiert Business Values in zwei Kategorien: 

(1) niedrigere Total Cost of Ownership und (2) schnellere Innovationszyklen durch Produktivitätsgewinne der Daten-Teams. 

Die daraus resultierenden Vorteile auf einen Blick: 

  1. einheitlichen Daten- und KI-Plattform,
  2. einer schnellen Laufzeit,
  3. in kollaborativen Arbeitsbereichen, der Unternehmenssicherheit und Stabilität (Unity Catalog)
  4. sowie einer schnellen Produkteinführungszeit. 

In der folgenden Grafik sehen Sie, wie Daten auf der Datenplattform von Databricks verarbeitet werden. 

Die Architektur von Azure Databricks mit dem Unity Catalog, Data Governance, Orchestrierung, Databricks Workflows und Delta Sharing.
Azure Databricks Data-Intelligence-Plattform Architektur

Schauen wir uns nun die Konkurrenz an. 

Die Architektur von MS Fabric

Fabric nutzt in erster Linie den „OneLake“, die Lakehouse-Lösung von Azure. Die Lösung basiert auf dem gleichen Open-Source Delta Lake-Dateiformat, wie die Lösung von Databricks. OneLake ermöglicht die Speicherung strukturierter und unstrukturierter Daten. Da Power BI– und Synapse-Nutzer ihre Daten häufig in vielen separaten Buckets speichern, bietet Fabric die Shortcut-Funktion. Diese Funktion ermöglicht die Verknüpfung von Daten aus mehreren Quellen (z.B. andere OneLake Instanzen, ADLS Gen2, AWS S3) während der Fabric-Laufzeit im OneLake. Shortcuts stellen lediglich Verknüpfungen dar, die Daten werden nicht direkt in OneLake gespeichert.

Die Infrastruktur ist hier etwas einfacher gestrickt. Das Warehouse bietet eine native Kompabilität mit T-SQL und gespeicherten Prozeduren.

Die einzelnen Funktionen von Fabric können Sie der folgenden Architekturskizze entnehmen. 

Die Architektur von Microsoft Fabric mit den Funktionen Data Factory, Synapse Engineering, Synapse Data Science, Data Warehouse, Real-Time-Analytics, PowerBI und Daten Activator.
Microsoft Fabric Architektur

Obwohl die Architektur von MS Fabric durch die Nutzung von Apache Spark, und den Delta Lake ähnlich zu der von Databricks ist, bestehen doch einige Unterschiede. Diese wollen wir uns im nächsten Abschnitt ansehen. 

Die Unterschiede zwischen Fabric und Databricks

Es gibt verschiedene Punkte, in denen wir die beiden Datenplattformen miteinander vergleichen können. Wir stellen sie Ihnen in der folgenden Tabelle vor. Im Anschluss gehen wir nochmal auf die wichtigsten Unterscheidungen ein.

Databricks vs. Microsoft Fabric:

 Databricks Microsoft Fabric 
Deployment Model & Infrastruktur  Erfordert eine manuelle Einrichtung und Verwaltung der Infrastruktur (IaC wird empfohlen). Es müssen zusätzliche Komponenten für die Datenplattform konfiguriert werden, z. B. Speicher und Netzwerke. Einfachere Einrichtung, aber möglicherweise sind Anpassungen für lokale Datenquellen oder private Endpunkte erforderlich. 
Sicherheit Höchste Priorität und Sicherheitsstandards. Verfolgt die Strategie „Define-once, enforce-everywhere” für eine Konsistenz über alle Compute-Engines hinweg. Es wird auf eine Data-Lake integrierte Sicherheit mit hierarchischen Berechtigungen gesetzt. 
Continuous Integration & Continuous Deployment (CI/CD) Ermöglicht eine robuste und nahtlose Integration verschiedener Git-Anbieter und unterstützt Notebooks.  Verfügt aktuell nur über eine Git-Integration mit Azure DevOps Services sowie GitHub, wodurch Ressourcen wie Notebooks, Reports und Datensätze versioniert werden können. Das ist ein klarer Nachteil und wir erwarten, dass die Integration anderer Anbieter erweitert wird.   
Data Ingestion & Transformation Stützt sich in erster Linie auf die codebasierte (Python, Scala, R, SQL) Dateneingabe und -umwandlung durch Databricks Notebooks. Bietet aktuell keine no-code/low-code Alternative. Allerdings wird LakeFlow im Q3 2024 erwartet, welches die Datenintegration vereinfachen soll. Bietet eine no-code/low-code-Alternative mit Dataflow Gen2 für die Datenintegration und -umwandlung, was es für Benutzer mit begrenzter Programmierungserfahrung zugänglicher macht. Benutzer können Notebooks für Transformationen im Lakehouse und SQL, Stored Procedures im Warehouse nutzen. Für fortgeschrittene Datenorchestrierung und ETL-Funktionen kann Data Factory mit über 150 Konnektoren verwendet werden. 
Data Warehouse Setzt auf PySpark und Spark SQL Bietet native Kompatibilität mit T-SQL und Stored Procedures, aber keine für PySpark und Spark SQL 
Entwicklungsumgebungen Volle Unterstützung für separate Umgebungen der Entwicklung, der Tests, der Abnahme und der Produktion Die Unterscheidung zwischen den Umgebungen erfolgt durch die Schaffung verschiedener Workspaces und ist in der Praxis ein manueller Prozess, welches eine produktionsreife Umsetzung mit Fabric aktuell noch zur Herausforderung macht. 
Data Katalog & Governance Unity Catalog ermöglicht Data Governance über alle Daten-Assets wie Models, Volumes, Tables, Views und ML-Feature. Zusätzlich bietet es einige eigenständige Features wie End-to-End Lineage. Hier hat Databricks klar die Nase vorn und der Unity Catalog ist die bessere Lösung. Purview ist noch in der Vorschau und es gibt somit keine übergreifende Governance über alle Ebenen. Ein großer Schwachpunkt von der aktuellen Fabrics Version (Stand: September 2024). 
Business Intelligence Integration (Power BI) Verbindung möglich mit Import & Direct Query durch Cluster oder SQL-Warehouse. Die Integration mit PowerBI, Tableau und anderen Tools erfolgt problemlos. Verbindung möglich mit Import & Direct Query & Direct Lake für optimierte Leistung. Hier spielt Fabric seine Stärken aus, da die native Integration von PowerBI einfach unschlagbar ist. 
Data Sharing Delta Sharing & Databricks API Fabric API bietet einige gemeinsame Nutzung, ist aber immer noch begrenzt (Vorschaufunktionen). 
Datenintegration Datenintegration erfolgt über Lakehouse Federation (keine Duplizierung der Daten) oder Delta Live Tables, welches die Integration neuer Datenquellen stark vereinfacht und viel Zeit spart. Bis Ende 2024 soll LakeFlow Connect verfügbar sein, welches die Integration von diversen Datenquellen vereinfachen wird (low-code Lösung).  Fabric Data Factory für (Low) Code & Dataflow Gen 2 für No-Code & Full Code in Lakehouse möglich.
Data Transformation PySpark- oder Spark-SQL-Transformationen in Notebooks & Delta Live Tables Low-Code mit Dataflow Gen 2 & Lakehouse für Spark-basierte Transformationen & Warehouses für SQL-basierte Transformationen 
Zugangskontrolle Ausgereifte und umfassende Suite von Sicherheitsfunktionen mit Unity Catalog. Derzeit sehr fragmentiert, da OneSecurity noch nicht verfügbar.
Erweiterte Analytik (maschinelles Lernen und Streaming) Unterstützt die native Integration von MLflow. Viele Funktionalitäten für GenAI von Mosaic AI (Model Gateway, Vector Search Datenbanken) sind noch in Private Preview. Modelle für maschinelles Lernen können in der Fabric-Benutzeroberfläche erstellt werden. MlFlow-API bietet ebenfalls Möglichkeiten zur Modellerstellung 
AI Assistant Databricks Assistant ist verfügbar als Codehilfe in Notebooks und im SQL-Editor  Project Genie für Self-Service BI CoPilot ist fest integriert als AI-Assistant 
Allgemeine Reife Ausgereiftere und etabliertere Plattform (mehr als 10 Jahre Entwicklung) Weniger ausgereift, aber schnell in der Entwicklung, noch relativ frisch am Markt und wenige produktive Lakehouses wurden in Fabric implementiert 
Kosten  In Databricks erfolgt die Abrechnung über „Databricks Units“ (DBU) nach dem Pay-per-Use-Prinzip. Hinzu kommen die Kosten des jeweiligen Cloud-Anbieters sowie Kosten für die Speicherung.  Microsoft Fabric berechnet die Kosten auf Basis von „Capacity Units (CU)“ nach dem Pay-as-you-go-Modell bei Nutzung einer Azure SKU. Alternativ können CUs für einen gewissen Zeitraum reserviert werden (um Kosten zu sparen). Hinzu kommen die Kosten für die Speicherung in OneLake.  
Die wichtigsten Unterschiede zwischen Microsoft und Databricks.

Falls die Informationen der Tabelle doch ein wenig unübersichtlich scheinen, gehen wir jetzt nochmal auf die wichtigsten Unterscheidungen ein. 

Deployment Model und Infrastruktur: 

Bei Databricks wird eine manuelle Einrichtung und Verwaltung der Infrastruktur gefordert, wobei wir IaC (entweder Terraform oder Databricks Asset Bundles) empfehlen. Außerdem müssen zusätzliche Komponenten für die Datenplattform konfiguriert werden. Bei Microsoft Fabric findet man eine einfachere Einrichtung vor, welche aber möglicherweise Anpassungen für lokale Datenquellen oder private Endpunkte benötigt.  

Sicherheit: 

Bei der Sicherheit sticht Databricks besonders positiv hervor, so dass diese auch im Ruhezustand gewährleistet werden kann. Fabric hingegen verfolgt die Strategie „Define-once, enforce-everywhere“ für eine Konsistenz über alle Compute-Engines hinweg. Es wird auch auf eine Data Lake integrierte Sicherheit mit hierarchischen Berechtigungen gesetzt. 

Bei der Zugangskontrolle ergibt sich bei Databricks eine ausgereifte und umfassende Suite von Sicherheitsfunktionen mit dem Unity Catalog. Die Zugangskontrolle bei Fabric ist zurzeit noch sehr einfach, da OneSecurity noch nicht verfügbar ist. Punkt für Databricks.  

CI/CD: 

Im Bereich CI/CD ermöglicht Databricks eine robuste und nahtlose Integration verschiedener Git-Anbieter und unterstützt auch Notebooks. Fabric hingegen verfügt aktuell nur über eine Git-Integration mit Azure DevOps Services sowie GitHub, wodurch Ressourcen wie Notebooks, Reports und Datensätze versioniert werden können. Databricks hat hier die Nase vorn, da es nicht nötig ist, Azure DevOps für sein Deployment nutzen zu müssen. 

Warum Lakehouses die Daten-Architektur der Zukunft sind

In unserem Whitepaper erfahren Sie:

  • Wie sich ein Data Lakehouse von anderen Architekturen unterscheidet.
  • Wie Sie durch ein Lakehouse KI-Anwendungen schneller umsetzen.
  • Wie Sie ihr internes Team befähigen selbstständig KI Projekte zu implementieren.
Jetzt herunterladen

Datenintegration und –transformation: 

Bei der Data Integration und Transformation zeigen beide Plattformen unterschiedliche Vorgehenswiesen. Databricks stützt sich in erster Linie auf die codebasierte Dateneingabe und -umwandlung durch Databricks Notebooks. Für komplexe Workflows sind zusätzliche Tools wie Delta Live Tables erforderlich.

Microsoft Fabric bietet hingegen eine no-code/low-code-Alternative mit Dataflow Gen2 für die Datenaufnahme und -umwandlung, was es für Benutzer mit begrenzter Programmiererfahrung einfacher macht. Diese basiert auf Power Query und hat eine ähnliche Nutzeroberfläche wie in PowerBI. Innerhalb von Pipelines kann zusätzlich die Copy Data Activity genutzt werden um Daten zu importieren. Außerdem können Benutzer Notebooks für Transformationen im Lakehouse mit Spark und T-SQL und gespeicherte Prozeduren im Warehouse nutzen. Für fortgeschrittene Datenorchestrierung und ETL-Funktionen kann Data Factory verwendet werden.  

Beim Data Warehouse setzt Databricks Azure auf T-SQL, beim Lakehouse auf PySpark und Spark SQL. Fabrics bietet unter diesem Aspekt eine native Kompatibiltät mit T-SQL und Stored Procedures, setzt dennoch aber ähnlich wie bei Databricks ebenfalls auf PySpark und Spark SQL. Zusätzlich können Daten aus bestimmten Quellen in Fabric mit Shortcuts verknüpft werden. 

Microsoft Fabric stößt bei sehr komplexen ETL-Prozessen sowohl kostenseitig als auch in der Performance an seine Grenzen und Databricks spielt hier seine Stärken durch Funktionen wie Delta Live Tables und Autoloader aus. Dieser Punkt geht an Databricks. 

Entwicklungsumgebung:  

Databricks bietet die volle Unterstützung für separate DTAP-Umgebungen. Bei Microsoft Fabrics erfolgt die Unterscheidung zwischen den Umgebungen durch die Schaffung verschiedener Arbeitsbereiche, was zwangsläufig dazu führt, dass pro Workspace eine Capacity Unit benötigt wird, damit Dev- und Prod-Workloads strikt voneinander getrennt sind. Sonst besteht die Gefahr, die Capacity für produktive Workloads mit weiteren Development Workloads zu überlasten. Dies führt zu höheren Kosten im Vergleich zu Databricks. Punkt für Databricks. 

Data Governance: 

Databricks nutzt den Unity Catalog, mit welchem wir verschiedene Ressourcen innerhalb der Databricks-Plattform verwalten können. Fabric hat hierfür vor kurzem Purview vorgestellt. Mit Hilfe von KI sollen Daten auf Purview einheitlich verwaltet werden. Aktuell bietet Purview noch keine übergreifenden Governance Lösungen wie der Unity Catalog. Zum Beispiel kann man keine ML-Modelle über Purview monitoren, dies wäre beim Unity Catalog ohne Probleme möglich. 

Im Bereich Data Governance bietet Databricks mit dem Unity Catalog, den wohl besten Out-of-the-box Data Governance Stack an, der es ermöglicht End-to-End Data Governance auf Enterprise Niveau abzudecken. Dieser Punkt geht an Databricks. 

Business Intelligence: 

Eine Verbindung mit Import & Direct Query ist bei Databricks mit Clustern oder SQL-Warehouses möglich. Bei Fabric sieht die Verbindung ähnlich aus, wobei auch noch eine Verbindung mit Direct Lake für eine optimierte Leistung möglich ist. Direct Lake ist hier besonders hervorzuheben, da dies eine direkte Datenanbindung aus OneLake in PowerBI ermöglicht, ohne die Daten erneut über ein Warehouse laden zu müssen. 

Die native Integration von Semantik-Modellen sowie der OneLake sind zwei wichtige Vorteile von MS Fabric und somit geht dieser Punkt an Fabric. 

Gemeinsame Datennutzung: 

Bei der gemeinsamen Datennutzung setzt Databricks auf Delta Sharing und eine Databricks API. Die Fabric API bietet eine gemeinsame Nutzung, ist aber immer noch begrenzt. 

Im Bereich der Dateneingabe setzt Databricks auf Notebooks, die flexibel zwischen Programmiersprachen wechseln können. In Fabric ist sowohl eine Data Factory für (Low)-Code möglich als auch Dataflow Gen2 für No-Code und Full Code im Lakehouse. 

Built-in GenAI Features

Auch beim AI-Assistenten zeigen sich Unterschiede, da dieser bei Databricks als Codehilfe in Notebooks und im SQL-Editor verfügbar ist (Databricks Assistant), in Fabric jedoch als CoPilot, der bei jedem Schritt der Data Warehouse-reise verfügbar ist. Databricks hat mit Project Genie einen neuen GenAI basierten Self-Service Ansatz initiiert und ermöglicht Nutzern mit natürlicher Sprache Fragen an bestehende Datensätze zu stellen. 

Allerdings bietet Databricks Azure auch eine Vielzahl an automatischen Optimierungen, wie Predictive I/O um die Performance von Jobs / Clustern dauerhaft zu optimieren und die Kosten von ETL Prozessen zu reduzieren. Mit der Data Intelligence Platform versucht Databricks GenAI in alle Bereichen der Lakehouse Platform zu implementieren und ist deutlich innovativer als Fabric in diesem Bereich. 

Hier unsere Bewertungsübersicht der beiden Plattformen. Für uns macht Databricks aktuell das Rennen.

Die Bewertung von Databricks vs. Fabrics Data-Plattform. Wir zeigen, wer in welchen Punkten Vorne liegt.
Databricks vs. Microsoft Fabric: Unser Rating

Der Unterschied zwischen Databricks vs. Microsoft Fabric hängt also von verschiedenen Faktoren ab. Azure Databricks ist schon länger auf dem Markt und zeichnet sich durch seine Ausgereiftheit und Innovationsfähigkeit (Leader im Lakehouse Segment von Gartner, 2024) aus.

Microsoft Fabric hingegen entwickelt sich schnell weiter und holt in der Datenanalyse einiges auf, was ein großes Potenzial für die Zukunft darstellt. Allerdings sind viele essenzielle Funktionalitäten noch nicht implementiert, sodass sich Fabric noch nicht für größere Lakehouse Projekte eignet. Dies mag sich in Zukunft ändern und wir werden die Entwicklung weiter beobachten. 

Für welche Plattform Sie sich dann letztendlich entscheiden sollten hängt unter anderem von dem Fachwissen des Unternehmens und der Größe der jeweiligen Datenteams ab.

Microsoft oder Databricks? Wir unterstützen Sie bei der Entscheidung. Kontaktieren Sie uns!

Damit Ihnen die Entscheidung ein wenig leichter fällt, stellen wir Ihnen aktuelle Gartner und Forrester Studien vor, die sich auf den Vergleich verschiedener Datenplattformen spezialisiert haben. 

Unabhängige Bewertungen: Microsoft Fabric vs. Databricks

Auch unabhängige Studien nehmen Analysen und Forschungen über die auf dem Markt existierenden Datenplattformen vor und geben Bewertungen über bestimmte Funktionen und Eigenschaften dieser Plattformen ab. Wir stellen Ihnen die wichtigsten Studien aus den Jahren 2023 bis 2024 vor und gehen dabei besonders auf Hinweise zu Databricks und Fabric ein.

Gartner 2024

In einer von Gartner im Juni 2024 durchgeführten Studie zeigt sich deutlich, dass Databricks besonders bei der Ausführung von Machine-Learning-Lösungen deutlich vorne liegt. Dicht gefolgt von seinem Kontrahenten Microsoft, Google und AWS.  

Darstellung der Studienergebnisse von Gartner zum Thema Datenplattformen.

Forrester 2024

In Q2 2024 hat Forrester das Aufkommen verschiedener Datenplattformen im Bereich Data Warehouse untersucht. Databricks ist eine der erfolgreichsten Plattformen und eine der führenden Analyseplattformen auf dem Markt. Obwohl Microsoft hier nicht aktiv an der Bewertung teilgenommen hat, ordnet Forrester diese Datenplattform selbst ein. Microsoft schneidet auch hier als einer der stärkeren Performer ab und ist als derzeit eine der präsentesten Plattformen auf dem Markt auf dem Weg, auch im Bereich der Data Lakehouses erfolgreich zu sein. 

Darstellung der Studienergebnisse von Forrester Wave zum Thema Datenplattformen.

Auch im Bereich der Cloud Data Pipelines hat Forrester im letzten Quartal 2023 eine Bewertung verschiedener Datenplattformen vorgenommen. Auch hier liegt Databricks an der Spitze und kann als am Markt präsente Plattform in dieser Kategorie überzeugen. Auch Microsoft zeigt hier eine starke Performance und ist auf dem Weg, eine der führenden Datenplattformen im Bereich Cloud Data Pipelines zu werden. 

Darstellung der Studienergebnisse von Gartner zum Thema Datenplattformen.

Darüber hinaus fasst Forrester hier auch die Bewertung der Datenplattformen im Bereich GenAI im zweiten Quartal 2024 in einer Grafik zusammen. Es wird deutlich, dass Databricks zwar nicht Marktführer ist, aber dennoch eine führende Rolle in dieser Kategorie einnimmt, obwohl Databricks sich nicht primär mit GenAI beschäftigt. Microsoft hingegen kann noch nicht ganz mithalten, zeigt aber mit seinen bisherigen Entwicklungen bereits eine gute Performance im Bereich GenAI. 

Darstellung der Studienergebnisse von Gartner zum Thema Datenplattformen.

Databricks kann sich in jeder der aktuellen Studien aus den Jahren 2023/2024 als eine der marktführenden Plattformen beweisen und eine qualitativ starke Performance in seinen Eigenschaften aufweisen. Microsoft kann als noch neue und etwas jüngere Datenplattform noch nicht in allen Kategorien mit Databricks mithalten, zeigt aber in einigen Bewertungen bereits marktführende Tendenzen und entwickelt sich stetig weiter. 

Schauen wir uns die Stärken und Schwächen der jeweiligen Plattform an, damit Ihnen die Entscheidung leichter fällt.

Microsoft Fabric vs. Databricks: Stärken und Schwächen

Der direkte Vergleich zwischen Databricks und Microsoft Fabric hinsichtlich Vor- und Nachteilen, wie der Benutzerfreundlichkeit, dem Data Governance, oder dem Kostenmodell.
Microsoft Fabric vs. Databricks im direkten Vergleich

Azure Databricks:

Die Stärke von Databricks liegt in der Rechenleistung. Als Entwickler von Spark liegt hier der Fokus auf der Geschwindigkeit der Big-Data-Verarbeitung. So kann Databricks auch im Real-Time Processing in Sachen Geschwindigkeit punkten und gerade bei Big Data und komplexen Analysen ist die Geschwindigkeit von Databricks sehr hilfreich. 

Ein weiterer Vorteil zeigt sich im Bereich Machine Learning, da Databricks hier auch Modelle von Drittanbietern anbietet. So hat Databricks im Bereich Machine Learning einen leichten Vorsprung gegenüber Microsoft Fabric. Das Kostenmodell von Databricks erweist sich als linear und erfordert keine sprungfixen Kosten. Azure Databricks ist Innovationsführer (siehe auch: Gartner Magic Quadrant, 2024). Der Umgang mit der Plattform benötigt allerdings einiges an Übung und ist weniger intuitiv verglichen mit Fabric. Es wird empfohlen Databricks nicht als Einsteiger zu verwenden und sich beim Umgang mit der Plattform auf eine steile Lernkurve vorzubereiten. Außerdem ist die Community verglichen zu Open-Source Plattformen kleiner, was bedeutet, dass es eine kleinere Anlaufstelle für Fragen gibt. 

Microsoft Fabric:

MS Fabric zeichnet sich hingegen besonders durch seine Benutzerfreundlichkeit aus. Es ist möglich, ohne große Programmierkenntnisse mit dieser Datenanalyseplattform zu entwickeln und zu programmieren. Die Plattform eignet sich besonders für kleine bis mittelständige Unternehmen, die mit ersten Data Science Projekten starten und sich ausprobieren wollen. 

Da Fabric von Microsoft entwickelt wurde, gibt es eine Reihe von Möglichkeiten, Fabric mit anderen Microsoft-Programmen zu verknüpfen und Drittanbieter anzubinden. Der größte Vorteil von Fabric ist jedoch die Basis rund um Power BI. Da der aktuelle Marktführer Power BI von Microsoft ist und diese Fabric um Power BI herum entwickelt wurde, sind beide nativ miteinander verbunden. Databricks kann hier noch nichts Vergleichbares bieten.  

Nachteile der Plattform zeigen sich in der Data Governance, da diese auf Unternehmensebene oft noch nicht vollständig zentralisiert ist. Auch kann es zu einer Komplexität in der Verwaltung von Zugriffsrechten kommen. Generell mangelt es Microsoft noch an Marktreife und bei der Nutzung von Microsoft Fabric, insbesondere durch Start-Up Unternehmen, kann es schnell zu einer gewissen Abhängigkeit von Microsoft und damit zu einer geringeren Flexibilität im Unternehmen kommen. 

Ein großer Punkt der Unterscheidung findet sich in dem Kostenmodell. Schauen wir uns das genauer an.

Kostenmodelle: Databricks vs. Microsoft Fabric

Fabric bietet ein festes Kostenmodell, unabhängig vom Verbrauch. Dies scheint auf den ersten Blick verlockend, birgt jedoch hohe Kosten. Das Abrechnungsmodell basiert auf dem Zusammenspiel von Kapazitäten, Verbrauchsdrossellungen, geliehenen Workloads und Buchungsrabatten. Verglichen dazu bietet Databricks für weniger Kosten mehr Funktionen wie Sicherheit und Governance, Datenqualität, Überwachung, Pipeline-Orchestrierung und Data Science/LLM-Funktionen.

Azure Databricks vs. Microsoft Fabrics Kostenmodell. Gegenübergestellt sind die Rechenleistung und die jeweiligen Kosten pro Ausnutzung von 50%, 100% und 150%
Azure Databricks vs. Microsoft Fabric Kostenmodell.

Wie viel Sie letztendlich bezahlen hängt mit Ihrem Verbrauch ab und kann deswegen monatlich stark variieren. Sie können somit zwar nicht mit einem fixen Investment rechnen wie bei Fabric, allerdings liegt hier ein anderes Problem vor: Sie zahlen entweder zu viel, weil Sie zu wenig nutzen oder Sie erleben eine temporäre Drosselung, veraltete Dashboards und die Sperrung von Nutzern. 

Databricks ist flexibler und skaliert linear vom Kostenmodell her, man zahlt also nur das, was man wirklich braucht. Fabric hingegen hat ein Kapazitätsmodell. Stoßen Sie an die Kapazitätsgrenze, so kann sich der Preis für Fabric verdoppeln und es liegen hohe ungenutzte Ressourcen vor. Das Pricing Modell von Microsoft ist zwar einfacher zu verstehen aber es verbergen sich wesentlich mehr Kosten als beim Pricing-Modell von Databricks. 

Wie man Azure Services und Databricks zur perfekten Platform kombiniert 

In der Praxis lassen sich die Stärken beider Plattformen hervorragend kombinieren, weshalb wir unseren Kunden, die bereits Microsoft im Einsatz haben, empfehlen, sowohl Azure Data Factory als auch ADSL Gen 2 für Storage zu nutzen. Die weiteren Verarbeitungsschritte der Medallion Architektur (Bronze, Silver, Gold) sowie Machine Learning Lösungen sollten dann direkt in Azure Databricks implementiert werden.

Für die eigene Entwicklung von GenAI Chatbots im RAG-Ansatz verfolgen beide Plattformen einen unterschiedlichen Ansatz, sind aber beide führend in diesem Bereich. Microsoft ist sehr eng mit OpenAI verbunden und die vorhandenen Frameworks nutzen dementsprechend GPT-Modelle (Closed Source). Databricks hingegen setzt hier eher auf ein Ökosystem von Services, die es Unternehmen ermöglichen, die Orchestrierung, das Data Ingestion sowie eine Vektordatenbank selbst aufzubauen, um dann Open-Source-Modelle (wie Llama 3.1 von Meta) oder Closed-Source-Modelle wie GPT zu nutzen.

Schließlich empfiehlt es sich, Databricks als Serving Layer für PowerBI-Reports zu verwenden (meist reicht hier der Importmodus). Die aggregierten Daten aus dem Gold Layer können dann in Power BI zur Visualisierung importiert werden. Semantische Modelle sind derzeit noch nicht nativ übertragbar, können aber problemlos in PowerBi Desktop erstellt werden.

Wie man sieht, können Azure Services und Databricks nahtlos miteinander kombiniert werden und die Kombination der beiden Plattformen kann eine charmante und effiziente Möglichkeit sein (Better Together).

Fazit

Beide Plattformen entwickeln sich zu führenden Unified-Data-Plattformen, die die Datenanalyse unterstützen und vereinfachen. Die Wahl der Plattform hängt von den Anforderungen, der Größe des Unternehmens und dem Datenreifegrad, sowie bereits gesammelten Erfahrungen in der Datenverarbeitung zusammen.

Nach unseren Erfahrungen mit diversen Kundenprojekten erweist sich Databricks als die bessere Plattform, besonders wenn Echtzeit-Analysen mit Machine Learning in hoher Geschwindigkeit gefragt sind und wir große Datenmengen verarbeitet wollen. Microsoft Fabric kämpft noch mit einigen Kinderkrankheiten, entwickelt sich allerdings schnell weiter. Der Low-Code / No-Code Ansatz hat seine positiven Aspekte, allerdings kann hierdurch auch ein gewisser Wildwuchs entstehen und essentielle Regeln sind schwieriger einzuhalten. Wir sind gespannt auf die zukünftigen Entwicklungen der beiden Plattformen und halten Sie auf dem Laufenden!

Sie wollen den ersten Schritt zur Data-driven-Company wagen? Dann kontaktieren Sie uns!

FAQ – Die wichtigsten Fragen schnell beantwortet

Was ist Databricks?

Databricks ist eine Cloud-basierte Big-Data-Plattform, die auf Apache Spark basiert. Sie bietet eine integrierte Entwicklungsumgebung für Data Science, maschinelles Lernen und Datenengineering.

Was ist Microsoft Fabric?

Microsoft Fabric ist eine umfassende Datenplattform, die verschiedene Datenintegrations-, Analyse- und Business-Intelligence-Funktionen bietet. Sie zielt darauf ab, Datenmanagement und Analysen über verschiedene Microsoft-Produkte zu integrieren.

Für welche Anwendungsfälle ist Databricks besser als Microsoft Fabric geeignet?

Databricks ist besonders für datenintensive Anwendungen und Machine-Learning-Workloads geeignet. Es ist ideal für Data Scientisten und Data Engineers, die mit großen Datenmengen arbeiten und verteilte Verarbeitung (i.e. Spark) benötigen.

Wann sollte man Microsoft Fabric nutzen?

Microsoft Fabric ist ideal, wenn der Fokus auf der Integration von Daten aus verschiedenen Quellen, BI-Dashboards und der Erstellung von umfassenden Analysen liegt. Es ist besonders für Unternehmen geeignet, die im Microsoft-Ökosystem (Power BI, Excel) bereits stark integriert sind.

Wie unterscheiden sich die beiden Plattformen hinsichtlich der Benutzerfreundlichkeit?

Microsoft Fabric ist für Business-Anwender und Analysten optimiert, die mit minimalem technischen Wissen arbeiten (Low-code und No-Code Ansatz). Databricks hingegen erfordert mehr technisches Verständnis (Python, Spark, SQL) und ist für Entwickler und Data Engineers optimiert.

Welche Skalierbarkeit bietet Databricks vs. Microsoft Fabric?

Databricks bietet hohe Skalierbarkeit für datenintensive Prozesse (ETL und Streaming), insbesondere bei Machine-Learning- und Streaming-Anwendungen. Microsoft Fabric ist ebenfalls skalierbar, jedoch eher auf Business-Intelligence-Anwendungen (mit PowerBi) und Datenanalysen fokussiert.

Wie unterscheiden sich die Kostenmodelle?

Databricks basiert auf der Abrechnung nach genutzten Rechen- und Speicherkapazitäten (DBU), während Microsoft Fabric über feste Capacity Units (CUs) und Storage Kosten abgerechnet wird.

Profilbild von Vinzent Wuttke Geschäftsführer Datasolut GmbH
Vinzent Wuttke
Geschäftsführer

Ihr Ansprechpartner

Ob und wie künstliche Intelligenz Ihnen weiterhelfen kann, können Sie in einem ersten, unverbindlichen Gespräch mit uns herausfinden.

In diesem Gespräch erfahren Sie:

  • Wie Ihr Use-Case technisch am besten umgesetzt werden kann
  • Wie wir maximal sicher mit Ihren Kundendaten umgehen
  • Wie lange wir für die Umsetzung benötigen und wie ein konkreter Projektplan aussehen könnte
Jetzt Erstgespräch vereinbaren

Weiterlesen

Business IntelligenceMicrosoft Vor 2 Monaten

Was ist Power BI? Leitfaden für Einsteiger in PowerBI

Power Bi wurde im Juli 2015 von Microsoft veröffentlicht. Das BI-Tool soll Nutzern ermöglichen, die Datenanalyse zu vereinfachen und die Ergebnisse visuell darzustellen. In unserem Blog erfahren Sie alles, was […]
Die Architektur von Microsoft Azure Synapse
Data PlatformMicrosoft Vor 2 Monaten

Was ist Azure Synapse? Vorteile, Funktion, Anwendung

Microsoft Azure Synapse Analytics ist eine Datenplattform, die Data Warehousing und Big Data-Analysen in einer integrierten Umgebung vereint. Azure Synapse ermöglicht es Unternehmen, Daten aus verschiedenen Quellen zu integrieren, zu […]
Databricks Unity Catalog Überblick
Databricks Vor 3 Monaten

Der Databricks Unity Catalog einfach erklärt      

Der von Databricks angebotene Unity-Catalog ist ein Governance-Tool, mit dem verschiedene Ressourcen innerhalb der Databricks-Plattform verwaltet werden können.  Mit seinen umfangreichen Funktionen ermöglicht Unity Catalog die Verwaltung zahlreicher Databricks-Ressourcen, darunter […]
Data PlatformMicrosoft Vor 3 Monaten

Was ist Microsoft Fabric? Eine Einschätzung aus der Praxis

Microsoft Fabric wurde erstmals im Mai 2023 auf der Microsoft Build Konferenz vorgestellt und ist eine umfassende Daten- und Analyseplattform. Die Plattform ermöglicht das einheitliche Speichern, Verwalten und Arbeiten an […]
Data PlatformDatabricks Vor 3 Monaten

Was ist Databricks? Nutzen, Vorteile, Umgebung

Databricks ist ein Cloud-basiertes Tool, das den gesamten Prozess der Datenverarbeitung vereinfacht: von Data Engineering über Data Science bis hin zu maschinellem Lernen. Unternehmen nutzen Databricks, um große Datenmengen zu […]
Databricks Vor 4 Monaten

Databricks Summit 2024 – Unsere Highlights

Der diesjährige Recap Databricks Summit 2024 brachte einige Neuigkeiten aus den Bereichen KI und Datananalyse mit sich. Highlights des Summits waren News zum Mosaic AI und die Vorstellung des Unity […]
Big DataData Engineering GrundlagenDatabricks Vor 7 Monaten

Snowflake vs. Databricks: Wer hat die Oberhand?

Was ist der Unterschied zwischen Databricks und Snowflake? Dieser Frage stellen wir uns und geben einen ausführlichen Vergleich. Kaum ein Unternehmen kommt heute ohne Datenanalyse ans Ziel. Der Wettbewerb auf […]
Big DataDatabricks Vor 9 Monaten

Der Data Lakehouse Ansatz – eine moderne Cloud-Datenplattform 

Ein Data Lakehouse-Ansatz bietet die Flexibilität und Skalierbarkeit eines Data Lakes in Kombination mit hoher Datenqualität, Transaktionssicherheit und vereinfachter und vereinheitlichter Verwaltung bzw. Governance des Data Warehouse. Der Data Lakehouse […]
Data Engineering GrundlagenDatabricks Vor 2 Jahren

Kostenoptimierung bei Databricks

Das Databricks Kostenmodell basiert auf einem Pay-as-you-go Modell, deshalb ist es wichtig zu wissen, wie Sie die Ausgaben auf Databricks kontrollieren und die Kosten somit optimieren können.  In diesem Beitrag […]
Newsletter und Updates

Sie sehen gerade einen Platzhalterinhalt von HubSpot. Um auf den eigentlichen Inhalt zuzugreifen, klicken Sie auf die Schaltfläche unten. Bitte beachten Sie, dass dabei Daten an Drittanbieter weitergegeben werden.

Mehr Informationen
Erstgespräch vereinbaren