Databricks Kostenschätzung: So ermitteln Sie Ihre laufenden Databricks-Kosten

Databricks ist eine leistungsstarke Plattform für Datenanalyse und KI. Doch viele Unternehmen unterschätzen die laufenden Betriebskosten. Zu oft fehlt ein klarer Überblick darüber, welche Workloads welche Ressourcen verbrauchen – und welche Stellschrauben den Unterschied zwischen effizient und teuer machen.

In diesem Artikel erläutern wir, wie ein richtiges Sizing methodisch durchgeführt wird. Dazu gehen wir auch auf die Databricks-Kostenstruktur und -Kostentreiber ein.

Zur Verdeutlichung der geschätzten Kosten nutzen wir ein anonymisiertes Beispiel aus unserer Beratungspraxis.

Lassen Sie uns starten: Wie macht man ein Sizing für einen Databricks Use Case?

Warum Sizing entscheidend ist

Im Gegensatz zu einigen anderen Anbietern, arbeitet Databricks nach dem Pay-as-you-go-Prinzip. Das bedeutet, Sie zahlen ausschließlich für die „aktive“ Nutzung der Software.

Hier kommen Sie zum allgemeinen Kostenmodell von Databricks.

So ist es beispielsweise möglich auch sehr günstige Szenarien abzubilden, da man keinerlei „Baseline“, also Fixkosten hat. Das sorgt für viel Optimierungspotential. Allerdings ist dieses Preismodell auch etwas aufwendiger zu verstehen und richtig umzusetzen.

Warum Lakehouses die Daten-Architektur der Zukunft sind

In unserem Whitepaper erfahren Sie:

Wie sich ein Data Lakehouse von anderen Architekturen unterscheidet.
Wie Sie durch ein Lakehouse KI-Anwendungen schneller umsetzen.
Wie Sie ihr internes Team befähigen selbstständig KI Projekte zu implementieren.

Jetzt herunterladen

Im Klartext heisst das: Eine Databricks-Plattform kann sowohl günstig als auch teuer betrieben werden – je nachdem, wie präzise sie auf die tatsächlichen Workloads abgestimmt ist.

Ein sauberes Sizing bedeutet, die Plattform technisch wie wirtschaftlich zu dimensionieren: Welche Rechenleistung wird wann, wie oft und von wem benötigt?

Fehlt diese Analyse, drohen überdimensionierte Cluster, Datenleerlauf und nicht genutzte Commitments: die häufigsten Ursachen unnötiger Cloud-Kosten. Um zu verstehen, wie sich die Kosten zusammensetzen, erläutern wir zunächst den Begriff Databricks Unit (DBU) und zeigen die maßgeblichen Kostentreiber auf.

Technische Grundlage: DBUs als Maßstab

Eine Databricks Unit (DBU) ist die kleinste Einheit der Rechenleistung. Die Nutzung bzw. Bereitstellung/-haltung der DBUs bildet einen zentralen Kostenpunkt beim Einsatz von Databricks. Die Kosten hängen ab von:

Workload-Typ (z. B. All-Purpose vs. Job Cluster)
Compute-Ebene (Classic vs. Serverless)
Instanzgröße (VM-Typ)
Cloud-Plan (Standard, Premium, Enterprise)

Auf der obersten Entscheidungsebene wird zunächst über den Workload-Typ entschieden, wie hoch die Grundkosten pro DBU sind:

Auf tieferen Detailebenen entscheidet man dann über die weiteren Attribute (z.B. Cloud-Plan, Instanztyp und Lokalisierung) und die benötigte Größe/Menge (Anzahl der Instanzen, Geplante Nutzungsdauer, Nutzer).

Wir werden an späterer Stelle mit einem Beispiel tiefer in die Details gehen.

Für Sie auch interessant:

Dies sind die Haupttreiber der Databricks-Kosten

Eine klare Strukturierung von Workloads und Aufgabenbereichen ist entscheidend. In der folgenden Tabelle zeigen wir die wichtigsten (beeinflussbaren) Kostentreiber mit einem Steuerungsansatz auf:

Kostentreiber	Beschreibung	Steuerungsansatz
DBU-Verbrauch (Compute)	Jede Clusterlaufzeit erzeugt DBU-Kosten.	Cluster dimensionieren, Auto-Termination aktivieren.
Cluster-Typ & Nutzungsmuster	Interactive-Cluster teurer als Job-Cluster.	Workloads trennen, Serverless für Kurzläufer.
Instanztyp & Skalierung	VM-Größe und Autoscaling beeinflussen DBUs.	Passende VM-Typen, Limits definieren.
Storage & I/O	Delta Logs und Versionierung erhöhen Storage.	Lifecycle-Management, Cold-Storage.
Lizenzplan & Commitments	Premium-Funktionen und Agreements beeinflussen Preis.	Commit nur bei stabilen Workloads.

Nachdem die Grundlagen für die anfallenden Kosten bekannt sind, starten geht es mit der Methodik des Sizings weiter.

Methodik: Vom Use Case zur Kapazität

Eine professionelle Databricks-Kostenschätzung folgt einem klaren Ablauf, den wir in unseren Kundenprojekten bei Datasolut standardisiert haben. Dazu wird unter anderem in einem speziellen Sizing-Workshop ein Sizing-Fragebogen bearbeitet. Dieser führt die wichtigsten Fragen auf, die sich Unternehmen bezüglich der Art und des Umfangs stellen müssen. Exemplarisch sind wichtige Fragen in der nachstehenden Tabelle aufgeführt:

Schritt	Beschreibung	Typische Fragen
1. Rahmenbedingungen erfassen	Geschäftsziele, Nutzeranzahl, Zugriffszeiten, Datenvolumen	Wie viele User? Wann Spitzenlast? Welche Cloud?
2. Workload-Typ bestimmen	Batch, Streaming, BI, ML oder GenAI	Welche Prozesse laufen regelmäßig, welche ad-hoc?
3. Datenmengen und Frequenz erfassen	Eingehende und zu verarbeitende Daten	Wie viele GB/TB pro Tag? Wachstum pro Monat?
4. Compute-Typ & Cluster-Modell wählen	Interactive, Job, Serverless, Classic	Welche Jobs profitieren von Serverless?
5. DBU-Verbrauch kalkulieren	Basierend auf Instanzgröße, Typ, Laufzeit	Wie viele DBUs je Workload pro Stunde?
6. Proof-Sizing und Benchmark-Run	Testlauf mit repräsentativem Datensatz	Reicht die Performance? Wie hoch sind reale Kosten?

Die Ergebnisse der Fragen bilden den Grundstein für eine solide Analyse. So haben Sie von Anfang an eine gute Vorstellung davon, was Sie Databricks im operativen Einsatz kostet.

Classic vs. Serverless: Ein Rechenbeispiel

Im nächsten Schritt wollen wir zunächst beleuchten, wie Kosten bei der Databricks-Nutzung entstehen. Dafür haben nutzen ein einfaches Beispiel, im dem wir neben der Berechnung auch die Kostenunterschiede zwischen Classic Compute und Serverless darstellen.

Classic Compute

Um eine Berechnung der anfallenden Kosten durchzuführen, muss man bei der Wahl von Classic Compute zwei Kostenseiten berücksichtigen: Databricks DBUs und VM-Kosten (z.B. AWS).

DBU-Kosten:

Wir legen in diesem Beispiel ein All-Purpose-Compute ($0,55/DBU) auf AWS Premium zu Grunde. Die Größe ist m4.large | 2 CPUs | 8 GB | 0,4 DBU/hr.

Daraus folgt: $0,55/DBU * 0,4 DBU/hr = $0,22/hr

Als nächstes nehmen wir die Anzahl der Instanzen, die Stunden pro Tag und Tage pro Monat wie folgt an:

Anzahl der Instanzen: 2 (1x Worker Node, 1x Driver Node)
Stunden pro Tag: 4 (halbtägige Nutzung)
Tage pro Monat: 17 (aktive Arbeitstage)

Die Auswahl dieser Werte führt zur Nutzungsdauer (Instance hours): 136 Stunden (2x4x17).

Zum Schluss wird die Nutzungsdauer mit den Kosten pro Stunde multipliziert: 136hr*$0,22/hr = $29,92

Die monatlichen Databricks-Kosten sind $29,92 für unser Beispiel.

All diese Werte werden bei der Auswahl der Produkte, Größe und Einsatzzeiten direkt eingeblendet und müssen nicht – wie im Beispiel – manuell errechnet werden:

Screenshot des Databricks Kostenrechners

VM-Kosten

Wir haben eine AWS EC2 Instanz für die Region Europa (Frankfurt) mit der passenden Nutzung (Usage DBUs) gewählt. Als Typ wurde On Demand ausgewählt:

Diese Auswahl sorgt für monatliche VM-Kosten von $29,20. Die monatlichen Gesamtkosten ergeben sich also wie folgt:

Gesamtkosten = $59,12 ($29,92 (DBU-Kosten) + $29,20 (VM-Kosten))

Man muss beim Classic Compute stets diese beiden Kostenseiten im Blick behalten.

In diesem Anwendungsfall wäre der Einsatz von Serverless günstiger, wie wir im Folgenden kurz aufzeigen.

Serverless

Bei der Nutzung von Serverless, stellt Databricks die VM-Kapazitäten und man hat nur den Gesamtkostenblock. Für das beschriebene Beispiel (54,4 DBUs / Monat) ergeben sich monatliche Kosten von $42,98.

Der Einsatz von Serverless wäre in diesem Szenario also $16,14 günstiger als Classic Compute.

Dieses Beispiel sollte verdeutlichen, wie wichtig eine passgenaue Auswahl/Strukturierung der richtigen Komponenten (Workload-Typ, Compute-Ebene, Instanzgröße, Cloudplan) ist.

Praxisbeispiel: Zusammensetzung der Kosten

In diesem Abschnitt zeigen wir ein anonymes Beispiel einer Zusammensetzung monatlich zu erwartender Kosten. Dabei handelt es sich um ein typisches Kostenprofil für einen Databricks Use-Case in kleinerem Umfang. In dem Beispiel ging es primär um die Umsetzung eines Churn-Cases inklusive der Entwicklung eines Churn-Machine-Learning-Modells:

Schätzung der Monatlichen Gesamtkosten durch Machine-Learning basiertem Churn-Modell von Datasolut

Die Kosten teilen sich in Infrastruktur- und Compute-Anteile. Personalkosten werden hier nicht berücksichtigt. In der Praxis sind diese allerdings nicht zu unterschätzen, weil sie für einen Großteil der anfallenden Kosten verantwortlich sind.

Da die Infrastrukturkosten – je nach Aspekten wie den Sicherheitsanforderungen – mehr oder weniger fix sind, ist für uns der Compute-Anteil das maßgebliche Stellrad für Optimierungen.
Deshalb ist das präzise Sizing der Compute-Komponenten – Clusterlaufzeiten, Instanztypen, Nutzungsmuster – entscheidend.

Für die Schätzung der monatlich anfallenden Compute-Kosten wurden folgende Annahmen getroffen:

Daten werden aus einem CRM-System geladen und die Ergebnisse zurück übertragen
Aktualisierungsintervall: Zweiwöchentlich
Daten werden im Full-Load übertragen (aufgrund der geringen Datenmengen und dem langen Aktualisierungsintervall)
Dashboard-Nutzung denkbar, aber nicht primäres Ziel
Nutzung Dashboard: 5 User insgesamt, 1 User aktiv, 1-2h pro Tag
SQL Serverless für Dashboard-Nutzung

Die Unterschiede zwischen Classic Compute und Serverless haben wir für Sie zusätzlich in einem Beitrag festgehalten: Classic Compute vs. Serverless

Detaillierte Erläuterung: Compute-Anteil

Für den oben genannten Use-Case gibt es für die Kostenschätzung sieben Positionen im Compute-Anteil, die wir im Folgenden detaillierter erläutern wollen. Bei den Kosten handelt es sich um Annahmen, welche in den Spalten Min-Range und Max-Range mit zu erwartenden Grenzwerten angezeigt werden.

Tabelle mit Compute-Anteil-Grenzwerten bei Databricks Churn-Modellerstellung

Zunächst erkennt man, dass die monatlichen Kosten für den JobType Job wesentlicher geringer ausfallen als für den JobType Interactive. Dies liegt vor allem an den Annahmen, dass diese Jobs nur alle zwei Wochen durchgeführt werden sollen. Weiterhin ist das geringe Datenvolumen dem auch zuträglich.

Die Interactive Positionen laufen unter der Annahme, dass sie nahezu täglich genutzt werden. Databricks funktioniert Query-basiert. Sobald ein User beispielsweise ein Dashboard öffnet, werden Queries an die entsprechenden Tabellen abgegeben. Dies sorgt für die Beanspruchung von Compute-Ressourcen.

Data Ingestion & Cleaning:

Die Daten werden via Databricks Delta Live Tables (DLT) in Databricks geladen, transformiert und bereinigt (inkl. Schema).

ML Feature Pipeline:

Die Features werden erstellt. Ein Feature kann man wie eine Spalte in einer Tabelle verstehen. Sie bilden Kriterien und Werte pro Datensatz ab, welche relevant für das Churn-Modell sind. An dieser Stelle wird auch ein Feature erstellt, ob ein Kunde in der Vergangenheit gekündigt hat oder nicht.

Churn Model Training:

Das Datenmodell wird auf Basis der Daten aus der Vergangenheit trainiert. Dazu gehören das korrekte Interpretieren und Gewichten der einzelnen Features. Die Trainingsdaten werden auf das Feature kontrolliert, ob ein Kunde gekündigt hat oder nicht.

Churn Model Prediction:

Hier werden die Vorhersagen bzw. das Scoring getroffen/durchgeführt. Auf Basis der Kündigungsinformationen der Vergangenheit wird ermittelt, wie wahrscheinlich ein Kunde in einem bestimmten Zeitintervall in der Zukunft kündigt.

Databricks Dashboard-Nutzung

Die Nutzung von vorhandenen Dashboards. Im Projekt-Scope sind sie als optional angegeben. Da wenig Nutzer angenommen werden, reicht eine minimale Konfiguration.

Dabei haben wir uns für SQL Serverless Compute entschieden. Dies bietet bei der Nutzung von Dashboards eine bessere User Experience, da man nicht minutenlang warten möchte, bis die Ressourcen bereitgestellt sind.

Use Case mit Datasolut umsetzen

Kontaktieren Sie uns für ein unverbindliches Erstgesrpäch

Jetzt starten!

All Purpose Interactive Compute:

Dies ist der Anteil für explorative Datenanalyen. Dabei werden die Einstellungen und Ergebnisse für den jeweiligen Use-Case getestet, überprüft und weiterentwickelt. Diese Position wird im zeitlichen Verlauf immer geringer, da der Anpassungsaufwand für fertig umgesetzte Use Cases sehr gering ist.

20% für Jobs auf DEV:

Diese Position ergänzt 20% der Jobkosten für das Development-System. Hier werden in der Regel Tests mit kleineren Datenmengen von weniger Usern durchgeführt. Daher nehmen wir diese zusätzlichen Kosten an.

Dieses Vorgehen nutzen wir bei Datasolut in unseren Kundenprojekten konsequent, um ein Verständnis für die entstehenden Kosten zu schaffen.

Typische Fehler im Sizing

Viele Unternehmen unterschätzen, wie stark kleine Entscheidungen beim Plattformdesign die laufenden Kosten beeinflussen. Häufig beginnt das Problem schon bei der fehlenden Trennung von Workloads. Wenn explorative Notebook-Arbeiten und produktive ETL-Jobs im selben Cluster laufen, steigt der DBU-Verbrauch unverhältnismäßig an.

Ein weiterer typischer Fehler liegt in der falschen Wahl des Cluster-Typs oder der Instanzgröße. Viele Teams neigen dazu, auf „Nummer sicher“ zu gehen und überdimensionierte VMs zu wählen, um Performance-Engpässe auszuschließen.

Das Ergebnis: Dauerhaft höhere Compute-Kosten bei kaum messbarem Mehrwert. Ähnlich problematisch ist der Verzicht auf Cluster-Pools. Jedes Job-Cluster startet dann neu und verursacht immer wieder unnötige Aufwärmzeiten.

Oft fehlt auch eine klare Policy für Auto-Termination. Cluster, die nach Abschluss eines Jobs oder einer Analyse weiterlaufen, summieren sich über den Monat zu erheblichen Kostenblöcken. Gerade in Entwicklungsumgebungen können ungenutzte Ressourcen schnell mehrere hundert Dollar pro Monat verursachen, ohne dass dies jemandem auffällt.

Schließlich wird häufig übersehen, dass CPU- und Memory-Anforderungen je nach Workload stark variieren. Rechenintensive Prozesse wie Machine Learning oder Data Transformations profitieren von CPU-optimierten VMs, während speicherlastige Analysen (z. B. BI oder Streaming mit großem State) besser auf Memory-optimierten Instanzen laufen. Wird dieser Unterschied ignoriert, läuft der Cluster zwar stabil – aber ineffizient und teuer.

Ein gut aufgesetztes Sizing berücksichtigt daher nicht nur technische Leistungsanforderungen, sondern auch reale Nutzungsmuster. Die Kombination aus Workload-Trennung, Auto-Termination, Cluster-Pools und richtiger Instanzwahl ist der einfachste Hebel, um Databricks wirtschaftlich zu betreiben. Wer diese Grundprinzipien beherzigt, kann die Compute-Kosten oft um 20 bis 30 Prozent senken – ganz ohne Abstriche bei der Performance.

Wie macht man Kostenmonitoring auf Databricks?

Databricks bietet mehrere – sich ergänzende – Möglichkeiten zur Überwachung und Steuerung der anfallenden Kosten. Dazu gehören:

System Tables
Dashboards
Tagging und Attribution
Budgets und Alerts
Integration in FinOps-Prozesse

In diesem Abschnitt erklären wir diese Funktionen grundlegend.

System Tables als Grundlage

Die Grundlage zur Ermittlung der anfallenden Kosten in Databricks sind die System Tables. Über diese kann man über Abfragen angefallene Kosten granular analysieren. Dabei ist vor allem die Tabelle system.billing.usage von Bedeutung:

Beispielabfrage:

SELECT usage_date, sku_name,

SUM(usage_quantity) AS total_dbus

FROM system.billing.usage

GROUP BY 1, 2;

Tipp: Um Kostentrends zu identifizieren ist es ratsam, die Ergebnisse täglich in Delta zu speichern.

Dashboards und Visualisierung

Databricks liefert einige vorgefertigte Dashboards aus. Sie dienen der Visualisierung und helfen dabei, (auf einen Blick) mögliche Probleme zügig zu erkennen. Dies ermöglicht ein schnelles Handeln im Bedarfsfall.

Beispiel-Dashboard:

Quellangabe: https://www.databricks.com/blog/intelligently-balance-cost-optimization-reliability-databricks

Je nach Anwender sind unterschiedliche Ebenen der Views möglich. Dazu zählen:

Executive View: Gesamtbudget, Top Workloads
Engineering View: Clusterkosten, Auto-Termination, Laufzeiten
Team View: Kosten pro Projekt via Tags

Für zusätzliche Funktionen und Komfort ist eine Integration mit Power BI oder Grafana möglich.

Tagging & Attribution

Eine maßgebliche Funktion zur Beurteilung und Gruppierung der anfallenden Kosten bildet das Tagging bzw. die Attribution. Kosten können beispielsweise Projekten, Teams oder Kostenstellen zugeordnet werden.

Beispiele:

Tag	Beispielwert	Zweck
project	customer_analytics	Projektzuordnung
team	data_engineering	Teambezogene Sicht
environment	production	Umgebungstrennung
cost_center	CC_1054	Buchhaltung

Unserer Erfahrung nach sind verpflichtende Tags per Policy besonders hilfreich. Dies ermöglicht „blinde“ Kosten zu vermeiden, da eine Zuordnung obligatorisch ist.

Budgets und Alerts

Beim Einsatz von Serverless können weiterhin Budgets zugeordnet werden. Sie vereinfachen das Monitoring und die Transparenz – auch für die Nutzer.

Die Einrichtung von Alerts (beispielsweise über Azure Cost Management oder eigene Notebooks) kann helfen, frühzeitig gewarnt zu werden.

Achtung: Tatsächlich anfallende Kosten können die festgelegten Budgets überschreiten. Sie dienen lediglich dem Monitoring.

Integration in FinOps-Prozesse

FinOps ist eine Abkürzung aus den Wörtern Financial und Operations. Mit dieser Methodik lassen sich Cloud-Ausgaben kontrollieren und optimieren.

Sobald Sie mit Use-Cases Ihres Unternehmens produktiv arbeiten, empfehlen wir diese Methodik. Sie besteht im Wesentlichen aus 3 Säulen / Schritten:

Informieren: System Tables regelmäßig auswerten, sichtbar machen und Trends identifizieren. Hierzu eignen sich Dashboards sehr gut.
Optimieren: Ineffizienzen in regelmäßigen Review-Meetings beseitigen (z.B. FinOps Lead, Data Engineers, Product Owner, Finance). Beispiele für klassische Optimierungen sind:
- Ressourcengrößen anpassen
- Nutzungsverhalten anpassen (z.B. weniger Leerlaufzeit durch Auto-Terminierung)
- Scheduling anpassen (z.B. vermehrte Nutzung von Job-Clustern)
Operate: Kontinuierliche Verbesserung und Nutzung
- Ergebnisse aus den ersten beiden Phasen messen und vergleichen. Dabei stehen die Aspekte Geschwindigkeit, Qualität und Kosten im Fokus.Kontinuierliche Anpassung und Optimierung Ihres Cloud-Budgets, Ihrer Prognosen und Ressourcenzuweisungen.

Etablieren Sie eine FinOps-Kultur, die Zusammenarbeit, Transparenz und Verantwortlichkeit zwischen allen Stakeholdern fördert. Monitoring führt zu Kostentransparenz. Dies bildet die Grundlage für die Kostensteuerung, die FinOps-Strategie.

Zum Blog: FinOps auf Databricks

Fazit: Kosten verstehen heißt Databricks beherrschen

Im Gegensatz zu vergleichbaren Produkten (wie z.B. MS Fabric) ist die Budgetierung für Databricks aufwendiger, da sie sehr granular ist. So bucht man beispielsweise bei MS Fabric eine Capacity Unit für einen fixen Preis, den man monatlich zahlt. Unabhängig davon, ob man die Leistungen auch tatsächlich nutzt. Solche Fixkosten haben den Vorteil, dass Entscheider eine genaue Budgetierung durchführen können.

Das „On-demand-pricing“ von Databricks bietet eine Reihe von Vor- aber auch Nachteilen. Zu den Vorteilen zählt vor allem, dass man nur genau die Leistung zahlt, die man auch tatsächlich nutzt. Dies macht den Einsatz in einigen Szenarien günstig. Sie können eine leistungsstarke Software auch für sehr kleine Anwendungsfälle nutzen, ohne hohe Fixkosten zahlen zu müssen. Der größte Nachteil besteht in der Budgetierung.

Es gibt zwar keine Fixkosten, jedoch theoretisch auch kein Kostenlimit. Aus diesem Grund ist ein durchdachtes Databricks-Sizing die Grundlage für eine transparente und steuerbare Kostenstruktur.

Wer Workloads klar trennt, die passenden Compute-Modelle wählt und reale Nutzungsmuster berücksichtigt, verhindert teure Fehlkonfigurationen und schafft Planbarkeit. Unsere Beispiele zeigen, dass bereits kleine Anpassungen deutliche Effekte haben können.

Genauso wichtig ist ein kontinuierliches Monitoring. System Tables, Dashboards, Tagging und die Implemetierung von FinOps-Prozessen sorgen dafür, dass Kosten nicht nur sichtbar sind, sondern aktiv gesteuert werden. So bleibt Databricks skalierbar und wirtschaftlich.

Wenn Sie Ihre Databricks Kosten strukturiert angehen oder Ihre bestehenden Databricks-Kosten optimieren möchten, unterstützen wir Sie, als zertifizierter Databricks-Partner, gerne. Einen Überblick zu unseren Leistungen finden Sie auf unserer Seite zur Databricks Beratung.

Vinzent Wuttke

Geschäftsführer

Lassen Sie uns sprechen und Ihr Potenzial entdecken.

Ob und wie künstliche Intelligenz Ihnen weiterhelfen kann, können Sie in einem ersten, unverbindlichen Gespräch mit uns herausfinden.

In diesem Gespräch erfahren Sie:

Wie Ihr Use-Case technisch am besten umgesetzt werden kann
Wie wir maximal sicher mit Ihren Kundendaten umgehen
Wie lange wir für die Umsetzung benötigen und wie ein konkreter Projektplan aussehen könnte

Jetzt Erstgespräch vereinbaren