Datenplattform aufbauen: Ein Praxisleitfaden zur Architektur-Entscheidung

5 Schritte zur perfekten Datenplattform

Die Wahl der richtigen Datenplattform gehört zu den wichtigsten strategischen IT-Entscheidungen für Unternehmen. Ein Fehler in dieser frühen Phase kann später Millionen kosten und jahrelange Entwicklungsarbeit gefährden.

Aus über 50 Plattform-Evaluierungen haben wir gelernt, worauf es bei dieser Entscheidung wirklich ankommt.

In diesem Artikel zeigen wir Ihnen, was Sie bei der Auswahl einer Datenplattform beachten sollten. 

Die Auswahl der passenden Plattform – Das Wichtigste auf einen Blick:

Moderne Plattformen bilden das Fundament für AI-Projekte

Der Erfolg steckt in einem 5-Stufigen Evaluierungsprozess:

  1. Bestimmung der Anforderungen
  2. Strategische Vorauswahl
  3. Detaillierte Strategie
  4. Technischer PoC
  5. Finale Auswahl

Die modernste Plattform ist nicht gleich die passendste (ohne Know-How verstecken sich hohe Kosten und Frustration durch gescheiterte Projekte)

Warum die Plattform-Entscheidung so entscheidend ist

Eine moderne Datenplattform ist die technische Grundlage für den Erfolg Ihrer Daten- und KI-Strategie. Viele Unternehmen unterschätzen, wie wichtig es ist, die richtige Wahl zu treffen. Mit der richtigen Datenplattform können ihre Datenteams produktiver arbeiten und Anwendungsfälle wie generative KI und maschinelles Lernen umsetzen.

Hier unterscheiden sich moderne Lösungen wie Lakehouse-Architekturen (z.B. Databricks, Fabric, Snowflake) von klassischen DWH-Lösungen, die nur Reporting-Anwendungen mit Daten versorgen und nicht für große Mengen unstrukturierter Daten entwickelt wurden. 

Moderne Datenplattformen bilden das Fundament für:

  • Datengetriebene Entscheidungen im gesamten Unternehmen
  • Machine Learning und KI-Anwendungen
  • Real-time Analytics und Reporting
  • Datensicherheit und Governance

Eine falsche Entscheidung führt oft zu:

  • Eingeschränkter Skalierbarkeit bei wachsenden Datenmengen
  • Schwierigkeiten bei der Integration neuer Use Cases
  • Hohen Folgekosten durch notwendige Migrationen
  • Performance-Problemen bei komplexen Analysen

In 5 Schritten zu richtigen Datenplattform

In unseren Projekten hat sich ein mehrstufiger Evaluierungsprozess bewährt. Während viele Unternehmen direkt technische Features vergleichen, empfehlen wir einen strukturierten Ansatz:

1. Anforderungen bestimmen

Aus unserer Projekterfahrung der letzten Jahre haben wir einen detaillierten Anforderungskatalog mit über 50 Fragen entwickelt, der uns hilft, Ihre technischen und organisatorischen Anforderungen in einem strukturierten Workshop-Format gemeinsam zu erarbeiten.

Dabei stellen wir sowohl Fragen zu Ihrer aktuellen Datenlandschaft als auch zu möglichen Systemen, die durch die Datenplattform abgelöst oder angebunden werden sollen:

  • Was sind Ihre technischen Anforderungen? (Schnittstellen, Anbindungen in die Zielarchitektur)
  • Wie sehen Ihre Geschäftsanforderungen aus? (Sollen die Daten in einem gewissen Format bereitgestellt werden?)

Das Ergebnis dieser Phase ist ein auf Ihr Unternehmen zugeschnittener Anforderungskatalog, aus dem wir im weiteren Verlauf die Kriterien für das finale Scoring der Datenplattformen ableiten. Mit der Anforderungsliste gehen wir zum nächsten Schritt über.

2. Strategische Vorauswahl

In der Praxis kristallisieren sich meist 2-3 Plattformen heraus, die für eine detaillierte Evaluation in Frage kommen. In der strategischen Vorauswahl versuchen wir zunächst eine Longlist möglicher Datenplattformen zu erstellen, die einen möglichst guten Überblick über alle Anbieter bietet.

Dies können native Cloud-Anbieter wie AWS, Azure und GCP sein, aber auch Platform as a Service (PaaS) Anbieter wie Databricks, Snowflake, Palantir Foundry und MS Fabric.

Im Unternehmenskontext gilt es dann, die möglichen 7-8 Anbieter durch ein Ausschlussverfahren auf eine kleinere Anzahl von 2-3 möglichen Plattformen zu reduzieren, die dann im nächsten Schritt detailliert untersucht werden können.

Mit Datasolut zur passenden Datenplattform. Jetzt Termin vereinbaren!

Die wichtigsten Kriterien sind dabei:

Unternehmenskontext:

  • Wie ist die bestehende Cloud-Strategie ausgerichtet?
  • Welche Wachstumspläne existieren?
  • Wie sieht das verfügbare Budget aus (TCO-Betrachtung)?
  • Welche Team-Expertise ist vorhanden (no-code, low-code oder Entwickler)?

Technische Anforderungen:

  • Welche Datenquellen müssen integriert werden?
  • Welche Use Cases sind geplant?
  • Wie hoch sind die Performance-Anforderungen?
  • Welche Governance-Vorgaben existieren?

3. Detaillierte Strategie

Nachdem wir in den ersten beiden Schritten unsere internen Kriterien und Kompetenzen genutzt haben, um eine Vorauswahl von 2 möglichen Datenplattformen zu treffen. 

In diesem Schritt gehen wir gemeinsam in die Tiefe und diskutieren mögliche Architekturkonzepte für die beiden Plattformen und planen gemeinsam die Umsetzung eines technischen Proof of Concept (PoC). Ziel dieses PoC ist es, ein kleines Projekt zu implementieren, um die wichtigsten Funktionalitäten auf Herz und Nieren zu testen.

4. Technischer Proof of Concept

Ein häufiger Fehler: Man vergleicht nur Features auf dem Papier. Unsere Erfahrung zeigt: Ein hands-on PoC zum Vergleich von zwei möglichen Plattformen über 6-8 Wochen ist unverzichtbar.

In einem Projekt für einen Asset Manager mit über 50 Mrd. € verwaltetem Vermögen haben wir einen strukturierten PoC durchgeführt. 

Dabei waren diese Aspekte entscheidend:

  • Aufsetzen realistischer Testszenarien
  • Performance-Tests unter produktiver 
  • Prüfung der Governance-Anforderungen
  • Evaluation der Developer Experience
  • Assessment der Operations-Anforderungen

Gerade für das Entwicklerteam des Kunden war es sehr wertvoll, hands-on Erfahrungen mit zwei der möglichen Datenplattformen zu sammeln, um dann im letzten Schritt eine detaillierte Bewertung vornehmen zu können. Ein wichtiger Faktor im Auswahlprozess war hier nämlich auch, wie einfach die Datenplattform für die Entwickler zu bedienen war und wie produktiv sie damit arbeiten konnten. 

Dieser Schritt ist optional, da er ein gewisses Budget und ein Zeitkontingent erfordert, aber es lohnt sich oft, wenn es sich um größere Projekte handelt und die Ressourcen verfügbar sind.

5. Finale Auswahl

Nachdem wir nun einen detaillierten Anforderungskatalog entwickelt haben (Schritt 1), daraus Kriterien für das Scoring der jeweiligen Plattform abgeleitet haben und wir in Schritt 4 die notwendige Implementierungserfahrung für zwei Plattformen gesammelt haben, kommt nun der wichtigste Schritt: die finale Auswahl der Datenplattform.

Gemeinsam mit unseren Kunden und den beteiligten Entwicklerteams können wir nun ein sehr detailliertes Scoring der jeweiligen Kriterien durchführen. 

Mögliche Kriterien, die wir gemeinsam mit einem Score von 1-5 (1= gar nicht erfüllt, 5= voll erfüllt) pro Unterkategorie bewerten. Aus der Summe aller Gesamtscores aller Kategorien je Plattform wird ein Score gebildet, die Plattform mit dem höchsten Score gewinnt.

Technisch

  • Datenhaltung und Formate
  • Datenintegration (zu Quell- und Zielsystemen)
  • Dateneingabe/Pipeline
  • Datenmodelle
  • Sicherheit und Governance
  • Datenverarbeitung
  • Datentransformation
  • Datenkatalog
  • Datenkonsumenten
  • Generative KI/LLM
  • Leistungsoptimierung 
  • Durchgängige Integrationslösung
  • Bereitstellungsoptionen

Strategisch

  • Vision
  • Innovation
  • Roadmap der Entwicklung 
  • Partner-Ökosystem
  • Einführung
  • Flexibilität und Transparenz

Kommerziell

  • Marktpräsenz 
  • Umsatz
  • Total cost of ownership
  • Anzahl der Kunden

Oft übersehene Aspekte bei der Evaluation

Diese drei Faktoren werden häufig unterschätzt:

1. Versteckte Kosten

In unseren Projekten zeigt sich: Die reinen Lizenzkosten und Computekosten machen oft nur 20% der Gesamtkosten aus.

Entscheidend sind:

  • Entwicklungsaufwände für Daten Pipelines
  • Support und Troubleshooting
  • Schulungsbedarf der Teams
  • Wartung und Operations

2. Team-Readiness

Die beste Plattform nützt nichts ohne das richtige Know-how.

Wichtige Fragen:

  • Wie gut ist die Dokumentation?
  • Gibt es eine aktive Community?
  • Sind Entwickler verfügbar?
  • Welcher Schulungsaufwand ist nötig?
  • Gibt es Entwickler in unserem Team, die wir auf die Plattform bringen können?
  • Können meine Mitarbeiter ausreichend SQL und Python programmieren oder benötige ich eine Low-Code / No-Code Alternative?

3. Zukunftssicherheit

Wir raten unseren Kunden: Achten Sie nicht nur auf aktuelle Features.

Wichtig sind:

  • Innovationsgeschwindigkeit des Anbieters
  • Flexibilität der Architektur
  • Skalierbarkeit der Plattform
  • Offenheit für neue Technologien

Unsere Empfehlung: Die Lakehouse-Architektur

Nach jahrelanger Projekterfahrung empfehlen wir in den meisten Fällen eine moderne Lakehouse-Architektur. Die Vorteile:

  • Vereint Flexibilität eines Data Lake mit Struktur eines Data Warehouse
  • Unterstützt sowohl BI als auch ML Workloads
  • Bietet integrierte Governance
  • Ermöglicht agile Entwicklung

Kundenbeispiel: Die Auswahl der richtigen Plattform

Wir unterstützten unseren Kunden – einen internationalen Immobilien- und Real-Assett-Manager – von Beginn an bei dem Auswahlprozess für die passende Datenplattform.

Ende 2024 führten wir zwei technische Proof of Concept (POC) durch um die Cloud-basierten Plattformen Microsoft Fabric und Databricks im Detail zu vergleichen.

Ziel war es, einerseits dem Entwicklungsteam praktische Erfahrungen zu vermitteln und andererseits die Plattformen zu evaluieren.

Zu Beginn haben wir den Databricks Workspace mit Terraform aufgesetzt, Rollen und Benutzer angelegt und die Plattform für den Betrieb vorbereitet.

Die Daten aus einem Azure Blob Storage werden täglich verarbeitet und mit Delta Live Tables für ETL-Prozesse aufbereitet. Dabei wurde ein metadatengetriebener ETL-Prozess initiiert. Zusätzlich wurden Dashboards zur Kostenüberwachung und Datenqualität entwickelt.

Für uns war dieses Projekt besonders wichtig, da wir von Anfang an dabei waren und die Referenzarchitektur strategisch mitgestalten konnten.

Die endgültige Auswahl der Datenplattform fiel in diesem Fall auf Databricks auf Grund der besseren Data Governance Funktionalitäten und des ausgereifteren CI/CD Prozesses.

Fazit und nächste Schritte

Die Wahl der richtigen Datenplattform ist komplex, aber mit dem richtigen Ansatz beherrschbar. Unser Rat:

  1. Nehmen Sie sich Zeit für die strategische Vorauswahl
  2. Führen Sie einen strukturierten PoC durch
  3. Betrachten Sie die Gesamtkosten
  4. Berücksichtigen Sie Team und Organisation
  5. Denken Sie langfristig und zukunftssicher
Profilbild von Vinzent Wuttke Geschäftsführer Datasolut GmbH
Vinzent Wuttke
Geschäftsführer

Lassen Sie uns sprechen und Ihr Potenzial entdecken.

Ob und wie künstliche Intelligenz Ihnen weiterhelfen kann, können Sie in einem ersten, unverbindlichen Gespräch mit uns herausfinden.

In diesem Gespräch erfahren Sie:

  • Wie Ihr Use-Case technisch am besten umgesetzt werden kann
  • Wie wir maximal sicher mit Ihren Kundendaten umgehen
  • Wie lange wir für die Umsetzung benötigen und wie ein konkreter Projektplan aussehen könnte
Jetzt Erstgespräch vereinbaren

Weiterlesen

Lakehouse Architektur
Data Platform Vor 1 Woche

Lakehouse Architektur: 6 Best Practices

Die Lakehouse Architektur vereint das Beste von Data Lakes und Data Warehouses – ohne deren Einschränkungen. Sie bietet Flexibilität, Effizienz und Skalierbarkeit für moderne Datenanforderungen. Das Lakehouse in 6 Minuten erklärt: […]
Lakehouse vs. Data Warehouse
Data Platform Vor 2 Wochen

Lakehouse vs. Data Warehouse: Warum das Data Warehouse ausgedient hat

Viele Unternehmen verlassen sich auf Cloud Data Warehouses wie Snowflake, Redshift oder Synapse und IT-Entscheider stehen vor der großen Herausforderung, die neuesten Anforderungen von KI und GenAI mit bestehenden Infrastrukturen […]
Data PlatformDatabricksMicrosoft Vor 5 Monaten

Microsoft Fabric vs. Databricks: Der Praxis-Guide

Databricks vs. Microsoft Fabric, wer gewinnt die Auszeichnung als beste Datenplattform? So einfach zu beantworten ist das leider nicht. Die beiden Datenplattformen Databricks und MS Fabric unterscheiden sich in verschiedenen […]
Die Architektur von Microsoft Azure Synapse
Data PlatformMicrosoft Vor 7 Monaten

Was ist Azure Synapse? Ihr 1×1 Guide

Microsoft Azure Synapse Analytics ist eine Datenplattform, die Data Warehousing und Big Data-Analysen in einer integrierten Umgebung vereint. Azure Synapse ermöglicht es Unternehmen, Daten aus verschiedenen Quellen zu integrieren, zu […]
Data PlatformMicrosoft Vor 8 Monaten

Was ist Microsoft Fabric? Eine Einschätzung aus der Praxis

Microsoft Fabric wurde erstmals im Mai 2023 auf der Microsoft Build Konferenz vorgestellt und ist eine umfassende Daten- und Analyseplattform. Die Plattform ermöglicht das einheitliche Speichern, Verwalten und Arbeiten an […]
Snowflake Architekturskizze
Data Platform Vor 9 Monaten

Was ist Snowflake? Architektur, Vorteile, Kosten

Snowflake ist eine Cloud-basierte Datenplattform, die Unternehmen bei der Speicherung, Verwaltung und Analyse großer Datenmengen unterstützt. Die Datenplattform wurde speziell für die Verarbeitung von Big Data entwickelt und ermöglicht es […]
Data Platform Vor 11 Monaten

Snowflake vs. Databricks: Wer hat die Oberhand?

Was ist der Unterschied zwischen Databricks und Snowflake? Dieser Frage stellen wir uns und geben einen ausführlichen Vergleich. Kaum ein Unternehmen kommt heute ohne Datenanalyse ans Ziel. Der Wettbewerb auf […]
Data Platform Vor 1 Jahr

Data Lakehouse: Was ist das und wie steigert es den Geschäftswert? 

Ein Data Lakehouse-Ansatz bietet die Flexibilität und Skalierbarkeit eines Data Lakes in Kombination mit hoher Datenqualität, Transaktionssicherheit und vereinfachter und vereinheitlichter Verwaltung bzw. Governance des Data Warehouse. Der Data Lakehouse […]
Data Platform Vor 2 Jahren

Data Warehouse vs. Data Lake: Gemeinsamkeiten und Unterschiede

Was unterscheidet eigentlich ein Data Warehouse von einem Data Lake? Diese Frage soll hier beantwortet werden. Beide Konzepte stellen Speichermöglichkeiten für die verschiedenen Daten eines Unternehmens dar, sind aber grundsätzlich […]
Newsletter und Updates

Sie sehen gerade einen Platzhalterinhalt von HubSpot. Um auf den eigentlichen Inhalt zuzugreifen, klicken Sie auf die Schaltfläche unten. Bitte beachten Sie, dass dabei Daten an Drittanbieter weitergegeben werden.

Mehr Informationen
Erstgespräch vereinbaren