Aufbau einer Data- und Analyticsplattform in der Verkehrsinfrastruktur

Gemeinsam mit unserem Kunden, einem großen Verkehrsinfrastrukturunternehmen in Deutschland, haben wir eine zentrale Data Lake Plattform zur Datenverarbeitung und -analyse entwickelt. Ziel war es, Synergieeffekte in den Bereichen Datenanbindung, Sicherheit und Betrieb zu erzielen.

Auf einen Blick:

  • Branche: Verkehrsinfrastruktur
  • Projektziel: Aufbau einer Data Lake Plattform für die Entwicklung datengetriebener IT-Anwendungen der Fachbereiche
  • Technologien: AWS Step-Functions, AWS Event-Bridge, AWS SQS, Apache Iceberg (Table, Layer), AWS Athena (Query Layer), AWS Cloud Development Kit (CDK) in Python
  • Dauer: 1 Jahr

Die Ausgangslage unseres Kunden

Unser Kunde – ein großes Verkehrsinfrastrukturunternehmen in Deutschland – verfügte über eine fragmentierte IT-Landschaft mit isolierten Datenquellen und dezentralen Abteilungslösungen.

Es gab keine zentrale Plattform für die Datenintegration und -analyse, was die Entwicklung datengetriebener IT-Anwendungen behinderte. Die Daten lagen in einer Vielzahl von Formaten und Quellsystemen vor, darunter SAP HANA, Oracle, REST-APIs und manuelle Datenextrakte. Die Sicherheits- und Betriebsansätze variierten von Abteilung zu Abteilung und die fehlende Standardisierung führte zu ineffizienten Prozessen, erhöhten Betriebskosten und Sicherheitsrisiken.

Wir haben uns daher entschieden, eine zentrale Daten- und Analyseplattform für die Entwicklung von IT- und KI-Anwendungen in den Fachabteilungen zu implementieren. Ziel war es, gemeinsame technologische und administrative Standards zu schaffen, um Synergieeffekte bei Datenanbindung, Sicherheit und Betrieb zu erzielen.

Vor diesen Herausforderungen stand unser Kunde

Ineffizientes Datenmanagement

Die Daten lagen in unterschiedlichen Formaten an verschiedenen Orten vor, so dass Datenprojekte oft fehleranfällig waren.

Keine Standardisierung

Die Ansätze für Sicherheit und Betrieb waren von Abteilung zu Abteilung unterschiedlich und führten zu ineffizienten Prozessen.

Erhöhte Betriebskosten

Die Daten befanden sich in verschiedenen Datensilos, die alle mit hohen Kosten verbunden waren.

Standardisierung durch einheitliche Plattform für Datenverwaltung

Um die Sicherheits- und Standardisierungsdefizite zu beheben, haben wir eine zentrale Stelle für die Datenverwaltung, -speicherung und -abfrage eingerichtet. Damit wollten wir eine einheitliche Basis für alle aktuellen und zukünftigen datenbasierten IT-Anwendungen schaffen.

Unser Lösungsansatz

Wir haben eine auf nativen AWS-Diensten basierende Plattform entwickelt, um eine einheitliche Grundlage für datengesteuerte IT-Anwendungen zu schaffen. Diese Data Lake Plattform haben wir um ein Lakehouse-Framework zur Standardisierung von Datenzugriff, Governance und Sicherheitsstandards mit Hilfe von Apache Spark und Iceberg, AWS-Lakeformation und AWS Athena erweitert.

Die technische Implementierung:

Zunächst entwickelten wir ETL-Strecken für die Integration und Verarbeitung gängiger Datenquellen mit AWS Glue und AWS Lambda. Den ETL-Code haben wir in Python und PySpark geschrieben und die Orchestrierung mit AWS Step Functions, EventBridge und SQS durchgeführt. Für die Implementierung der gesamten Infrastruktur verwendeten wir das AWS Cloud Development Kit (CDK) in Python und verwalteten den Code in GitLab mit integrierten CI/CD-Pipelines.

Für die abschließende Überprüfung der Codequalität und -sicherheit verwendeten wir Tools wie Fortify, Mend und SonarQube. Geheimnisse schützten wir mit Gitleaks. Schließlich implementierten wir separate Entwicklungsumgebungen (DEV, IAT, PRD) für Kern- und Anwendungsteams.

Gemeinsame AWS-Accounts für die Produktionsumgebungen ermöglichen den Zugriff auf das Intranet des Unternehmens, während separate DEV-Accounts außerhalb des Intranets laufen.

Unser Vorgehen zum Aufbau einer Daten- und Analyseplattform

1.

Entwicklung von ETL-Strecken

Es wurden ETL-Strecken entwickelt, die der Integration und Verarbeitung gängiger Datenquellen dienen.

2.

Implementierung und Verionskontrolle

Die Versionskontrolle des Codes wurde durch den Einsatz von GitLab gewährleistet.

3.

Sichere Bereitstellung

Um sicherzustellen, dass die Plattform mit den neuesten Sicherheitsstandards arbeitet, haben wir separate DEV-Accounts außerhalb des Intranets entwickelt.

Diese Ergebnisse konnten wir erzielen:

Skalierbarkeit und Flexibilität

Die Plattformarchitektur ermöglichte es den Geschäftsbereichen, ihre eigenen Datenverbindungen zu erstellen und Daten direkt zwischen den Teams auszutauschen, was die Agilität und Innovationsfähigkeit des Unternehmens erhöht.

Kostentransparenz

Die zentralisierte Kostenüberwachung ermöglichte eine transparente Verwaltung und Optimierung der Betriebskosten.

Erhöhte Effizienz

Durch die Verwendung gemeinsamer ETL-Strecken und zentral gepflegter Datenquellen waren die Anwendungsteams in der Lage, datengesteuerte IT-Lösungen wie Geodatenanalyse, Projektplanung und Berichtswesen schneller zu entwickeln.

Wollen Sie mehr über das Thema Aufbau einer Datenplattform erfahren? Dann kontaktieren Sie uns!

Profilbild von Vinzent Wuttke Geschäftsführer Datasolut GmbH
Vinzent Wuttke
Geschäftsführer

Lassen Sie uns sprechen und Ihr Potenzial entdecken.

Ob und wie künstliche Intelligenz Ihnen weiterhelfen kann, können Sie in einem ersten, unverbindlichen Gespräch mit uns herausfinden.

In diesem Gespräch erfahren Sie:

  • Wie Ihr Use-Case technisch am besten umgesetzt werden kann
  • Wie wir maximal sicher mit Ihren Kundendaten umgehen
  • Wie lange wir für die Umsetzung benötigen und wie ein konkreter Projektplan aussehen könnte
Jetzt Erstgespräch vereinbaren
Newsletter und Updates

Sie sehen gerade einen Platzhalterinhalt von HubSpot. Um auf den eigentlichen Inhalt zuzugreifen, klicken Sie auf die Schaltfläche unten. Bitte beachten Sie, dass dabei Daten an Drittanbieter weitergegeben werden.

Mehr Informationen
Erstgespräch vereinbaren