Alle Case Studies
Energiewirtschaft Databricks ETL / PySpark CI/CD

Skalierbare Databricks Data-Warehouse-Infrastruktur für einen führenden Energiedienstleister

Auf einen Blick
Kunde: Quantum GmbH
Branche: Energiewirtschaft
Projektziel: Migration von Oracle auf ein skalierbares Databricks Data Warehouse
Tools: Databricks, PySpark, GitHub Actions, CI/CD, Oracle (Legacy)
Ergebnis: Hochskalierbare, vollautomatisierte Dateninfrastruktur mit deutlich verbesserter Performance und Datenqualität

Quantum GmbH, ein führender Energiedienstleister, verarbeitet täglich große Mengen an Transaktionsdaten, um wichtige Kennzahlen für interne Visualisierungstools zu berechnen. Die bisherigen Prozesse liefen dabei auf einer Oracle-Datenbank, die jedoch zunehmend an ihre Grenzen stieß.

Insbesondere die bestehende SOAP-Schnittstelle, über die XML-Daten aus der Oracle-Datenbank extrahiert wurden, war für moderne datengetriebene Analysen und maschinelles Lernen nicht mehr geeignet. Die starren Pipelines konnten weder mit dem wachsenden Datenvolumen mithalten noch flexibel auf neue Anforderungen reagieren.

Das übergeordnete Ziel war klar: der Aufbau einer modernen, skalierbaren und hochperformanten Data-Warehouse-Infrastruktur auf Basis von Databricks, die effizientere Analysen, schnelleres Reporting und eine zukunftssichere Grundlage für datengetriebene Entscheidungen ermöglicht.

Vor diesen Herausforderungen stand unser Kunde

Die drei zentralen Probleme der bestehenden Infrastruktur

Skalierungsgrenzen der Oracle-Datenbank

Die bestehende On-Prem-Oracle-Infrastruktur konnte das steigende Transaktionsdatenvolumen nicht mehr performant verarbeiten. Analytische und operative Lasten konkurrierten auf demselben System und bremsten sich gegenseitig aus.

Veraltete SOAP/XML-Datenpipelines

Die SOAP-basierte Schnittstelle zur Datenextraktion war für moderne Analyseanforderungen und Machine Learning ungeeignet. Die XML-Verarbeitung war langsam, fehleranfällig und bot keine Basis für skalierbare Transformationen.

Fehlende Automatisierung & CI/CD

Änderungen an Pipelines wurden manuell ausgerollt. Versioning, automatisierte Tests und kontrollierte Deployments fehlten vollständig, was Wartung und Weiterentwicklung aufwändig und risikoreich machte.

Unser Lösungsansatz

Migration von Oracle zu Databricks mit optimierten ETL-Pipelines

Um Quantum GmbH eine zukunftssichere und skalierbare Lösung zu liefern, wurde die gesamte Dateninfrastruktur auf Databricks migriert.

Dabei setzten wir auf eine strukturierte Abfolge von Arbeitspaketen: vom Architekturdesign über die Entwicklung performanter PySpark-Pipelines bis hin zur Einführung vollautomatisierter CI/CD-Prozesse mit GitHub Actions.

Wie gehen wir dabei vor?

Vier aufeinander aufbauende Schritte von der Anforderungsaufnahme bis zum produktiven Betrieb

1

Anforderungsanalyse & Architekturdesign

Aufnahme der bestehenden Prozesse, Datenquellen und Kennzahlen. Definition der Zielarchitektur auf Basis eines skalierbaren Data Warehouse auf Databricks.

2

ETL-Pipeline-Entwicklung mit PySpark

Entwicklung leistungsfähiger PySpark-Pipelines zur Verarbeitung der XML-Daten aus der SOAP-Schnittstelle – effizient, skalierbar und wartungsfreundlich.

3

CI/CD mit GitHub Actions

Einführung automatisierter Deployment-Prozesse: Änderungen werden versioniert, getestet und kontrolliert ausgerollt – ohne manuelle Eingriffe.

4

Datenmodellierung & KPI-Berechnung

Aufbau optimierter Datenmodelle zur strukturierten Speicherung und hochperformanten Abfrage von Transaktionsdaten für die internen Visualisierungstools.

Jetzt Databricks-Beratung starten

Sie planen ebenfalls eine Migration auf Databricks oder möchten Ihre bestehende Dateninfrastruktur modernisieren?

Beratung anfragen

Von der Anforderung zur Architektur: die technische Umsetzung im Detail

So haben wir die Migration von Oracle auf Databricks strukturiert umgesetzt.

Aufbau des skalierbaren Data Warehouses

Die neue Architektur auf Databricks löst die Oracle-Datenbank vollständig ab. Transaktionsdaten werden strukturiert nach einem optimierten Datenmodell gespeichert, das sowohl hochperformante Abfragen als auch flexible Erweiterbarkeit für zukünftige Anwendungsfälle ermöglicht.

PySpark-Pipelines für XML-Datenverarbeitung

Ein zentrales technisches Kernstück war die Entwicklung leistungsstarker PySpark-Pipelines, die XML-Dateien aus der Legacy-SOAP-Schnittstelle effizient einlesen, transformieren und in das neue Datenmodell überführen. Durch den Einsatz von Databricks wurde eine horizontale Skalierung bei steigendem Datenvolumen problemlos möglich.

CI/CD-Automatisierung mit GitHub Actions

Mit der Einführung von GitHub Actions wurden vollständig automatisierte Deployment-Prozesse für alle ETL-Pipelines etabliert. Änderungen werden nun versioniert, automatisch getestet und sicher in die Produktivumgebung ausgerollt – ein Paradigmenwechsel gegenüber den bisherigen manuellen Prozessen.

Kennzahlenberechnung für interne Applikationen

Auf Basis der neuen Datenmodelle werden sämtliche wichtigen Kennzahlen direkt aus den Transaktionsdaten berechnet und den internen Visualisierungstools bereitgestellt. Dies ermöglicht schnellere und präzisere Entscheidungen auf allen Unternehmensebenen.

Die Ergebnisse

Die wichtigsten Ergebnisse auf einen Blick

Deutlich verbesserte Performance

Die neuen ETL-Pipelines können große Mengen an XML-Daten effizient verarbeiten, was die Gesamtleistung der Datenbereitstellung signifikant steigert und Analysen in Echtzeit ermöglicht.

Vollautomatisierte Deployment-Prozesse

Durch CI/CD mit GitHub Actions können Änderungen schneller und sicherer ausgerollt werden. Wartungsaufwand und Fehlerrisiken durch manuelle Eingriffe sind deutlich gesunken.

Zukunftssichere & skalierbare Plattform

Mit Databricks ist Quantum GmbH optimal aufgestellt, um die Datenplattform bei steigendem Volumen horizontal zu skalieren und neue Anwendungsfälle wie Machine Learning nahtlos zu integrieren.

Sie planen eine ähnliche Migration oder möchten Ihre Dateninfrastruktur modernisieren?

Sprechen Sie mit unseren Experten – wir zeigen Ihnen, wie auch Ihr Unternehmen von einer skalierbaren Databricks-Plattform profitieren kann.