Skalierbare Databricks Data-Warehouse-Infrastruktur für einen führenden Energiedienstleister
Quantum GmbH, ein führender Energiedienstleister, verarbeitet täglich große Mengen an Transaktionsdaten, um wichtige Kennzahlen für interne Visualisierungstools zu berechnen. Die bisherigen Prozesse liefen dabei auf einer Oracle-Datenbank, die jedoch zunehmend an ihre Grenzen stieß.
Insbesondere die bestehende SOAP-Schnittstelle, über die XML-Daten aus der Oracle-Datenbank extrahiert wurden, war für moderne datengetriebene Analysen und maschinelles Lernen nicht mehr geeignet. Die starren Pipelines konnten weder mit dem wachsenden Datenvolumen mithalten noch flexibel auf neue Anforderungen reagieren.
Das übergeordnete Ziel war klar: der Aufbau einer modernen, skalierbaren und hochperformanten Data-Warehouse-Infrastruktur auf Basis von Databricks, die effizientere Analysen, schnelleres Reporting und eine zukunftssichere Grundlage für datengetriebene Entscheidungen ermöglicht.
Vor diesen Herausforderungen stand unser Kunde
Die drei zentralen Probleme der bestehenden Infrastruktur
Skalierungsgrenzen der Oracle-Datenbank
Die bestehende On-Prem-Oracle-Infrastruktur konnte das steigende Transaktionsdatenvolumen nicht mehr performant verarbeiten. Analytische und operative Lasten konkurrierten auf demselben System und bremsten sich gegenseitig aus.
Veraltete SOAP/XML-Datenpipelines
Die SOAP-basierte Schnittstelle zur Datenextraktion war für moderne Analyseanforderungen und Machine Learning ungeeignet. Die XML-Verarbeitung war langsam, fehleranfällig und bot keine Basis für skalierbare Transformationen.
Fehlende Automatisierung & CI/CD
Änderungen an Pipelines wurden manuell ausgerollt. Versioning, automatisierte Tests und kontrollierte Deployments fehlten vollständig, was Wartung und Weiterentwicklung aufwändig und risikoreich machte.
Migration von Oracle zu Databricks mit optimierten ETL-Pipelines
Um Quantum GmbH eine zukunftssichere und skalierbare Lösung zu liefern, wurde die gesamte Dateninfrastruktur auf Databricks migriert.
Dabei setzten wir auf eine strukturierte Abfolge von Arbeitspaketen: vom Architekturdesign über die Entwicklung performanter PySpark-Pipelines bis hin zur Einführung vollautomatisierter CI/CD-Prozesse mit GitHub Actions.
Wie gehen wir dabei vor?
Vier aufeinander aufbauende Schritte von der Anforderungsaufnahme bis zum produktiven Betrieb
Anforderungsanalyse & Architekturdesign
Aufnahme der bestehenden Prozesse, Datenquellen und Kennzahlen. Definition der Zielarchitektur auf Basis eines skalierbaren Data Warehouse auf Databricks.
ETL-Pipeline-Entwicklung mit PySpark
Entwicklung leistungsfähiger PySpark-Pipelines zur Verarbeitung der XML-Daten aus der SOAP-Schnittstelle – effizient, skalierbar und wartungsfreundlich.
CI/CD mit GitHub Actions
Einführung automatisierter Deployment-Prozesse: Änderungen werden versioniert, getestet und kontrolliert ausgerollt – ohne manuelle Eingriffe.
Datenmodellierung & KPI-Berechnung
Aufbau optimierter Datenmodelle zur strukturierten Speicherung und hochperformanten Abfrage von Transaktionsdaten für die internen Visualisierungstools.
Jetzt Databricks-Beratung starten
Sie planen ebenfalls eine Migration auf Databricks oder möchten Ihre bestehende Dateninfrastruktur modernisieren?
Beratung anfragenVon der Anforderung zur Architektur: die technische Umsetzung im Detail
So haben wir die Migration von Oracle auf Databricks strukturiert umgesetzt.
Aufbau des skalierbaren Data Warehouses
Die neue Architektur auf Databricks löst die Oracle-Datenbank vollständig ab. Transaktionsdaten werden strukturiert nach einem optimierten Datenmodell gespeichert, das sowohl hochperformante Abfragen als auch flexible Erweiterbarkeit für zukünftige Anwendungsfälle ermöglicht.
PySpark-Pipelines für XML-Datenverarbeitung
Ein zentrales technisches Kernstück war die Entwicklung leistungsstarker PySpark-Pipelines, die XML-Dateien aus der Legacy-SOAP-Schnittstelle effizient einlesen, transformieren und in das neue Datenmodell überführen. Durch den Einsatz von Databricks wurde eine horizontale Skalierung bei steigendem Datenvolumen problemlos möglich.
CI/CD-Automatisierung mit GitHub Actions
Mit der Einführung von GitHub Actions wurden vollständig automatisierte Deployment-Prozesse für alle ETL-Pipelines etabliert. Änderungen werden nun versioniert, automatisch getestet und sicher in die Produktivumgebung ausgerollt – ein Paradigmenwechsel gegenüber den bisherigen manuellen Prozessen.
Kennzahlenberechnung für interne Applikationen
Auf Basis der neuen Datenmodelle werden sämtliche wichtigen Kennzahlen direkt aus den Transaktionsdaten berechnet und den internen Visualisierungstools bereitgestellt. Dies ermöglicht schnellere und präzisere Entscheidungen auf allen Unternehmensebenen.
Die wichtigsten Ergebnisse auf einen Blick
Deutlich verbesserte Performance
Die neuen ETL-Pipelines können große Mengen an XML-Daten effizient verarbeiten, was die Gesamtleistung der Datenbereitstellung signifikant steigert und Analysen in Echtzeit ermöglicht.
Vollautomatisierte Deployment-Prozesse
Durch CI/CD mit GitHub Actions können Änderungen schneller und sicherer ausgerollt werden. Wartungsaufwand und Fehlerrisiken durch manuelle Eingriffe sind deutlich gesunken.
Zukunftssichere & skalierbare Plattform
Mit Databricks ist Quantum GmbH optimal aufgestellt, um die Datenplattform bei steigendem Volumen horizontal zu skalieren und neue Anwendungsfälle wie Machine Learning nahtlos zu integrieren.
Sie planen eine ähnliche Migration oder möchten Ihre Dateninfrastruktur modernisieren?
Sprechen Sie mit unseren Experten – wir zeigen Ihnen, wie auch Ihr Unternehmen von einer skalierbaren Databricks-Plattform profitieren kann.