Jeder Data Engineer, der mit Unity Catalog arbeitet, steht vor einer grundlegenden Entscheidung beim Einrichten neuer Tabellen. Diese Wahl hat weitreichende Auswirkungen auf Governance, Performance und langfristige Verwaltbarkeit:
Sollten Sie eine MANAGED oder eine EXTERNAL Table verwenden?
Die Unterscheidung kann manchmal unklar erscheinen, deshalb lassen Sie uns genau aufschlüsseln, wann und warum Sie welchen Ansatz wählen sollten.
Im Vergleich
| Merkmal | Managed Table | External Table |
|---|---|---|
| Datenverwaltung | Unity Catalog (vollständig) | Externer Speicher (Sie) |
| DROP TABLE löscht Daten | ✓ Ja | ✗ Nein |
| OPTIMIZE / VACUUM | Automatisch | Manuell |
| Liquid Clustering | ✓ Verfügbar | Eingeschränkt |
| Datenpfad-Kontrolle | Plattform entscheidet | Sie entscheiden |
| Externer Zugriff | Über UC APIs | Direkter Speicherzugriff |
Managed Tables
Der vollständig verwaltete „All-in"-Ansatz mit der engsten Plattform-Integration.
Vollständige Lifecycle-Governance
Unity Catalog kontrolliert sowohl die Metadaten als auch die zugrunde liegenden Datendateien und vereinfacht so die Governance über Ihre gesamte Datenlandschaft erheblich.
Automatisierte Leistung
Databricks übernimmt automatisch OPTIMIZE- und VACUUM-Operationen. Diese Automatisierung ist erforderlich für erweiterte Funktionen wie Predictive Optimization und Liquid Clustering.
Sicherer & Einfacher
Das Löschen einer Tabelle entfernt auch ihre Daten, verhindert verwaiste Dateien und optimiert die Bereinigung in CI/CD- und Daten-Lifecycle-Workflows.
External Tables
Sie verwalten die Datendateien im Storage, während Databricks die Tabellen-Metadaten im Unity Catalog verwaltet.
Sie kontrollieren den Datenpfad
Direkte Kontrolle über den physischen Speicher, wobei die Daten auch nach DROP TABLE-Operationen erhalten bleiben.
Geteilte Verantwortung
Flexibilität bringt Verantwortung mit sich — Sie verwalten Daten-Lifecycle, Bereinigung und Sicherheit außerhalb von Databricks.
Wann External Tables verwendet werden sollten:
- Migration von Legacy-Hive/Glue-Metastores ohne Verschiebung der Daten
- Teilen von Daten mit Nicht-Databricks-Tools, die direkten Speicherzugriff benötigen
- Erfüllung spezifischer Data-Residency- oder Storage-Management-Richtlinien
Unsere Empfehlung
Managed Tables als Standard
Die Kombination aus Einfachheit, automatisierter Performance-Optimierung und robuster Governance macht sie zum optimalen Weg für die meisten modernen Daten-Workloads.
External Tables — bewusst einsetzen
Reservieren Sie External Tables für gezielte Anwendungsfälle mit spezifischen Anforderungen. Wählen Sie sie nicht aus Gewohnheit — machen Sie es zu einer bewussten Architektur-Entscheidung.
Wir möchten von Ihnen hören!
Wie geht Ihr Team vor?
Setzen Sie standardmäßig auf Managed Tables, oder haben Sie überzeugende Gründe gefunden, häufiger External Tables zu verwenden?
Jetzt Nachricht senden