Ein Leitfaden für Data Engineers zur richtigen Wahl im Unity Catalog

Managed vs. External Tables in Databricks

Managed

Vollständig verwaltet
von Unity Catalog

External

Sie kontrollieren
den Speicher

Jeder Data Engineer, der mit Unity Catalog arbeitet, steht vor einer grundlegenden Entscheidung beim Einrichten neuer Tabellen. Diese Wahl hat weitreichende Auswirkungen auf Governance, Performance und langfristige Verwaltbarkeit:

Sollten Sie eine MANAGED oder eine EXTERNAL Table verwenden?

Die Unterscheidung kann manchmal unklar erscheinen, deshalb lassen Sie uns genau aufschlüsseln, wann und warum Sie welchen Ansatz wählen sollten.

Im Vergleich

Merkmal Managed Table External Table
Datenverwaltung Unity Catalog (vollständig) Externer Speicher (Sie)
DROP TABLE löscht Daten ✓ Ja ✗ Nein
OPTIMIZE / VACUUM Automatisch Manuell
Liquid Clustering ✓ Verfügbar Eingeschränkt
Datenpfad-Kontrolle Plattform entscheidet Sie entscheiden
Externer Zugriff Über UC APIs Direkter Speicherzugriff

Managed Tables

Empfohlener Standard

Der vollständig verwaltete „All-in"-Ansatz mit der engsten Plattform-Integration.

Vollständige Lifecycle-Governance

Unity Catalog kontrolliert sowohl die Metadaten als auch die zugrunde liegenden Datendateien und vereinfacht so die Governance über Ihre gesamte Datenlandschaft erheblich.

Automatisierte Leistung

Databricks übernimmt automatisch OPTIMIZE- und VACUUM-Operationen. Diese Automatisierung ist erforderlich für erweiterte Funktionen wie Predictive Optimization und Liquid Clustering.

Sicherer & Einfacher

Das Löschen einer Tabelle entfernt auch ihre Daten, verhindert verwaiste Dateien und optimiert die Bereinigung in CI/CD- und Daten-Lifecycle-Workflows.

External Tables

Für spezifische Anwendungsfälle

Sie verwalten die Datendateien im Storage, während Databricks die Tabellen-Metadaten im Unity Catalog verwaltet.

Sie kontrollieren den Datenpfad

Direkte Kontrolle über den physischen Speicher, wobei die Daten auch nach DROP TABLE-Operationen erhalten bleiben.

Geteilte Verantwortung

Flexibilität bringt Verantwortung mit sich — Sie verwalten Daten-Lifecycle, Bereinigung und Sicherheit außerhalb von Databricks.

Wann External Tables verwendet werden sollten:

  • Migration von Legacy-Hive/Glue-Metastores ohne Verschiebung der Daten
  • Teilen von Daten mit Nicht-Databricks-Tools, die direkten Speicherzugriff benötigen
  • Erfüllung spezifischer Data-Residency- oder Storage-Management-Richtlinien

Unsere Empfehlung

Managed Tables als Standard

Die Kombination aus Einfachheit, automatisierter Performance-Optimierung und robuster Governance macht sie zum optimalen Weg für die meisten modernen Daten-Workloads.

External Tables — bewusst einsetzen

Reservieren Sie External Tables für gezielte Anwendungsfälle mit spezifischen Anforderungen. Wählen Sie sie nicht aus Gewohnheit — machen Sie es zu einer bewussten Architektur-Entscheidung.

Wir möchten von Ihnen hören!

Wie geht Ihr Team vor?

Setzen Sie standardmäßig auf Managed Tables, oder haben Sie überzeugende Gründe gefunden, häufiger External Tables zu verwenden?

Jetzt Nachricht senden

Weiterlesen

ABAC Databricks
Databricks

Next-Level Data Governance: ABAC in Databricks

Von starren Rollen zu intelligenten Policies: Wie Sie mit ABAC in Databricks Unity Catalog skalierbare Datenzugriffskontrolle realisieren.

Weiterlesen

Data Contracts

Databricks

Data Contracts — Hype oder echte Lösung?

Vom Chaos zur Klarheit: Wie formale Vereinbarungen zwischen Datenproduzenten und -konsumenten Pipelines stabil machen.

Weiterlesen
Data Platform
Data Platform

Von Datenchaos zu datengetriebenen Entscheidungen

Daten vorhanden, Erkenntnisse Fehlanzeige? Wir zeigen, wie unsere zentrale Plattform Ihre Silos überwindet.

Weiterlesen

Newsletter und Updates