Was sind die Vorteile des Unity Catalogs von Databricks?

Databricks Unity Catalog Überblick

Der Unity Catalog ist ein von Databricks angebotenes Governance-Tool, mit welchem Sie verschiedene Ressourcen innerhalb der Databricks-Plattform verwalten können. Besonders das Workspace-übergreifende Design ermöglicht es uns Anwendern von überall je nach Adminrecht auf Daten zuzugreifen und mit ihnen zu arbeiten, weshalb der Unity Catalog viele Vorteile bringt.

In diesem kurzen Beitrag gehen wir speziell auf die Vorteile des Unity Catalog ein und zeigen Ihnen danach fünf Schritte, wie Sie den Unity Catalog in Ihrem Unternehmen verwenden können. Falls Sie wissen möchten, wie der Catalog funktioniert und wie er aufgebaut ist, dann sind Sie hier richtig: Der Databricks Unity Catalog einfach erklärt 

Lassen Sie uns starten!

Was sind die Vorteile des Databricks Unity Catalog?

Der Catalog zeichnet sich durch die Möglichkeit aus, Daten transparent gemeinsam zu nutzen. Das verringert nicht nur die Arbeitsbelastung unseres Datenteams, sondern hilft ihm auch, den Zugang zu den Daten genau zu überwachen und zu kontrollieren. Daraus ergeben sich sechs Vorteile:

  1. Zugriffskontrolle
  2. Admin-Rollen für den Unity Catalog
  3. Datenberechtigungen
  4. Cluster-Zugriffsmodi
  5. Datenabgleich
  6. Lakehouse Federation
Der Unity Catalog ermöglicht ein gemeinsames Arbeiten an den selben Daten.
Der Unity Catalog ermöglicht ein gemeinsames Arbeiten an den selben Daten.

Sehen wir uns die Vorteile im Detail an.

1.     Zugriffskontrolle

Das Identitäts- und Zugriffsverwaltungsmodell in Unity Catalog wurde mit benutzerdefinierten Privilegien entworfen, die auf verschiedenen Ebenen des dreistufigen Namespace im Metastore arbeiten. Privilegien im Unity Catalog werden in der Hierarchie der Namespaces nach unten vererbt.

Databricks verfügt über ein Berechtigungsmodell auf Arbeitsbereichsebene, mit dem Sie den Zugriff auf alle verschiedenen Datenbestände wie DLT-Pipelines, SQL-Warehouses, Notebooks usw. mithilfe von ACLs (Access Control Lists) steuern können. Diese ACLs werden von Admin-Benutzern und auch von Benutzern mit ACL-Verwaltungsrechten verwaltet.

2.     Admin-Rollen für Unity Catalog

Sie benötigen die folgenden Admin-Rollen für die Verwaltung von Unity Catalog:

  1. Account-Administratoren können Identitäten, Cloud-Ressourcen und die Erstellung von Workspaces und Unity Catalog-Metaspeichern verwalten. Sie können Workspaces für Unity Catalog aktivieren und sowohl Workspace- als auch Metastore-Administrationsrechte erteilen.
  2. Metastore-Administratoren können Berechtigungen und Eigentumsrechte für alle sicherbaren Objekte innerhalb eines Metastores verwalten, z.B. wer Kataloge erstellen oder eine Tabelle abfragen darf.
  3. Der Konto-Administrator, der den Unity Catalog-Metastore erstellt, wird zum anfänglichen Metastore-Admin. Der Metastore-Admin kann diese Rolle auch an einen anderen Benutzer oder eine Gruppe delegieren. 
  4. Arbeitsbereich-Administratoren können Benutzer zu einem Databricks-Arbeitsbereich hinzufügen, ihnen die Rolle des Arbeitsbereich-Administrators zuweisen und den Zugriff auf Objekte und Funktionen im Arbeitsbereich verwalten, wie z.B. die Möglichkeit, Cluster zu erstellen und die Eigentümerschaft von Jobs zu ändern.

3.     Datenberechtigungen in Unity Catalog

Im Unity Catalog sind die Daten standardmäßig sicher. Anfänglich haben Benutzer keinen Zugriff auf Daten in einem Metastore. Der Zugriff kann entweder von einem Metastore-Administrator, dem Eigentümer eines Objekts oder dem Eigentümer des Katalogs oder Schemas (das das Objekt enthält) gewährt werden. Sicherbare Objekte in Unity Catalog sind hierarchisch aufgebaut, und Berechtigungen werden nach unten vererbt.

Wir können Berechtigungen über den Data Explorer, SQL-Befehle oder REST-APIs zuweisen und entziehen.

4.     Cluster-Zugriffsmodi für Unity Catalog

Um auf die Daten in Unity Catalog zugreifen zu können, müssen die Cluster mit dem richtigen Zugriffsmodus konfiguriert werden. Unity Catalog ist standardmäßig sicher. Wenn ein Cluster nicht mit einem der Unity-Catalog-fähigen Zugriffsmodi konfiguriert ist (d. h. gemeinsam genutzt oder zugewiesen), kann der Cluster nicht auf Daten in Unity Catalog zugreifen.

5.     Datenabgleich für Unity Catalog

Wir können Unity Catalog verwenden, um die Datenabfolge von Abfragen in jeder Sprache, die auf einem Databricks-Cluster oder SQL-Warehouse ausgeführt werden, zur Laufzeit zu erfassen. Die Datenabfolge wird bis auf Spaltenebene erfasst und umfasst Notebooks, Workflows und Dashboards, die mit der Abfrage in Zusammenhang stehen. 

6.     Lakehouse Federation und Unity-Catalog

Lakehouse Federation ist die Abfrageverbundplattform für Databricks. Der Begriff Query Federation beschreibt eine Sammlung von Funktionen, die es Benutzern und Systemen ermöglichen, Abfragen gegen mehrere isolierte Datenquellen durchzuführen, ohne alle Daten in ein einheitliches System migrieren zu müssen.

Databricks verwendet Unity Catalog, um Query Federation zu verwalten. Mit Unity Catalog können Sie schreibgeschützte Verbindungen zu gängigen externen Datenbanksystemen konfigurieren und Fremdkataloge erstellen, die externe Datenbanken spiegeln. Die Data-Governance- und Data-Lineage-Tools von Unity Catalog stellen sicher, dass der Datenzugriff für alle föderierten Abfragen der Benutzer in Ihren Databricks-Arbeitsbereichen verwaltet und geprüft wird.

Wie richte ich Unity Catalog für meine Organisation ein?

Databricks schlägt zu diesem Zweck einen fünf-Schritte-Plan vor, um den Unity Catalog für Ihr Unternehmen einzurichten:

  1. Konfigurieren Sie einen S3-Bucket und eine IAM-Rolle, die Unity Catalog zum Speichern und Zugreifen auf Daten in Ihrem AWS-Konto verwenden kann.
  2. Erstellen Sie einen Metastore für jede Region, in der Ihre Organisation tätig ist.
  3. Hängen Sie Workspaces an den Metastore an. Jeder Workspace wird die gleiche Ansicht der Daten haben, die Sie in Unity Catalog verwalten.
  4. Wenn Sie ein neues Konto haben, fügen Sie Benutzer, Gruppen und Dienstprinzipale zu Ihrem Databricks-Konto hinzu.
  5. Als Nächstes erstellen Sie Kataloge, Schemata und Tabellen und gewähren den zuvor hinzugefügten Usern Zugriff darauf.

Eine vollständige Anleitung zur Einrichtung finden Sie bei Databricks unter Erste Schritte mit Unity Catalog.

Fazit

Die im Unity Catalog eingebaute, eng integrierte Methode zur gemeinsamen Nutzung von Daten verringert den Aufwand und die Schwierigkeiten bei der Verwaltung von Datenberechtigungen in Ihrem Unternehmen. Die Verwendung des Catalogs ermöglicht uns somit ein Workspace-übergreifendes, transparentes und sicheres Arbeiten mit den Daten.

Sie möchten mehr über den Unity Catalog erfahren oder benötigen Unterstützung bei der Implementierung? Dann kontaktieren Sie uns gerne!

Ihr Kontakt: Vinzent Wuttke

Unternehmen sitzen auf einem ungenutzten Berg von Kundendaten. Wir von datasolut entwickeln KI, die Ihr Marketing optimiert. Damit Sie dem richtigen Kunden zur richtigen Zeit das richtige Angebot machen können.

Auch interessant für Sie