/

Data Lakehouse

Definition:

Data Lakehouse

Inhalt

Das Data Lakehouse ist ein neuer Ansatz im Datenmanagement, der Speicherung, Analyse und Organisation von Daten stark vereinfacht. Das System kommt bei großen Datenmengen zum Einsatz, wie sie beispielsweise in einer Data Driven Company vorliegen. Das Data Lakehouse erlaubt Data Analysts, Architects und Engineers effizienteres Arbeiten. Da Systeme und Komplexität im Data Lakehouse reduziert werden, ist die Architektur auch für agile Data Warehouses und Analytics Plattformen sowie CI/CD-Konzepte geeignet.

Definition: Was ist ein Data Lakehouse?

Das Data Lakehouse ist eine moderne Datenmanagementarchitektur, die die Vorteile eines Data Warehouses und eines Data Lakes kombiniert. Die moderne und offene Datenarchitektur ist flexibel, kosteneffizient und stellt strukturgebende Prozesse zur Datenanalyse sowie -organisation bereit. Sie wird häufig zum Data Management auf cloudbasierten Analyseplattformen eingesetzt. Je nach Anwendungsfall muss die Lakehouse-Architektur auf spezifische Anforderungen angepasst werden; zudem muss die Datenqualität jederzeit gewährleistet sein,

Das Data Lakehouse unterstützt verschiedenste Datenformate und sowohl strukturierte, semistrukturierte als auch unstrukturierte Daten. Dadurch werden Self-Service-Analysen, Echtzeit-Lösungen und automatisiertes Reporting möglich, wodurch die Umsetzung von Business Intelligence (BI) im Unternehmen vereinfacht wird.

Wie funktioniert ein Data Lakehouse?

Das Data Lakehouse ist eine Kombination aus Data Lake und Data Warehouse, die zuvor getrennte Komponenten einer Plattform waren. Beide Komponenten interagierten miteinander, wodurch mehrstufige und komplexe Prozesse durchlaufen werden mussten, was zu Verzögerungen in der Nutzung der Daten führte. Teilweise mussten Business-Logiken auch in zwei unterschiedlichen Technologien realisiert werden, auf unterschiedlichen Datenbeständen – sowohl im DWH als auch im Data Lake. 

Das Data Lakehouse bietet eine umfassende Lösung mit einem offenen Systemdesign, das alle Daten auf einer Ebene für verschiedene Zwecke bereitstellt. Dafür stehen nützliche Funktionen zur Verfügung:

Datenmanagement

Im Data Lakehouse können alle Daten wie in einem Data Lake oder Warehouse abgelegt und bereitgestellt werden, wodurch die Datenverwaltung zentralisiert wird. Dabei spielt es keine Rolle, ob es sich um Rohdaten, verschiedene Dateiformate oder strukturierte und unstrukturierte Daten handelt. Für eine effiziente Datenverarbeitung und -organisation finden ETL-Prozesse (ETL = Extract, Transform, Load) Verwendung. Somit fällt für Unternehmen nur noch die Pflege einer einzigen Datenquelle an.

Künstliche Intelligenz (KI) und Machine Learning

Data Lakehouses unterstützen die Entwicklung von KI und Machine Learning mit verschiedenen Tools und Methoden. Besonders hilfreich ist die Einführung von DataFrames, die die Optimierung von Daten im laufenden Betrieb erlaubt. Der KI-Assistent Microsoft Copilot integriert sich nahtlos in die bestehende Datenumgebung und unterstützt Benutzer:innen dabei, effizienter mit den verfügbaren Daten zu arbeiten.

SQL-Verbesserung

Ein Data Lakehouse verfügt über leistungsfähige Abfrage-Engines, mit denen eine schnelle Analyse von Daten möglich ist. Dafür optimiert es herkömmliche Dateiformate in einem Data Lake in die Richtung der Strukturen und Funktionen von Tabellen eines Data Warehouses.

Welche Vorteile von Data Lake und Data Warehouse vereint das Data Lakehouse?

Im Gegensatz zu traditionellen Datenbanken ist ein Data Lakehouse flexibler und kann große Datenmengen effizienter verarbeiten. Das hybride Konzept aus Data Lake und Data Warehouse basiert auf einem neuen Systemdesign, das beide Komponenten auf einer Plattform verbindet und ihre jeweiligen Nachteile ausgleicht. 

Das Data Warehouse sorgt für die Implementierung von Datenstrukturen und -verwaltungsfunktionen. Es unterstützt zudem ACID-Transaktionen – das Akronym steht für Atomicity (Atomarität), Consistency (Konsistenz), Isolation (Isolation) und Durability (Dauerhaftigkeit). Der Data Lake stellt einen flexiblen und kostengünstigen Speicher zur Verfügung, in dem direkt mit Quelldaten gearbeitet werden kann.

Eine einheitliche Datenplattform für Analyse und KI

Es entsteht ein Analysesystem auf einer einheitlichen Lakehouse-Plattform, auf das jeder Mitarbeitende schnell und direkt Zugriff hat. Es kann für verschiedene Anwendungsfälle zum Einsatz kommen und Nutzen bieten. Auch für KI und maschinelles Lernen stehen die qualitätsgesicherten Daten jederzeit zur Verfügung, was zur Optimierung und Automatisierung von Prozessen beiträgt.  

Daten werden wie im Data Warehouse strukturiert, normiert und konsumorientiert bereitgestellt; das ganze an Ort und Stelle, innerhalb des Data Lakes, ohne eine weitere Kopie der Daten im DWH vorzunehmen. Doppelte bzw. inkongruente Daten werden harmonisiert. So entsteht ein übersichtliches Datenangebot, das mit Sicherheits- und Governance-Features, Zugriffskontrollen und Audit-Protokollen überwacht werden kann.  

Effiziente Skalierbarkeit und Kostenoptimierung durch Cloud-Integration

Eine große Herausforderung bei der bisherigen Erweiterung von bestehenden, parallel betriebenen DWH- und Data Lake-Architekturen – die redundante Business-Logik und Datenspeicherung – wird durch den innovativen Data Lakehouse-Ansatz effizient umgangen. Schnelllebige Weiterentwicklungen der Systeme stellen bisher für Architekten und Data Engineers eine große Herausforderung dar, da sie sich neue Skills und Wissen aneignen müssen.  

Das Data Lakehouse wird im Idealfall in einer Cloud betrieben und ist auf den bestehenden Data Lake aufgesetzt – somit ist es problemlos skalierbar und steht für maximale Flexibilität. Nicht nur der Speicher kann erweitert werden, auch Reduzierung von Kosten und Performanceoptimierung sind auf diesem Weg möglich. Der Data Lake arbeitet mit offener Architektur und Open Source-Werkzeugen, die ebenfalls im Data Lakehouse zur Anwendung kommen. Der Open Source-Ansatz erlaubt schnellere Softwareupdates und sorgt für maximale Kosteneffizienz. Ein Beispiel für eine Softwarelösung ist Azure Databricks Lakehouse.

Sie haben weitere Fragen?

Sprechen Sie jetzt mit unserem Cloud Analytics Experten und wir zeigen Ihnen, wie Sie Ihr Unternehmen auf die nächste Stufe bringen können.

Dürsin Kurt
CEO Cloud Analytics