/

Data Lake

Definition:

Data Lake

Inhalt

Ein Data Lake ist ein zentraler Aufbewahrungs- und Verwaltungsort (Repository) für Rohdaten jedes Formats und jeder Ausprägung. Mit seinem flexiblen Aufbau und seiner potenziell unendlichen Aufnahmefähigkeit ist der Data Lake das führende Datenmanagementkonzept im unternehmerischen Umfeld von Big Data.

Im Gegensatz zu Datensilos, die Daten in separaten Systemen speichern, und Datenbanken, die strukturierte Daten speichern, ermöglicht ein Data Lake das Speichern und Analysieren von Daten in ihrem natürlichen Format.

Definition: Was ist ein Data Lake?

Der Begriff Data Lake wurde 2010 von James Dixon, damals CTO bei Pentaho, geprägt. Die Metapher umreißt die zentralen Elemente dieser Form der Datensammlung, -verarbeitung und -quelle für Analysen und weitere Einsatzmöglichkeiten im Unternehmen:

  • Daten werden im Data Lake als Rohdaten aus den unterschiedlichsten Datenquellen gespeichert (z. B. aus ERP-Systemen, IoT-Geräten oder Social-Media-Plattformen). 
  • Sie werden bei der Speicherung nur danach bewertet, ob sie einen Wert für Analysen oder das Unternehmen haben könnten.
  • Daten können in strukturierter, unstrukturierter oder teilstrukturierter Form vorliegen. 
  • Die Speicherung erfolgt nach keinem festgelegten Schema. 
  • Die Daten eignen sich für verschiedene Arten von Anwendungsfällen – von der Ad-hoc-Analyse, über SQL-Abfragen und Volltextsuche bis hin zum Data Mining.

Das Data Lake-Konzept bildet gleichzeitig auch die Gefahren solcher Repositories ab: Ohne entsprechende Data Governance und bei einer ungezügelten Sammlung und Speicherung von Rohdaten kann der Data Lake zum Data Swamp werden. Mangels Anwendbarkeit und Pflege der Data Lake-Strukturen bzw. Schnittstellen entsteht ein unbrauchbarer Datensumpf.

Data Lake vs. Data Warehouse – was sind die wichtigsten Unterschiede?

Sowohl Data Lakes als auch Data Warehouses sind elementare Systeme, wenn es darum geht, Datenmengen zu speichern sowie bereitzustellen.

In vielerlei Hinsicht gilt der Data Lake als Gegenentwurf zum Data Warehouse (DWH). Auch hier lassen sich die wichtigsten Unterschiede, Vorteile und Nachteile beider Konzepte bereits an einer Metapher festmachen: Während der Datensee fließend und ungeordnet ist, folgt das Datenlagerhaus einer klaren Struktur mit eindeutigen Zuordnungen. Trotz der Gegensätzlichkeit schließen sich beide Formen nicht aus. Vielmehr bilden sie zwei verschiedene Säulen für die erfolgreiche Anwendung und Analyse von Daten im Unternehmen oder in Organisationen.

Data Lake Data Warehouse
Datenstruktur
Daten im Rohformat, unstrukturiert oder strukturiert
Strukturierte und/oder verarbeitete Daten
Datenschema
Schema-on-Write (Schema wird vor dem Speichern definiert und strukturiert)
Schema-on-Read (Datenschema wird bei/nach Abfrage definiert und strukturiert)
Datenspeicherung
Nicht selektiv
Selektiv
Datentypen
Quantitative und qualitative Daten
Hauptsächlich quantitative Daten und Attribute
Hauptanwender
Analyst:innen, Data Scientists, Data Engineers
Operative Benutzer:innen, Data Analysts
Implementierung
Analyst:innen, Data Scientists, Data Engineers
Operative Benutzer:innen, Data Analysts
Implementierung
Einfach
Aufwendig
Anwendung
Aufwendiger
Einfacher
Flexibilität
Hoch
Gering
Anpassungs- und Erweiterungsfähigkeit
Hoch
Gering

Der Data Lake ist in vielen Bereichen besser für die Herausforderungen von Big Data geeignet. Dafür ist das Warehouse aufgeräumter und fokussierter – und damit weniger anfällig für eine Versumpfung.

Wer mit Warehouse-Lösungen arbeitet, kommt im operativen Geschäft häufig schneller zum Ziel als über den Data Lake. Auf der anderen Seite bietet der unstrukturierte Datensee die Möglichkeit, wesentlich tiefere, realitätsnähere und damit auch tiefgreifendere Analysen durchzuführen. Zusätzlich ermöglicht er, vollkommen neue Analysemöglichkeiten aufzudecken, die in Daten schlummern.

Ein neuer Ansatz im Datenmanagement, der die Vorteile eines Data Warehouses und Lakes vereint, ist das sogenannte Data Lakehouse.

Data Lake Tools und Software – Beispiele und Lösungen

Der Einsatz eines Data Lakes kann Unternehmen dabei helfen, Daten schnell und effizient zu speichern, zu verarbeiten sowie zu analysieren. Es liegt auf der Hand, dass ein großes und ständig wachsendes System wie ein Data Lake nicht einzig mit einer starren Infrastruktur konzeptioniert werden sollte.

Cloud-Lösungen wie Microsoft Azure Data Lake bieten vielfältige Funktionen, da sie sowohl die Speicher- und Rechenkapazität für Advanced Analytics (z. B. Data Mining und Machine Learning) als auch die Analysemöglichkeiten selbst bereitstellen. Sie lassen dem Data Lake-Konzept seine wichtigen Freiheiten und bringen gleichzeitig eine nutzerfreundliche Struktur für Anwender:innen ins Spiel.

Vorhandene Schnittstellen zu Open Source Frameworks wie Apache Hadoop machen es Ihnen zudem einfach, Ihre bisherigen Datenmanagementstrukturen auf die buchstäblich sekündlich wachsenden Herausforderungen von Big Data abzustimmen. Mittels rollenbasierter Zugriffskontrolle können Sie den Zugriff auf die Daten bestimmen, um Datenschutz-Anforderungen gerecht zu werden.

Sie haben weitere Fragen?

Sprechen Sie jetzt mit unserem Cloud Analytics Experten und wir zeigen Ihnen, wie Sie Ihr Unternehmen auf die nächste Stufe bringen können.

Dürsin Kurt
CEO Cloud Analytics