Datenmodellierung bezeichnet den Prozess der Erstellung einer schematischen Darstellung von Datenobjekten, um einen bestimmten Kontext in einem System abzubilden. Dabei entsteht ein Datenmodell, das die Speicherung, Analyse und das Verständnis der Daten erleichtert. Datenmodellierung ist ein entscheidender Schritt im Entwurf von Datenbanken und Informationssystemen.
Bei der Datenmodellierung wird ein Schema erstellt, das zeigt, wie Daten, beispielsweise von Unternehmen, in einer Datenbank organisiert und gespeichert werden sollen. Dies ist bei verschiedensten Anwendungen und Software-Projekten von zentraler Bedeutung. Statt einer Datenbank können auch ein Data Lake oder Data Warehouse genutzt werden, um das Datenmodell zu realisieren. Das bei der Datenmodellierung entstandene Datenmodell ist auf die angestrebte Datenlösung angepasst und bietet einen Plan zur Umsetzung der Lösung. Bei der Datenmodellierung wird herausgearbeitet, welche Daten benötigt werden, um z. B. Geschäftsprozesse zu verbessern oder andere betriebliche Ziele zu erreichen. Es wird ermittelt, wie sie miteinander in Beziehung gesetzt werden müssen. Für analytische Systeme werden Daten in eine Struktur gebracht, die wertorientierte Analysen erlaubt und Vorgaben zur Integration neuer Daten festlegt.
Eine Datenmodellierung muss durchdacht durchgeführt werden. Die komplexen Strukturen sind nur mit einer neuen Modellierung veränderbar. Schon im Vorfeld muss die angestrebte Datenlösung feststehen, um sich bei der Modellierung darauf zu beziehen. Ist das Datenmodell erstellt, verfügt man über eine konsolidierte, weitreichende Datenstruktur, die unternehmensweit eingesetzt werden kann. Für die Realisierung von Analysen, Dokumentationen und Berichten sind die strukturiert bereitgestellten Daten oft eine große Zeitersparnis und zusätzlich eine Voraussetzung zur Steigerung der Qualität der Unternehmensdaten. Das Modell und seine Daten können auch von Künstlicher Intelligenz genutzt werden, um Mehrwerte zu generieren.
Bei einer Datenmodellierung werden im Wesentlichen drei Schritte befolgt. Durch diesen Prozess wird sichergestellt, dass die Daten effektiv und effizient in einem Informationssystem organisiert sowie verwaltet werden können.
Das Datenmodell wird mit einem Datenmodellierungstool erstellt und zeigt am Ende konkret die Informationsobjekte, ihre Eigenschaften sowie ihre Beziehungen untereinander. In der Praxis werden insbesondere die relationale und dimensionale Datenmodellierung angewendet. Ein gängiges Modellierungskonzept für relationale Datenbanken ist das Entity-Relationship-Datenmodell, welches aus Entitäten, Attributen und Beziehungen besteht. Weitere Modellierungsmethoden sind die hierarchische und objektorientierte Datenmodellierung.
Beispielsweise ist die Beziehung zwischen einem Kunden und einem Produkt der Verkauf. Die dafür relevanten Eigenschaften sind unter anderem Kundennummer, Name vom Kunden und Produkt sowie der Produktpreis. Fehlen relevante Daten, kann dies auf Basis des Datenmodells unmittelbar erkannt und behoben werden. Das Modell enthält Namenskonventionen, Standardwerte, Semantik und Sicherheit, wodurch es konsistent und einheitlich ist. Daraus resultiert eine stabile Datenbasis, die als Grundlage für die weitere Verwendung im Unternehmen dient. Ergebnis sind also z. B. einsatzbereite Datenbanken oder Datenbestände.
Der Sinn und Zweck von Datenmodellen ist nicht nur das Datenbankdesign zu optimieren sowie eine hohe Datenqualität und bessere Entscheidungsfindung zu gewährleisten, sondern auch eine effiziente Kommunikationsbasis für alle beteiligten Stakeholder zu schaffen.
Das konzeptionelle Datenmodell ist die einfachste Variante der Datenbankmodelle. Es wird meist nicht nach formalen Datenmodellierungsregeln erstellt.
Das konzeptionelle Datenmodell könnte z. B. bei einem Online-Shop, der Pflanzen verkauft, die Datenentitäten folgendermaßen darstellen:
Darüber hinaus wären auch bestimmte Anforderungen und Geschäftsregeln des Unternehmens enthalten wie:
Das logische Datenmodell geht einige Schritte weiter als das konzeptionelle Modell. Es wird bei der Datenmodellierung auf das konzeptionelle Datenmodell aufgesetzt. Mit ihm können technische Datenstrukturen und Zusammenhänge detailliert abgebildet werden. Es zeigt mehr Details und komplexere Datenbeziehungen. Im logischen Datenmodell erkennt man:
Ein Schlüssel ist ein Attribut oder eine Gruppe von Attributen, die zur Identifikation von Entitäten verwendet werden. Ein Fremdschlüssel ist ein Attribut in einer Tabelle, das auf den Primärschlüssel in einer anderen Tabelle verweist und somit eine Beziehung zwischen den beiden Tabellen herstellt. Durch die Nutzung von Schlüsseln und Fremdschlüsseln ist es möglich, komplexe Datenbankstrukturen zu erstellen, die eine effiziente Verwaltung von Daten gewährleisten.
Bezogen auf das erste Beispiel, würde das logische Datenbankschema die entsprechenden Entitäten genauer betrachten. Die Kundschaft-Dateneinheit könnte detailliert beschrieben werden, indem z. B. festgelegt wird:
Anhand detaillierter Betrachtungen können Entscheidungen für bestimmte Technologien getroffen werden, die das Datenmodell abbilden können. Das logische Datenmodell wird durch die Sprache des Entwicklers realisiert und kann mit verschiedenen Datenbanktechnologien umgesetzt werden.
Das physische Datenmodell ist die letzte Stufe der Datenmodellierung. Es umfasst die Spezifikationen der Datenbank. Es beschreibt die Umsetzung des konzeptionellen Datenbanksystems und/oder des logischen Datenmodells für ein bestimmtes Datenbank-Softwaresystem. Das Modell beinhaltet:
Datenexpert:innen können verschiedene Analysetools, Methoden und Werkzeuge anwenden, die sie bei der Datenmodellierung unterstützen. Auch Endbenutzer:innen können bestimmte Informationen visuell präsentieren und damit ein Datenmodell erstellen, indem sie zum Beispiel Objekte wie Diagramme oder Tabellen strukturieren.
Sprechen Sie jetzt mit unserem Cloud Analytics Experten und wir zeigen Ihnen, wie Sie Ihr Unternehmen auf die nächste Stufe bringen können.
Dürsin Kurt
CEO Cloud Analytics