Der Begriff Data Quality bzw. Datenqualität beschreibt den Wert von Daten für Analysen und deren Verwendung in Unternehmen. Auch wenn die Bewertung von Datenqualität grundsätzlich subjektiv ist, ergeben sich aus dem Zweck der Daten klare Anforderungen – z. B. an die Vollständigkeit, Konsistenz oder Aktualität. Data Quality ist ein Teilgebiet des Datenmanagements und der Data Governance.
In der Definition nach ISO 9001 steht Qualität für den „Grad, in dem […] Merkmale eines Objekts Anforderungen [erfüllen]“. Dies gilt genauso für Daten. Die Anforderungen zur Bewertung der Qualität ergeben sich dabei aus den Zielen jeglicher Datenanalyse, die mit ihnen stattfinden soll:
Abseits von Analysen hat die Datenqualität auch auf alle anderen datenbasierten Operationen und Ergebnisse in Organisationen einen sehr hohen Einfluss. So müssen etwa Buchungen korrekt vermerkt oder Stammdaten wie Kundenadressen aktuell gehalten werden. Eine hohe Data Quality ist Grundlage dafür, dass nutzbringende Erkenntnisse aus Daten gezogen werden können und somit in jeder Domäne von Bedeutung.
Daten sind das Resultat jedes unternehmerischen Handelns in einer modernen Zeit; manchmal werden mehr davon produziert und manchmal weniger. Die Datenqualität ist damit entscheidender Bestandteil der unternehmerischen Existenz. Mit Fehlern behaftete, unvollständige oder überflüssige Datensätze kosten mehr als nur Geld. Sie haben negative Auswirkungen auf Reputation, Zeit, Mitarbeitende, Kund:innen und Marktanteile. Im Zweifel kosten sie das gesamte Geschäft.
Alle Organisationen sind daher gut beraten, ihre Datenbestände regelmäßig zu pflegen, Datenqualitätsprüfungen durchzuführen und ein kontinuierliches Datenqualitätsmanagement für verschiedene Bereiche und Abteilungen zu implementieren. Dadurch können Datenqualitätsprobleme auf ein Minimum reduziert und Geschäftsprozesse optimiert werden.
Wird Datenqualität strategisch als Fundament jeglicher Handlungen im Unternehmen verstanden, kann dieses Konzept die gesamte Gestaltung und alle Maßnahmen rund um Daten vereinfachen, verschlanken sowie beschleunigen. Langfristige Vorteile sind dadurch Zeit- und Kosteneinsparungen im Betrieb.
Data Quality lässt sich nur in der Beziehung verschiedener Datensätze zueinander messen und bewerten. Ein einzelnes Daten-Bit ist weder „gut“ noch „schlecht“. Erst in seinem Verhältnis zu anderen Daten erhält es einen Wert. Somit ist wie immer der Kontext von Bedeutung. Datenqualität bemisst sich generell nach sieben Faktoren:
Oft wird Datenintegrität (Integrity) als weiterer Punkt gezählt. Damit wird gemessen, ob ein Datensatz allen Data Governance-Regeln und -Standards eines Unternehmens entspricht. Allerdings ergibt sich die Integrität der Daten einerseits aus den anderen sieben Kriterien und ist andererseits eine übergeordnete Bewertungsebene, die somit auch die Qualität des Datenmanagements in den Fokus rückt.
Grundsätzlich lassen sich die Dimensionen nicht trennen. Je nach Betrieb oder Datenbereich erhalten verschiedene Faktoren allerdings unterschiedliche Gewichtungen. So wird etwa die Relevanz von Daten in einem Data Lake extrem weit gefasst. Gleichzeitig lassen sich nicht alle Qualitätskriterien quantitativ messen. Ob Daten zum Beispiel genau sind, lässt sich meist erst nach ihrer Anwendung beurteilen – wenn überhaupt. Ein adäquates Datenqualitätsmanagement hilft jedoch dabei, diese Unsicherheit nachhaltig zu reduzieren. Dabei können verschiedene Tools, Algorithmen und Methoden eingesetzt werden.
Das strategische Management von Data Quality ist ein entscheidender Faktor für den Erfolg von Unternehmen in der heutigen datengetriebenen Wirtschaft. Allerdings stehen viele Organisationen vor großen Herausforderungen und Problemen bei der Sicherstellung einer hohen Datenqualität.
Wie bei jedem Projekt zur Optimierung eines Unternehmensbereichs ist es für die Datenqualität unerlässlich, zunächst den Ist-Zustand zu erfassen. Aus dieser Untersuchung ergeben sich Maßnahmen und Aufgaben, die entweder einmalig oder kontinuierlich umzusetzen sind.
Als erstes muss ein Level an Datenqualität erreicht werden, das alle genannten Kriterien zum aktuellen Zeitpunkt erfüllt. Darauf aufbauend müssen Strukturen, Anwendungen und Prozesse implementiert werden, die dieses Level für die Zukunft halten und gleichzeitig den Aufwand zur Erhaltung reduzieren.
Je nach Phase der Verbesserung sind drei grundsätzliche Schritte durchzuführen:
Werden Datenanalyse und Datenbereinigung per Automatisierung in entsprechenden Tools, Software-Lösungen und Systemen umgesetzt, sinkt der initiale Aufwand für das Datenqualitätsmanagement. Zudem können beide Schritte als integraler Bestandteil der dritten Ebene zukünftig automatisch ausgeführt werden.
Eine Lösung von Microsoft ist z. B. SQL Server Data Quality Services (DQS). Es verwendet eine Wissensdatenbank, um automatisierte Datenbereinigungsregeln anzuwenden und so die Datenqualität zu verbessern. DQS ermöglicht es, fehlerhafte, inkonsistente sowie unvollständige Daten zu identifizieren und zu korrigieren.
Über Visualisierungsfunktionen und Dashboards kann die Datenqualität als Managementaufgabe zum operativen Teil des Tagesgeschäfts werden – ein wichtiger Aspekt für den fortlaufenden Erfolg.
Sprechen Sie jetzt mit unserer Cloud Analytics Expertin und wir zeigen Ihnen, wie Sie Ihr Unternehmen auf die nächste Stufe bringen können.
Sarah Leinenbach Cloud Analytics Specialist