Der Begriff Data Quality bzw. Datenqualität beschreibt den Wert von Daten für Analysen und deren Verwendung in Unternehmen. Auch wenn die Bewertung von Datenqualität grundsätzlich subjektiv ist, ergeben sich aus dem Zweck der Daten klare Anforderungen – z. B. an die Vollständigkeit, Konsistenz oder Aktualität. Data Quality ist ein Teilgebiet des Datenmanagements und der Data Governance.
In der Definition nach ISO 9001 steht Qualität für den „Grad, in dem […] Merkmale eines Objekts Anforderungen [erfüllen]“. Dies gilt genauso für Daten. Die Kriterien zur Bewertung der Qualität ergeben sich dabei aus den Zielen jeglicher Datenanalyse, die mit ihnen stattfinden soll:
Abseits von Analysen hat die Datenqualität auch auf alle anderen datenbasierten Operationen und Prozesse in Organisationen einen sehr hohen Einfluss. So müssen etwa Buchungen korrekt vermerkt oder Stammdaten wie Kundenadressen aktuell gehalten werden. Eine hohe Data Quality ist Grundlage dafür, dass nutzbringende Erkenntnisse aus Daten gezogen werden können und somit in jeder Domäne bedeutsam.
Daten sind das Resultat jedes unternehmerischen Handelns in einer modernen Zeit; manchmal werden mehr davon produziert und manchmal weniger. Die Datenqualität ist damit entscheidender Bestandteil der unternehmerischen Existenz. Mit Fehlern behaftete, unvollständige oder überflüssige Datensätze kosten mehr als nur Geld. Sie haben negative Auswirkungen auf Reputation, Zeit, Mitarbeitende, Kund:innen und Marktanteile. Im Zweifel kosten sie das gesamte Geschäft.
Alle Organisationen sind daher gut beraten, ihre Datenbestände regelmäßig zu pflegen, Datenqualitätsprüfungen durchzuführen und ein kontinuierliches Datenqualitätsmanagement (DQM) für verschiedene Bereiche und Abteilungen zu implementieren. Dadurch können Datenqualitätsprobleme auf ein Minimum reduziert und Geschäftsprozesse optimiert werden.
Wird Datenqualität strategisch als Fundament jeglicher Handlungen im Unternehmen verstanden, kann dieses Konzept die gesamte Gestaltung und alle Maßnahmen rund um Daten vereinfachen, verschlanken sowie beschleunigen. Langfristige Vorteile sind dadurch fundierte Unternehmensentscheidungen sowie Zeit- und Kosteneinsparungen im Betrieb.
Data Quality lässt sich nur in der Beziehung verschiedener Datensätze zueinander messen und bewerten. Ein einzelnes Daten-Bit ist weder „gut“ noch „schlecht“. Erst in seinem Verhältnis zu anderen Daten erhält es einen Wert. Somit ist wie immer der Kontext von Bedeutung. Datenqualität bemisst sich generell nach sieben Faktoren:
Oft wird Datenintegrität (Integrity) als weiterer Punkt gezählt. Damit wird gemessen, ob ein Datensatz allen Data Governance-Regeln und -Standards eines Unternehmens entspricht. Allerdings ergibt sich die Integrität der Daten einerseits aus den anderen sieben Kriterien und ist andererseits eine übergeordnete Bewertungsebene, die somit auch die Qualität des Datenmanagements in den Fokus rückt.
Grundsätzlich lassen sich die Dimensionen nicht trennen. Je nach Betrieb oder Datenbereich erhalten verschiedene Faktoren allerdings unterschiedliche Gewichtungen. So wird etwa die Relevanz von Daten in einem Data Lake extrem weit gefasst. Gleichzeitig lassen sich nicht alle Qualitätskriterien quantitativ messen. Ob Daten zum Beispiel genau sind, lässt sich meist erst nach ihrer Anwendung beurteilen – wenn überhaupt. Ein adäquates Datenqualitätsmanagement hilft jedoch dabei, diese Unsicherheit nachhaltig zu reduzieren. Dabei können verschiedene Tools, Algorithmen und Methoden eingesetzt werden.
Das strategische Management von Data Quality ist ein entscheidender Faktor für den Erfolg von Unternehmen in der heutigen datengetriebenen Wirtschaft. Allerdings stehen viele Organisationen vor großen Herausforderungen und Problemen bei der Sicherstellung einer hohen Datenqualität.
Wie bei jedem Projekt zur Optimierung eines Unternehmensbereichs ist es für die Datenqualität unerlässlich, zunächst den Ist-Zustand zu erfassen. Aus dieser Untersuchung ergeben sich Maßnahmen und Aufgaben, die entweder einmalig oder kontinuierlich umzusetzen sind.
Als erstes muss ein Level an Datenqualität erreicht werden, das alle genannten Kriterien zum aktuellen Zeitpunkt erfüllt. Darauf aufbauend müssen Strukturen, Anwendungen und Prozesse implementiert werden, die dieses Level für die Zukunft halten und gleichzeitig den Aufwand zur Erhaltung reduzieren.
Je nach Phase der Verbesserung sind drei grundsätzliche Schritte durchzuführen:
Werden Datenanalyse und Datenbereinigung per Automatisierung in entsprechenden Tools, Software-Lösungen und Systemen umgesetzt, sinkt der initiale Aufwand für das Datenqualitätsmanagement. Zudem können beide Schritte als integraler Bestandteil der dritten Ebene zukünftig automatisch ausgeführt werden.
Eine Lösung von Microsoft ist z. B. SQL Server Data Quality Services (DQS). Es verwendet eine Wissensdatenbank, um automatisierte Datenbereinigungsregeln anzuwenden und so die Datenqualität zu verbessern. DQS ermöglicht es, fehlerhafte, inkonsistente sowie unvollständige Daten zu identifizieren und zu korrigieren.
Über Visualisierungsfunktionen und Dashboards kann die Datenqualität als Managementaufgabe zum operativen Teil des Tagesgeschäfts werden – ein wichtiger Erfolgsfaktor für die kontinuierliche Unternehmensentwicklung.
Die Erhebung von qualitativ hochwertigen Daten erfordert eine klare Planung, starke Datenkultur und kontinuierliche Überprüfung sowie Anpassung der Daten. Obwohl es zeitaufwändig sein kann, lohnt sich die Investition in Data Quality, da sie als Grundlage für fundierte Entscheidungen und erfolgreiche Geschäftsergebnisse fungiert.
Sprechen Sie jetzt mit unserem Cloud Analytics Experten und wir zeigen Ihnen, wie Sie Ihr Unternehmen auf die nächste Stufe bringen können.
Dürsin Kurt
CEO Cloud Analytics