/

Data Quality

Definition:

Data Quality

Inhalt

Der Begriff Data Quality bzw. Datenqualität beschreibt den Wert von Daten für Analysen und deren Verwendung in Unternehmen. Auch wenn die Bewertung von Datenqualität grundsätzlich subjektiv ist, ergeben sich aus dem Zweck der Daten klare Anforderungen – z. B. an die Vollständigkeit, Konsistenz oder Aktualität. Data Quality ist ein Teilgebiet des Datenmanagements und der Data Governance.

Definition: Was ist Data Quality?

In der Definition nach ISO 9001 steht Qualität für den „Grad, in dem […] Merkmale eines Objekts Anforderungen [erfüllen]“. Dies gilt genauso für Daten. Die Anforderungen zur Bewertung der Qualität ergeben sich dabei aus den Zielen jeglicher Datenanalyse, die mit ihnen stattfinden soll:

  • realistische, vollständige und präzise Ergebnisse
  • zuverlässige Informationen für die Anwendung in Unternehmen
  • Reproduzierbarkeit und Nachverfolgbarkeit von Datensätzen

Abseits von Analysen hat die Datenqualität auch auf alle anderen datenbasierten Operationen und Ergebnisse in Organisationen einen sehr hohen Einfluss. So müssen etwa Buchungen korrekt vermerkt oder Stammdaten wie Kundenadressen aktuell gehalten werden. Eine hohe Data Quality ist Grundlage dafür, dass nutzbringende Erkenntnisse aus Daten gezogen werden können und somit in jeder Domäne bedeutsam.

Warum ist Datenqualität wichtig?

Daten sind das Resultat jedes unternehmerischen Handelns in einer modernen Zeit; manchmal werden mehr davon produziert und manchmal weniger. Die Datenqualität ist damit entscheidender Bestandteil der unternehmerischen Existenz. Mit Fehlern behaftete, unvollständige oder überflüssige Datensätze kosten mehr als nur Geld. Sie haben negative Auswirkungen auf Reputation, Zeit, Mitarbeitende, Kund:innen und Marktanteile. Im Zweifel kosten sie das gesamte Geschäft.

Alle Organisationen sind daher gut beraten, ihre Datenbestände regelmäßig zu pflegen, Datenqualitätsprüfungen durchzuführen und ein kontinuierliches Datenqualitätsmanagement für verschiedene Bereiche und Abteilungen zu implementieren. Dadurch können Datenqualitätsprobleme auf ein Minimum reduziert und Geschäftsprozesse optimiert werden.

Wird Datenqualität strategisch als Fundament jeglicher Handlungen im Unternehmen verstanden, kann dieses Konzept die gesamte Gestaltung und alle Maßnahmen rund um Daten vereinfachen, verschlanken sowie beschleunigen. Langfristige Vorteile sind dadurch Zeit- und Kosteneinsparungen im Betrieb.

Data Quality messen: Kriterien zur Bewertung der Datenqualität

Data Quality lässt sich nur in der Beziehung verschiedener Datensätze zueinander messen und bewerten. Ein einzelnes Daten-Bit ist weder „gut“ noch „schlecht“. Erst in seinem Verhältnis zu anderen Daten erhält es einen Wert. Somit ist wie immer der Kontext von Bedeutung. Datenqualität bemisst sich generell nach sieben Faktoren: 

  1. Genauigkeit (Accuracy) – alle Werte sind korrekt und entsprechen der Realität
  2. Vollständigkeit (Completeness)  – der Datensatz enthält alle relevanten Werte
  3. Stimmigkeit (Consistency) – die Daten werden überall identisch abgebildet bzw. im selben Format eingegebenen und dargestellt
  4. Aktualität (Timeliness) – die Datensätze sind aktuell
  5. Verlässlichkeit (Reliability)  – die Daten widersprechen weder sich selbst noch anderen verlässlichen Quellen
  6. Relevanz (Relevance)– die Daten sind für den Betrieb relevant
  7. Verfügbarkeit und Zugänglichkeit  – Datenbestände sind für Personen, die sie benötigen, jederzeit zugänglich

Oft wird Datenintegrität (Integrity) als weiterer Punkt gezählt. Damit wird gemessen, ob ein Datensatz allen Data Governance-Regeln und -Standards eines Unternehmens entspricht. Allerdings ergibt sich die Integrität der Daten einerseits aus den anderen sieben Kriterien und ist andererseits eine übergeordnete Bewertungsebene, die somit auch die Qualität des Datenmanagements in den Fokus rückt.

Grundsätzlich lassen sich die Dimensionen nicht trennen. Je nach Betrieb oder Datenbereich erhalten verschiedene Faktoren allerdings unterschiedliche Gewichtungen. So wird etwa die Relevanz von Daten in einem Data Lake extrem weit gefasst. Gleichzeitig lassen sich nicht alle Qualitätskriterien quantitativ messen. Ob Daten zum Beispiel genau sind, lässt sich meist erst nach ihrer Anwendung beurteilen  – wenn überhaupt. Ein adäquates Datenqualitätsmanagement hilft jedoch dabei, diese Unsicherheit nachhaltig zu reduzieren. Dabei können verschiedene Tools, Algorithmen und Methoden eingesetzt werden.

Datenqualität verbessern – wie sollten Sie vorgehen?

Das strategische Management von Data Quality ist ein entscheidender Faktor für den Erfolg von Unternehmen in der heutigen datengetriebenen Wirtschaft. Allerdings stehen viele Organisationen vor großen Herausforderungen und Problemen bei der Sicherstellung einer hohen Datenqualität.

Wie bei jedem Projekt zur Optimierung eines Unternehmensbereichs ist es für die Datenqualität unerlässlich, zunächst den Ist-Zustand zu erfassen. Aus dieser Untersuchung ergeben sich Maßnahmen und Aufgaben, die entweder einmalig oder kontinuierlich umzusetzen sind.

Als erstes muss ein Level an Datenqualität erreicht werden, das alle genannten Kriterien zum aktuellen Zeitpunkt erfüllt. Darauf aufbauend müssen Strukturen, Anwendungen und Prozesse implementiert werden, die dieses Level für die Zukunft halten und gleichzeitig den Aufwand zur Erhaltung reduzieren.

Je nach Phase der Verbesserung sind drei grundsätzliche Schritte durchzuführen:

  1. Data Profiling – Auswertung der Daten und der Bedarfe rund um Daten.
  2. Datenvorverarbeitung (Data Cleaning) – hier werden Daten bereinigt, transformiert und strukturiert, um sie z. B. für die weitere Verarbeitung in Business Intelligence-Anwendungen vorzubereiten. Bereinigung der Daten über Beseitigung von Dubletten (Deduplizierung), Aktualisierungen sowie Standardisierungen von Formaten und Eingaben. Etablierung einheitlicher Speicher- und Abrufstrukturen.
  3. Data Monitoring – kontinuierliche Überwachung aller Daten und datenbezogenen Prozesse. Das Verfahren kann auch den regelmäßigen Abgleich von Daten mit einer zuverlässigen Datenquelle beinhalten.
Ein effektiver Ansatz zur Optimierung der Data Quality kann auch darin bestehen, Datenbanken zu schaffen, die eine Single Source of Truth für bspw. Produktstammdaten darstellen. Dies bedeutet, dass alle relevanten Informationen zu einem Produkt an einem Ort gespeichert werden, um Konsistenz und Genauigkeit sicherzustellen. Durch den Abbau von Datensilos und die Schaffung einer integrierten Datenbank für Produktstammdaten können Unternehmen die Qualität ihrer Daten erhöhen.

Data Quality Tools und Software

Werden Datenanalyse und Datenbereinigung per Automatisierung in entsprechenden Tools, Software-Lösungen und Systemen umgesetzt, sinkt der initiale Aufwand für das Datenqualitätsmanagement. Zudem können beide Schritte als integraler Bestandteil der dritten Ebene zukünftig automatisch ausgeführt werden. 

Eine Lösung von Microsoft ist z. B. SQL Server Data Quality Services (DQS). Es verwendet eine Wissensdatenbank, um automatisierte Datenbereinigungsregeln anzuwenden und so die Datenqualität zu verbessern. DQS ermöglicht es, fehlerhafte, inkonsistente sowie unvollständige Daten zu identifizieren und zu korrigieren.

Über Visualisierungsfunktionen und Dashboards kann die Datenqualität als Managementaufgabe zum operativen Teil des Tagesgeschäfts werden – ein wichtiger Aspekt für den fortlaufenden Erfolg.

Die Erhebung von qualitativ hochwertigen Daten erfordert eine klare Planung, starke Datenkultur und kontinuierliche Überprüfung sowie Anpassung der Daten. Obwohl es zeitaufwändig sein kann, lohnt sich die Investition in Data Quality, da sie als Grundlage für fundierte Entscheidungen und erfolgreiche Geschäftsergebnisse fungiert.

Sie haben weitere Fragen?

Sprechen Sie jetzt mit unserem Cloud Analytics Experten und wir zeigen Ihnen, wie Sie Ihr Unternehmen auf die nächste Stufe bringen können.

Dürsin Kurt
CEO Cloud Analytics