/

Big Data

Definition:

Big Data

Inhalt

Big Data ist ein mehrschichtiger Begriff und beschreibt gleichzeitig riesige Datenmengen, die Technologien dahinter sowie die Auswertung und Nutzung dieser Daten durch Unternehmen. Damit ist Big Data sowohl Tatsache als auch Herausforderung, System und Methode.

Definition: Was ist Big Data?

Nüchtern übersetzt bedeutet Big Data“ große Datenmenge oder besser Massendaten. Viel wichtiger für die Definition ist aber die Herkunft und Verarbeitung dieser Daten. Als Phänomen des digitalen Zeitalters produziert jeder Mensch tagtäglich eine riesige Menge an Daten und Datensätzen, aus denen sich mit entsprechender Analyse unzählige Erkenntnisse ableiten lassen. Dabei sehen sich Unternehmen, Entwickler:innen und Analyst:innen mit drei Arten von Big Data konfrontiert: 

  • strukturierte Daten: quantitative Kennzahlen und Datensätze (Umsatz, Absatz usw.);
    Dateitypen wie CSV oder TSV
  • unstrukturierte Daten: qualitative Inhalte (Social-Media-Beiträge, Videos, Blogs, Bilder usw.)
  • semistrukturierte Daten: Datenformate wie JSON oder XML

Unstrukturierte Daten bergen im Vergleich zu strukturierten Daten die Herausforderung, dass sie über komplexe Methoden auswertbar gemacht werden müssen. Ein Praxisbeispiel sind Social Media Posts. Die Verfahren weisen häufig eine Unschärfe auf, da mit maschinellen Methoden versucht wird, die Aussage eines Texts zu ermitteln. Bei richtiger Umsetzung können wertvolle Erkenntnisse gewonnen werden: Mittels Algorithmen können zum Beispiel negative Aussagen über ein Produkt identifiziert werden. Die Algorithmen sind in der Lage, einen Alarm auszulösen, woraufhin Mitarbeitende die Texte manuell überprüfen und adäquat reagieren können. 

Big Data: 3-V-Modell

Um die Dimension der Herausforderung, die Big Data bewerkstelligen muss, greifbar zu machen, wird meist das 3-V-Modell nach Doug Laney zitiert. Demnach ist Big Data gekennzeichnet durch: 

  • Volume – riesiges Datenvolumen 
  • Variety – hohe Vielfalt an Daten aus unterschiedlichen Datenquellen 
  • Velocity – riesige Geschwindigkeit der Datenerzeugung 

Kritiker:innen weisen auf die Ungenauigkeit dieser drei Dimensionen hin und schärfen die Definition häufig mit weiteren V-Faktoren, wodurch ein 6-V-Modell entsteht:

  • Veracity – (unsichere) Echtheit der Daten 
  • Value – (unbestimmter) Mehrwert der Daten 
  • Validity – (zu sichernde) Datenqualität  

Diese V-Faktoren sind nicht nur Eigenschaften, sondern gleichzeitig die Herausforderung von Big Data. Aus einem anderen Blickwinkel betrachtet, zeigen diese Faktoren auch Ansätze bzw. Grundbedingungen für die Verarbeitung und Analyse auf. 

Was sind die Vorteile von Big Data?

Die enorme Anzahl an Daten, Quellen und Anwendungen macht Big Data zu einem der erkenntnisstärksten Analysesysteme aller Zeiten, auf dessen Basis Prozesse verbessert und Handlungsempfehlungen abgeleitet werden können. Wenn Unternehmen die richtige Frage an ihre Daten stellen und diese mit den richtigen Anwendungen bearbeiten, erhalten sie präzise, qualitätsgesicherte und informationsreiche Ergebnisse in Echtzeit. Mit bestimmten Big Data Konzepten lassen sich Analysen problemlos wiederholen, verifizieren, neu ausrichten und abgleichen. Somit bieten Big Data-Lösungen die Möglichkeit, eine neu dimensionierte Kontrollinstanz für Analysen einzuführen. 

Mittels Big Data Technologien kann man in kürzester Zeit von einem Datenpunkt zu einer Information gelangen, die sich in Wissen und Handeln übersetzen lässt. Lernt ein Unternehmen seine Kund:innen zum Beispiel genau dort kennen, wo sie über ein Produkt reden, kann es daraus bessere Entscheidungen und Maßnahmen ableiten als ein Unternehmen, das sich den Kundenwünschen über Umfragen oder Stichproben nähert. 

Als weitere Vorteile lassen sich festhalten:

  • Wettbewerbsvorteil: Mit den Erkenntnissen, die aus Big Data gewonnen werden, können Unternehmen ihre Produkte optimal auf die Bedürfnisse der Kund:innen abstimmen, Trends erkennen und Geschäftsprozesse gezielt verbessern 
  • Optimierte Customer Experience: Durch entsprechende Datenanalysen kann die Kundenkommunikation sowie das Marketing personalisiert erfolgen und somit die Customer Experience gesteigert werden  
  • Strategisches Risikomanagement: Die Ergebnisse aus Big Data Analysen können Führungskräfte und Mitarbeitende dabei unterstützen, Risiken vorherzusehen sowie Probleme frühzeitig zu vermeiden 

Welche Nachteile hat Big Data?

Per se haben Daten – egal welcher Menge oder Qualität – keinen Wert. Ohne die richtige Anwendung ist Big Data ein Risiko – nämlich nur ein endloser Datenpool, der als fokussierte Informationsquelle missverstanden werden kann. Wer riesige Datenquellen und Datenmengen zur Verfügung hat, konzentriert sich schnell auf die falschen Aspekte oder übersieht die eigentlich wesentlichen Fragen.

Zudem bedeuten mehr Daten mehr Aufwand bei Sammlung, Verarbeitung und Analyse. Ohne entsprechende Technologien, Software und Tools lässt sich weder die Geschwindigkeit noch die Präzision für eine erfolgreiche Datenverarbeitung und Auswertung erreichen.

Big Data-Methoden und -Technologien – worauf ist zu achten?

Der effektive Einsatz von Big Data und Data Analytics ist für Unternehmen elementar, um in der zunehmend digitalisierten Wirtschaft erfolgreich zu sein. Für die zielführende Analyse und Verarbeitung von Big Data braucht es spezielle Technologien genauso wie ein entsprechendes Mindset. Big Data ist die Grundlage für Business Intelligence und die Anwendung künstlicher Intelligenz. Als Lösung zur Datenspeicherung und -verarbeitung kommen insbesondere In-Memory-Datenbanken und Tools wie Azure Stream Analytics oder Event Hubs in Frage. 

Die Fragestellung und das Ziel einer Untersuchung bestimmen die Auswahl der Analysemethode sowie der Tools bzw. Systeme. Gleichzeitig bestimmt die Fragestellung, ob Big Data-Analysen überhaupt sinnvoll sind für einen speziellen Anwendungsfall. Unter den mittlerweile unzähligen Big Data-Lösungen ist Microsoft Azure Synapse eine erprobte cloudbasierte Variante zur Sammlung und Verwaltung riesiger Datenmengen sowie zur weiteren Datenverarbeitung. Die weit verbreiteten Open Source Frameworks Apache Hadoop und Apache Spark werden auch von kommerziellen Lösungen wie bspw. Azure Data Lake unterstützt.

Über eine ganzheitliche Analytics Plattform kann eine vielfältige Big Data-Infrastruktur aufgebaut werden. Die Analytics Platform Architektur umfasst verschiedene Bestandteile wie Analysesysteme sowie Integrations- und Visualisierungstools.

Sie haben weitere Fragen?

Sprechen Sie jetzt mit unserem Cloud Analytics Experten und wir zeigen Ihnen, wie Sie Ihr Unternehmen auf die nächste Stufe bringen können.

Dürsin Kurt, CO-CEO Cloud Analytics

Dürsin Kurt
CEO Cloud Analytics