/

Data Science

Definition:

Data Science

Inhalt

Data Science ist ein Fachgebiet, das in der heutigen Zeit eine immense Bedeutung hat. Die Fähigkeit, große Datenmengen zu analysieren und daraus wertvolle Erkenntnisse zu gewinnen, ist zu einer entscheidenden Kompetenz in vielen Branchen geworden. Häufig wird die Disziplin als Extraktion von Wissen aus Daten beschrieben.

Definition: Was ist Data Science?

Data Science ist eine interdisziplinäre Wissenschaft mit starkem Anwendungsbezug: Data Science kombiniert Elemente aus den Fachbereichen Mathematik, Informatik und Advanced Analytics mit dem sehr spezifischen Fachwissen, das der untersuchten Domäne oder Branche zugrunde liegt. Mittels Datenwissenschaft soll aus großen Datenmengen Wissen generiert werden, das für sinnvolle Handlungsempfehlungen genutzt werden kann. Auf Basis der Erkenntnisse lassen sich fundierte Entscheidungen treffen. Data Scientists beschäftigen sich mit der Anwendung von Data Science-Techniken.

Mit den vielseitigen Methoden von Data Science können zum Beispiel Unregelmäßigkeiten und Auffälligkeiten in unübersichtlichen Datenmengen festgestellt oder Muster identifiziert werden, durch die die Vorhersage von künftigen Ereignissen ermöglicht wird. Insgesamt unterstützen Data Scientists in Unternehmen die datenbasierte Entscheidungsfindung und den digitalen Innovationsprozess. Unterschiedliche Branchen und Bereiche setzen Datenwissenschaften jeweils zielgerichtet für verschiedene Zwecke ein:

  • Datensicherheit:
    Mit Data Science wird die automatisierte Überwachung von IT-Systemen unterstützt.
  • Finanzen:
    Banken und Versicherungen nutzen Data Science zur Verbesserung ihrer Produkte, zum Erkennen von Anomalien und zur Fraud Prevention.
  • Handel:
    Die Analyse des Kundenverhaltens hilft bei der strategischen, datengetriebenen Entscheidungsfindung sowie beim Reduzieren von Rücksendungen.
  • Industrie:
    Die Auswertung großer Mengen an Daten durch Data Science unterstützt die Optimierung und (Teil-) Automatisierung von Prozess- und Fertigungsschritten.
  • Logistik:
    Lagerhaltung, Datenmanagement, Warenein- und -ausgang sowie Transport lassen sich durch Datenwissenschaft optimieren.
  • Marketing:
    Durch die Analyse von Kundendaten können Handlungsempfehlungen für Projekte und Strategien abgeleitet sowie Möglichkeiten zur Personalisierung umgesetzt werden.
  • Mobilität:
    Die Auswertung großer Mengen an Daten aus unterschiedlichen Sensoren ist wichtig für die Weiterentwicklung von Technologien wie autonomes Fahren.

Hierbei ist neben Fachkenntnissen in Mathematik und Informatik auch jeweils eine tiefe Kenntnis der jeweiligen Branche erforderlich. Das liegt daran, dass ein entscheidender Teil von Data Science die Modellierung ist. Diese sollte sich möglichst genau an den spezifischen Besonderheiten, Anforderungen, Problemen und Zielstellungen des Geschäftsfeldes orientieren. Ebenso die Auswahl sowie Aufbereitung der passenden Daten und schließlich die Ergebnispräsentation und -interpretation erfordern ein Verständnis der Eigenheiten der Branche.

Data Science Lifecycle

Data Science Projekte sind im höchsten Maße iterativ: Am Anfang und am Ende des Datenwissenschaftszyklus steht das Verständnis des betreffenden Geschäftsbereichs und welches Ziel erreicht bzw. welche Problemstellung gelöst werden soll.

Mit jedem Durchgang sollten diese Kenntnisse durch neue Informationen tiefer werden. Als Erstes ist also eine klare Vorstellung des zu lösenden Problems erforderlich und Hypothesen sollten formuliert werden. Die darauffolgenden Schritte lassen sich in drei Phasen unterteilen: 

  1. Datengewinnung und -vorbereitung: In diesem Schritt werden die für die Analyse relevanten Daten – strukturiert sowie unstrukturiert – ausgewählt, integriert und gereinigt. In diesem Schritt ist es essenziell, eine hohe Datenqualität zu schaffen.
  2. Explorative Analyse und Modellierung: Durch explorative Datenanalyse werden die statistischen Eigenschaften, Verteilungen sowie Wertebereiche der Daten geprüft und ggf. weitere Transformationen vorgenommen, bevor es an die eigentliche Modellierung auf Grundlage dieser Daten geht. Es werden nun je nach Fragestellung Machine Learning Modelle trainiert und verglichen. So wird bspw. durch maschinelles Lernen – einem populären Unterbereich auf dem Gebiet der künstlichen Intelligenz (KI) – ein spezifisches Modell trainiert, um datenbasiert Vorhersagen zu treffen oder Cluster zu identifizieren. Wichtig ist es, dass die Evaluation jedes Machine Learning Models gründlich und entlang der passenden Metrik erfolgt, da nur so interpretierbare und belastbare Aussagen abgeleitet werden können.
  3. Datenvisualisierung: Die Erklärbarkeit des Modells spiegelt sich auch im letzten Schritt wider: Hier werden die mit dem aktuellen Modell gewonnenen Erkenntnisse kommuniziert und visualisiert. Hierbei sollte besonders sorgfältig vorgegangen werden, da die Visualisierung häufig Grundlage für die weitere Nutzung der Ergebnisse und damit potenzielle weitere Data Science Experimente ist.

Nun beginnt der Data Science Lifecycle von vorn: Data Scientists arbeiten kontinuierlich daran, Prozesse und Produkte zu verbessern.

In welchen Bereichen wird Data Science eingesetzt?

Data Science ist keine theoretische Disziplin, sondern erfordert viel Erfahrung in der Praxis, um gewonnenes Wissen erfolgreich in der Business-Welt anwenden zu können. Überall, wo viele Daten entstehen, kann Datenwissenschaft eine wichtige Rolle spielen. Besonders, wenn aus diesen Datenmengen ein Nutzen für das Unternehmen zur Erreichung der Unternehmensziele gezogen werden soll, z. B. durch Prognosen, ist Data Science ein sehr wichtiges Instrument für den wirtschaftlichen Erfolg. Typische Aufgaben sind:

  • Generieren und Testen von Hypothesen durch explorative Datenanalyse.
  • Vorbereitung der Daten für weitere Nutzung im Rahmen von Business Intelligence.
  • Erkennen von Unregelmäßigkeiten oder Anomalien, zum Beispiel in der IT-Sicherheit und beim Betrugsschutz im Onlinehandel.
  • Vorhersage von sowohl zukünftigen Umsätzen oder Kosten als auch Wahrscheinlichkeiten, wie Kaufwahrscheinlichkeiten. Durch die Entwicklung von Algorithmen und Technologien zur Verarbeitung großer Datenmengen können Datenwissenschaftler:innen heute immer präzisere Vorhersagen treffen und neue Zusammenhänge entdecken.

Mit diesen Möglichkeiten eignet sich Data Science besonders gut für Bereiche wie E-Commerce, für Finanzdienstleister, Industriebetriebe und Logistikunternehmen.

Data Science-Methoden, -Software und -Tools

Maschinelles Lernen sowie statistische Verfahren gehören zu den zentralen Methoden der Datenwissenschaft. Daher kommen hier Expertise aus den Fachdisziplinen der Mathematik, Statistik, Stochastik, Informatik und der Programmierung zusammen. Data Science beinhaltet immer auch Aspekte aus der untersuchten Domäne wie z. B. branchen- und unternehmensspezifisches Wissen. Dieses ist insbesondere für die Daten- und Modellauswahl sowie für die Interpretation der Ergebnisse erforderlich.

Für die Verarbeitung der Datensätze können, je nach Anwendungsgebiet und individuellen Spezifikationen, unterschiedliche Tools und Systeme zum Einsatz kommen. Möglich sind geeignete Programmiersprachen, Data Mining ToolsAnalytics-Plattformen oder Cloud-Dienste. Microsoft Azure stellt eine Vielzahl an Ressourcen für Analytics und Machine Learning bereit.

Welche Ergebnisse solche Tools und Lösungen erzielen, hängt maßgeblich von der Qualität der Ausgangsdaten ab, die üblicherweise in einem Data Lake oder Data Warehouse gespeichert sind. Datenwissenschaftler:innen müssen deshalb bereits im ersten Schritt des Data Science Lifecycles präzise arbeiten.

Data Science als Studium

Data Science als interdisziplinärer Studiengang hat in den letzten Jahren stark an Interesse und Bedeutung gewonnen. An Hochschulen und Universitäten wird er sowohl als Bachelor- als auch als Masterstudiengang angeboten. Der entsprechende Abschluss ist ein Bachelor bzw. Master of Science.

Für Data Science Studierende ist es hilfreich, ein starkes Interesse an Mathematik, Statistik und Informatik mitzubringen. Ein grundlegendes Verständnis von Programmierung und Datenbanken ist ebenfalls von Vorteil. Neben analytischem Denkvermögen sind auch Kommunikations-Skills elementar, da Data Science oft in Teams durchgeführt wird und Ergebnisse kommuniziert werden müssen.

Sie haben weitere Fragen?

Nutzen Sie Data Science zur Wissensgenerierung & als valide Entscheidungsbasis in Ihrem Betrieb. Sprechen Sie jetzt mit unserem Cloud Analytics Experten und wir zeigen Ihnen, wie Sie Ihre Firma auf die nächste Stufe bringen können.

Dürsin Kurt
CEO Cloud Analytics