How Can We Help?

Die Rolle von Daten im KI-Kontext: Data science, Big data und Data mining

You are here:
< All Topics

Was sind Data science, Big data und Data mining?

Data Science

Data Science (Datenwissenschaft) ist die Lehre der Methoden, um Daten zu analysieren und ihre Ergebnisse in geeigneter Form zu kommunizieren. Data Science verfolgt somit das Ziel, aus Daten neues Wissen zu gewinnen. Sie gibt auch Hinweise wie die Software am besten aufgebaut sein sollte, z.B. um Menschen bei der Analyse von Daten zu unterstützen (Methoden der Human-Computer-Interaction). Hinzu kommen statistische Methoden, Methoden des maschinellen Lernens und der Visualisierung von Daten.

Die Datenwissenschaft deckt die gesamte “Daten-Wertschöpfungskette” ab: von der Sammlung und Verarbeitung bis zur Modellierung. 

Big Data

Die Verfügbarkeit von Daten ist eine Grundvoraussetzung für maschinelles Lernen. Große Datenmengen werden unter dem Begriff Big Data zusammengefasst. Big Data ist neben der Menge an Daten durch diese weiteren fünf Merkmale gekennzeichnet:

  1. die Größe der zu verarbeitenden Datenmenge (Volumen) 
  2. die Vielfalt der Datentypen und -quellen (Vielfalt),
  3. die Geschwindigkeit, mit der sie auftreten (Geschwindigkeit) 
  4. die Notwendigkeit, wertvolle Daten herauszufiltern (Wert)
  5. die Unsicherheit bezüglich der Qualität der Daten (Wahrhaftigkeit).

Big Data wird von einigen Informatiker*innen als ein nicht immer gut zu fassender, eher unpräziser Begriff gesehen. Das Argument ist, dass oftmals Datenmengen gemeint sind, die nur in einem kontextuellen Zusammenhang gültig sind, aber trotzdem für einen anderen Zusammenhang ausgewertet werden. Ein Beispiel: Einkaufsdaten die für Empfehlungssysteme (recommender systems) ausgewertet werden. Es scheint nicht ausgeschlossen, dass die Daten unvollständig oder fehlerhaft sind oder aus verschiedenen Quellen kommen. Das stellt eine Herausforderung dar, denn es muss herausgefunden werden welche Daten welcher Person zugeordnet werden können (Zweig 2019, 313).

Data Mining: Hierunter wird das Analysieren großer Datenmengen verstanden. So werden die Ergebnisse unter anderem genutzt, um Geschäftsprozesse zu optimieren. Data Mining ist eine mühsame Angelegenheit: so wie im Bergbau wo einen Menge Schutt aufgewühlt werden muss, um den Edelstoff wie z.B. Gold letztlich zu finden (Zweig 2019, 314).

Definitionen die noch wichtig sind bzw. kurz erwähnt werden sollten:

Maschinelles Lernen: Eine Sammlung von Methoden, die in Datensets aus der Vergangenheit nach Mustern suchen können. Mit bestimmten Methoden können dann in diesen Mustern Vorhersagen für zukünftige Handlungen vorgenommen werden. Es wird ausgehend von einer Grundwahrheit gelernt, die Daten einer Person sind mit seinem Verhaltensrepertoire verknüpft: Bewerber A wurde erfolgreich eingestellt; Bewerber B nicht. Das maschinelle Lernen identifiziert somit erfolgreiche Eigenschaften bei Bewerbern oder Bewerberinnen, so dass für künftige Auswahlverfahren die geeignetsten Bewerber*innen besser und schneller erkannt und von Softwareprogrammen entsprechende Vorauswahlen vorgenommen werden können.

Algorithmen, die Handlungsanweisungen für Computer: Algorithmen werden von Programmierern und Programmiererinnen in Form einer Handlungsanweisung für den Computer bereitgestellt. Mit der Entwicklung eines Algorithmus wird ein mathematisches Problem gelöst, sodass bei fehlerfreier Implementierung (inkl. Übersetzung in Maschinencode) der Computer für jeden Input einen korrekten Output berechnen kann (Zweig 2019:313).

Ressourcen

 

 

 

 

 

 

 

Literaturquellen:

Zweig, Katharina (2019). Ein Algorithmus hat kein Taktgefühl: Wo künstliche Intelligenz sich irrt, warum uns das betrifft und was wir dagegen tun können. Heyne Verlag.

Table of Contents