Die Rolle von Daten im KI-Kontext: Data science, Big data und Data mining

Created On1st February 2021

Last Updated On17th February 2021

byMarco Perini

Was sind Data science, Big data und Data mining?

Data Science

Data Science (Datenwissenschaft) ist die Lehre der Methoden, um Daten zu analysieren und ihre Ergebnisse in geeigneter Form zu kommunizieren. Data Science verfolgt somit das Ziel, aus Daten neues Wissen zu gewinnen. Sie gibt auch Hinweise wie die Software am besten aufgebaut sein sollte, z.B. um Menschen bei der Analyse von Daten zu unterstützen (Methoden der Human-Computer-Interaction). Hinzu kommen statistische Methoden, Methoden des maschinellen Lernens und der Visualisierung von Daten.

Die Datenwissenschaft deckt die gesamte “Daten-Wertschöpfungskette” ab: von der Sammlung und Verarbeitung bis zur Modellierung.

Big Data

Die Verfügbarkeit von Daten ist eine Grundvoraussetzung für maschinelles Lernen. Große Datenmengen werden unter dem Begriff Big Data zusammengefasst. Big Data ist neben der Menge an Daten durch diese weiteren fünf Merkmale gekennzeichnet:

die Größe der zu verarbeitenden Datenmenge (Volumen)
die Vielfalt der Datentypen und -quellen (Vielfalt),
die Geschwindigkeit, mit der sie auftreten (Geschwindigkeit)
die Notwendigkeit, wertvolle Daten herauszufiltern (Wert)
die Unsicherheit bezüglich der Qualität der Daten (Wahrhaftigkeit).

Big Data wird von einigen Informatiker*innen als ein nicht immer gut zu fassender, eher unpräziser Begriff gesehen. Das Argument ist, dass oftmals Datenmengen gemeint sind, die nur in einem kontextuellen Zusammenhang gültig sind, aber trotzdem für einen anderen Zusammenhang ausgewertet werden. Ein Beispiel: Einkaufsdaten die für Empfehlungssysteme (recommender systems) ausgewertet werden. Es scheint nicht ausgeschlossen, dass die Daten unvollständig oder fehlerhaft sind oder aus verschiedenen Quellen kommen. Das stellt eine Herausforderung dar, denn es muss herausgefunden werden welche Daten welcher Person zugeordnet werden können (Zweig 2019, 313).

Data Mining: Hierunter wird das Analysieren großer Datenmengen verstanden. So werden die Ergebnisse unter anderem genutzt, um Geschäftsprozesse zu optimieren. Data Mining ist eine mühsame Angelegenheit: so wie im Bergbau wo einen Menge Schutt aufgewühlt werden muss, um den Edelstoff wie z.B. Gold letztlich zu finden (Zweig 2019, 314).

Definitionen die noch wichtig sind bzw. kurz erwähnt werden sollten:

Maschinelles Lernen: Eine Sammlung von Methoden, die in Datensets aus der Vergangenheit nach Mustern suchen können. Mit bestimmten Methoden können dann in diesen Mustern Vorhersagen für zukünftige Handlungen vorgenommen werden. Es wird ausgehend von einer Grundwahrheit gelernt, die Daten einer Person sind mit seinem Verhaltensrepertoire verknüpft: Bewerber A wurde erfolgreich eingestellt; Bewerber B nicht. Das maschinelle Lernen identifiziert somit erfolgreiche Eigenschaften bei Bewerbern oder Bewerberinnen, so dass für künftige Auswahlverfahren die geeignetsten Bewerber*innen besser und schneller erkannt und von Softwareprogrammen entsprechende Vorauswahlen vorgenommen werden können.

Algorithmen, die Handlungsanweisungen für Computer: Algorithmen werden von Programmierern und Programmiererinnen in Form einer Handlungsanweisung für den Computer bereitgestellt. Mit der Entwicklung eines Algorithmus wird ein mathematisches Problem gelöst, sodass bei fehlerfreier Implementierung (inkl. Übersetzung in Maschinencode) der Computer für jeden Input einen korrekten Output berechnen kann (Zweig 2019:313).

Ressourcen

WEBSITE: Plattform Lernende Systeme
Beschreibung: Deutsche Plattform für künstliche Intelligenz
Link : https://www.plattform-lernende-systeme.de/glossar.html
[DE] [ENG]

VIDEO: Algorithmen und Daten
Beschreibung: In einem kurzen Video wird erklärt, was Algorithmen sind und welche Rolle Daten dabei spielen. Es werden anschaubare Beispiele gegeben.
Link: https://www.plattform-lernende-systeme.de/videos.html
[DE]

WEBSITE: Informationen der Europäischen Kommission über Big Data
Beschreibung: Allgemeine Informationen über Big Data, Forschungsprojekte und Veranstaltungen.
Link: https://ec.europa.eu/digital-single-market/en/big-data
[ENG]

LERNAKTIVITÄT: Datenverzerrung
Beschreibung: Idee für eine Lektion über Datenverzerrung im Kontext von KI
Link: https://www.digitaltechnologieshub.edu.au/teachers/lesson-ideas/ai-lesson-plans/data-bias-in-ai/
[ENG]

WEBSITE + VIDEO : Big Data und KI
Beschreibung: Informationen über Big Data und KI im Allgemeinen und die Relevanz für die Entwicklungszusammenarbeit.
Video-link: https://www.youtube.com/watch?v=4hSGvAzs-iQ
[DE] [SUB ENG]
Website-link: https://toolkit-digitalisierung.de/en/practice/smart-development-approaches-en/bigdata-und-ki/
[DE] [ENG]

ONLINE ARTIKEL: Was ist Big Data und was kann die künstliche Intelligenz tun?
Link: https://towardsdatascience.com/what-is-big-data-and-what-artificial-intelligence-can-do-d3f1d14b84ce
[ENG]

ONLINE ARTIKEL: Was ist Datenmanagement und warum ist es wichtig?
Link: https://searchdatamanagement.techtarget.com/definition/data-management

Literaturquellen:

Zweig, Katharina (2019). Ein Algorithmus hat kein Taktgefühl: Wo künstliche Intelligenz sich irrt, warum uns das betrifft und was wir dagegen tun können. Heyne Verlag.

Tags:

How Can We Help?

Die Rolle von Daten im KI-Kontext: Data science, Big data und Data mining

Was sind Data science, Big data und Data mining?

Ressourcen

WEBSITE: Plattform Lernende Systeme

VIDEO: Algorithmen und Daten

WEBSITE: Informationen der Europäischen Kommission über Big Data

LERNAKTIVITÄT: Datenverzerrung

WEBSITE + VIDEO : Big Data und KI

ONLINE ARTIKEL: Was ist Big Data und was kann die künstliche Intelligenz tun?

ONLINE ARTIKEL: Was ist Datenmanagement und warum ist es wichtig?