Data Science Glossar

💡

Data Science und AI haben wie jede andere Disziplin ihre eigenen Terminologien. Wir erklären einige der wichtigsten Begriffe. Der Fokus liegt dabei auf einer Verständlichkeit auch für Nicht-Expert:innen, weniger auf einer rein technischen Erklärung.

Data Science (DS)

„Etwas mit vielen Daten machen."

Etwas mit Daten machen, in der Regel mit einer großen Menge an Daten. Hinweis: Dieser Begriff ist sehr unspezifisch und kann sehr unterschiedliche Bereiche umfassen.

So kann man die Geschäftsanalyse mit Microsoft Excel oder Power BI als Data Science bezeichnen. Aber ebenso gibt es einen großen DS-Anteil bei Machine Learning. Diese beiden Spektren von Data Science sind sehr unterschiedlich. In Letzterem ist die Scandio sehr aktiv, nicht aber beim Erstgenannten.

KI (Künstliche Intelligenz)

„Der Computer macht etwas, das schlau wirkt."

Grob gesagt geht es im Bereich KI (englisch: AI) darum, einen Computer dazu zu bringen, etwas zu tun, das als intelligent wahrgenommen werden kann. Ein naives Beispiel ist ein Computer, der es schafft, ein sehr guter Schachspieler zu sein.

Maschinelles Lernen (ML)

„Der Computer soll selbst herausfinden, wie er schlau wird."

ML ist ein Teilbereich der KI. Es umfasst Verfahren, bei denen der Computer „durch eigenes Dazutun" intelligent wird. Das Ziel ist es, ein „künstlich intelligentes" Verhalten zu erreichen.

Ein Hauptgrund des Erfolgs von Machine Learning ist, dass es noch schwieriger ist, einem Computer explizit zu sagen, was „intelligent sein" bedeutet.

Data Analytics

„Lass uns mal nachschauen."

Data Analytics bezeichnet das Bestreben, einen gegebenen Datensatz auf die darin enthaltenen Informationen hin zu untersuchen. Als Faustregel gilt, dass solche Daten praktisch allgegenwärtig sind. Eine andere Regel lautet jedoch, dass alle statistischen Erkenntnisse in einen geeigneten Kontext gestellt werden müssen, um einen echten Nutzen zu bringen. Daher ist Fachwissen über den Bereich, aus dem die Daten stammen, ebenso notwendig wie Statistik.

Folglich ist Data Analytics immer geprägt vom Austausch und Dialog zwischen statistischen Methoden und thematischem Expertenwissen geprägt.

PyTorch und Tensorflow (TF)

Zwei der bedeutendsten Machine-Learning-Frameworks.

PyTorch und Tensorflow gehören zweifellos zu den erfolgreichsten und besten Software-Frameworks des maschinellen Lernens. Sie gehören zu unseren Paradedisziplinen und wir verwenden sie durchgehend in unseren Projekten.

Modell, auch bekannt als Machine-Learning-Modell

„Das, was den Computer intelligent macht."

Ein Model ist ein „intelligentes Programm", das gelernt hat, etwas „Intelligentes" auf ML-Art zu tun. Das bedeutet, dass man dem Computer eine große Menge an Daten zur Verfügung gestellt hat, damit dieser lernt.

Beispielsweise ist eine KI, die ein Gesicht „erkennt", in Wirklichkeit ein (ML)-Modell, das aus sehr großen Datenmengen gelernt hat, dies zu tun.

Model Training

„Den Computer mit Daten füttern."

Das Trainieren eines Modells umfasst den gesamten Prozess der Entwicklung eines Machine-Learning-Modells, meist unter Verwendung von PyTorch oder Tensorflow. Das ML-Trainieren kann sehr umfangreich werden, da es viele Schritte umfasst. Ziel ist es, ein ML-Modell zu entwickeln, das "gut funktioniert".

Wichtig: ML-Training ist sehr datenintensiv – je mehr Daten vorhanden sind, desto besser. Gleichzeitig ist die Datenqualität ein wichtiger Aspekt. Datenverfügbarkeit und Datenqualität sind in der Regel der entscheidende Punkt bei jedem KI-Projekt.

Model Serving

Ein bestimmtes ML-Modell wird einer großen Gruppe von Personen zur Verfügung gestellt.

Das Trainieren von Machine-Learning-Modellen ist ein erster, wichtiger Schritt. Die Bereitstellung des Dienstes für den Kunden bzw. einer großen Nutzergruppe ist dann aber noch einmal etwas ganz anderes. Scandio ist besonders gut in diesem Transfer.

Oft wird unterschätzt, wie wichtig es ist, ein gutes Modell in großem Maßstab verfügbar zu machen.

Model Monitoring

„Was genau passiert im produktiven Betrieb?!"

Die Leistung von ML-Modellen muss ständig überwacht werden. Dies ist ein eigener großer Schritt und sehr wichtig. Die Arbeit hört nicht auf, nachdem man ein ML-Modell entwickelt hat. Vielmehr muss man sicherstellen, dass es sich weiterhin wie erwartet verhält.

Data Drift

„Weißt du, damals hat es funktioniert."

Anwendungsfälle und Szenarien ändern sich im Laufe der Zeit oft. Damit ändern sich auch die resultierenden Daten. Machine-Learning-Modelle müssen in der Regel an solche Änderungen angepasst werden.

Model Retraining

„Das muss wieder funktionieren."

Wenn die Leistung des ML-Modells zu schlecht ist (aus welchem Grund auch immer), kann man sich entscheiden, ein Modell erneut zu trainieren.

Computer Vision (CV)

„Der Computer erkennt meine Katze!"

CV ist ein riesiges Feld und eine der "klassischen" ML-Anwendungen, z.B. in Form von Gesichtserkennung. Computer Vision bietet beeindruckende Möglichkeiten, kann aber auch erhebliche Auswirkungen auf das tägliche Leben haben und wird mitunter kontrovers diskutiert.

Natural Language Processing (NLP)

„Hey Siri...."

Das Verstehen der menschlichen Sprache ist ebenfalls eine wichtige Anwendung maschinellen Lernens. Die grobe Idee ist, mit Computern über die menschliche Sprache zu interagieren; das ist überraschend schwierig.

Time Series Forecasting

„Wird es morgen auf dem Weg zur Arbeit einen Stau geben?"

Ein weiterer wichtiger Bereich der ML-Anwendung. Im Allgemeinen geht es darum, große Mengen historischer Daten zu haben und auf dieser Grundlage zukünftige Ereignisse vorherzusagen.

So kann man beispielsweise Staus auf der A99 um München vorhersagen und feststellen, dass Montagmorgen eine schlechte Zeit ist, um nach München zu fahren.

Zurück zur Data Science Landingpage