Das Thema Data Science ist aktuell in aller Munde. Für uns als IT Unternehmen ist es aber nicht nur ein enorm spannendes Feld mit großem Mehrwert für unsere Kunden, sondern es ist auch eine super Gelegenheit, unsere Expertise um neue Talente zu ergänzen.

Insgesamt arbeiten derzeit rund 20 Kolleg:innen bei der Scandio, die sich bestens im Thema Data Science auskennen. Für das Interview begrüßen wir konkret Sana, Flo und Oliver. Wer genau diese Expert:innen sind, was Data Science für sie bedeutet und welche Tipps sie für alle am Thema Interessierten haben, teilen wir hier.


Seit wann seid ihr Teil der Scandio und was ist eure Funktion?

Flo: Ich arbeite seit 1. Juli 2022 als Junior Data Scientist / Machine Learning Engineer bei der Scandio.

Sana​:​ Ich bin ebenfalls seit Juli Teil der Scandio und auch als Data Scientist / Machine Learning Engineer tätig.

Oliver:​ Bei der Scandio bin ich seit November 2020 als Machine Learning Engineer tätig. In meinen Projekten arbeite ich viel mit Data Scientists zusammen, so dass ich oft eine Schnittstellentätigkeit ausübe.

Was genau verbirgt sich eigentlich hinter dem Begriff Data Science?

Sana: Eine gängige Definition von Data Science lautet: "Data Science ist ein Teilbereich der KI, der sich mit Datenmethoden, wissenschaftlicher Analyse und Statistik befasst, die alle dazu dienen, Erkenntnisse und Bedeutung aus Daten zu gewinnen". Diese Beschreibung ist meiner Meinung nach die Treffendste.

Flo: Ich zitiere hier einfach mal kurz Wikipedia: "Data Science bezeichnet generell die Extraktion von Wissen aus Daten". Aber was ist dieses Wissen eigentlich genau? Es handelt sich dabei beispielsweise um die Erkennung von Mustern, die in Daten verborgen liegen, oder das Erkennen von Zusammenhängen, um aus ihnen Schlüsse abzuleiten. Und um dieses Wissen aus den Daten zu gewinnen, setzt man verschiedene Methoden aus der Mathematik, Informatik, Statistik, und Informationswissenschaft ein - meist verbunden mit Wissen aus anderen Bereichen wie der Biologie, Chemie, Sprachwissenschaft, etc.

Oliver: Data Science ist ein interdisziplinäres Arbeitsfeld welches den Gewinn zusätzlicher Information aus bestehenden Daten und Datenquellen zum Thema hat. Oftmals besteht dabei ein Zusammenhang zum maschinellen Lernen, wobei beide Felder natürlich für sich unabhängig und nicht deckungsgleich sind.

Was findet ihr an dem Thema besonders spannend?

Oliver: Data Science umfasst in der Praxis wesentliche Anteile, die verantwortlich für den Erfolg eines Machine-Learning-Projekts sind. Was man im Data-Science-Bereich versäumt, ist später nicht oder nur noch schwer nachzuholen. Ich finde Data Science deshalb als Übergang von einem realen Problemfeld zu dessen Handhabung mittels Machine-Learning-Methoden besonders interessant und aufregend.

Flo: Mich fasziniert an dem Thema, dass wir mit Data-Science-Methoden Modelle entwickeln können, die aus einer Ansammlung von einzelnen Datenpunkten die Zusammenhänge zwischen den Datenpunkten automatisch lernen. Anschließend können die Modelle enorme Mengen an Datenpunkten – die sie davor noch nie gesehen haben – anhand der gelernten Zusammenhänge sekundenschnell einordnen, oder sogar Sprache generieren und Musik komponieren.

Sana: Für mich als "Data Lover" ist das Spannendste an der Arbeit eines Data Engineers das Entdecken und die Innovation. Ausgehend von einem komplexen Datensatz löst man letztlich mithilfe einer Reihe von Modellen und Funktionen Probleme und trifft Entscheidungen. Ich sage immer "making discoveries while swimming in data".

Könnt ihr ein Beispiel nennen?

Flo: Ein Beispiel dafür ist die Erkennung von defekten Produkten auf Fertigungsstraßen. Eine Kamera filmt die auf dem Band vorbeilaufenden Produkte und übergibt die Bilder (Daten) an ein Modell im Hintergrund, das defekte Produkte erkennt. Diese fehlerhaften Teile können dann automatisch aussortiert werden.

Sana: Ein weiteres Beispiel ist die Erkennung von Anomalien der Haut – zum einen mithilfe von Deep Learning für medizinische Bilddatenbanken, zum anderen durch die Erkennung in Echtzeit mit einer Kamera.

Oliver: Sehr eindrücklich war für mich Timnit Gebrus Arbeit, welche thematisierte, dass automatische Gesichtserkennung hinsichtlich Ethnizität und Geschlecht stark voreingenommen ist. Die zugrundeliegende Diskussion über Ethik im Kontext von KI hält bis heute an. Unabhängig von deren Entwicklung lässt sich in jedem Fall feststellen, dass man zum Zeitpunkt des Trainierens gut beraten ist, in Sachen Data Science die verfügbaren Daten möglichst tiefgreifend verstanden zu haben. Dabei braucht man also sowohl ein gewisses technisches Verständnis, beispielsweise in statistischen Belangen, als auch fachspezifische Expertise hinsichtlich des gegenwärtigen Problemfelds.

An welchen Projekten arbeitet ihr im Kontext Data Science momentan?

Oliver: Derzeit arbeite ich als ML Engineer an einem Projekt im Umfeld von Haushaltsgeräten. Dabei ist es exemplarisch das Ziel, die verbleibende Backzeit eines Kuchens möglichst genau vorhersagen zu können um eine bessere Benutzererfahrung zu ermöglichen. Technisch formuliert liegt dabei eine Zeitreihen-Problematik vor, welche von thermodynamischen Prozessen stammt. Einerseits ist Backen etwas alltägliches, aber es ist dennoch enorm komplex und herausfordernd; das macht einen besonderen Reiz meines derzeitigen Arbeitsumfelds aus.

Flo: Da ich erst seit kurzem bei der Scandio bin, war mein letztes Projekt meine Masterarbeit, die ich im Bereich Deep Learning geschrieben habe, welcher auch zur Data Science zählt. Ich habe verschiedene Modelle miteinander verglichen, um herauszufinden, welches besser mit sogenannten ungelabelten Daten umgehen kann. Die Ergebnisse meiner Arbeit sollen angewendet werden, um Bodenproben hinsichtlich mehrerer Eigenschaften zu erforschen, um die Auswirkungen des Klimawandels besser zu verstehen.

💡
Kurz erklärt: Label und Daten
Labels annotieren die Daten. Oft sind sie die Größe, deren verborgener Zusammenhang mit den Daten von einem Modell gelernt wird, um schließlich das Label für unbekannte Daten vorherzusagen. Ein Beispiel für ein gelabeltes Datum ist ein Bild, auf dem ein Hund zu sehen ist, und das mit dem Label "Hund" annotiert wird. Bei ungelabelten Daten fehlen diese Labels, was den Lernprozess komplexer macht.

Sana: Ich bin ebenfalls erst vor kurzem zu Scandio gestoßen, daher war mein letztes abgeschlossenes Projekt akademisch. Wie bei Flo war es auch ein Deep-Learning-Projekt. Konkret ging es um die Implementierung eines Branderkennungssystems unter Verwendung eines sehr umfangreichen Bilddatensatzes. Der Projektumfang reichte dabei von der Datenerweiterung und -bereinigung (Größenänderung, Umformung, ...) bis hin zur Suche nach dem besten Modell sowie den besten Parametern (es handelte sich um CNN) und der Bewertung der Modellleistung.

Wie seid ihr zum Thema Data Science gekommen?

Sana: Ich habe meinen Bachelor in Informatik gemacht, und in einer der Vorlesungen ging es um künstliche Intelligenz, den allgemeinen Bereich der Datenwissenschaft. Ab diesem Zeitpunkt brannte ich für das Thema Data Science.

Oliver: Im Zuge meines Mathematik-Studiums hatte ich viel mit numerischer Mathematik zu tun. Dort waren die überragenden Erfolge der ML Community nicht unbemerkt geblieben, so dass man sich verstärkt damit beschäftigte. Nachdem ich mich entschied, keine wissenschaftliche Karriere zu verfolgen, landete ich letztlich bei der Scandio, wo ich dieses Themenfeld seitdem weiter verfolgen kann.

Flo: Ich hatte meine ersten Berührungspunkte damit im Studium. Eine Vorlesung namens 'Data Mining', welches mit Data Science verwandt ist, hat meine Begeisterung für dieses Thema und insbesondere für Deep Learning geweckt.

Und warum habt ihr euch für die Scandio entschieden?

Sana: Ich hatte das Gefühl, dass die Scandio der perfekte Ort ist, um meine Leidenschaft für Data Science zum Beruf zu machen und gleichzeitig mein Wissen noch weiter zu verbessern.

Flo: Ich habe mich für die Scandio entschieden, weil ich mit talentierten und gleichgesinnten Kolleg:innen zusammenarbeiten möchte und mit ihnen zusammen coole Deep Learning Modelle entwickeln will.

Oliver: Grundlegend wird bei der Scandio sachlich, ergebnisoffen und lösungsorientiert besprochen, wie mit vorhandenen Herausforderungen und Problemen umgegangen werden soll. Dabei ist die Meinung aller wichtig, denn jede und jeder, auch wenn sie ganz neu im Themenfeld sind, können und werden wertvolle Beiträge leisten. Auf diese Weise können wir herausfordernde Themen und Probleme selbstbewusst angehen, ohne in Größenwahn zu verfallen - und das gefällt mir sehr ;-).

Welchen Tipp würdet ihr Menschen geben, die auch im Umfeld Data Science arbeiten möchten?

Flo: Als Tipp würde ich mitgeben, sich ein solides theoretisches Grundverständnis zu Data Science anzueignen und sich dann in eine Richtung zu spezialisieren. Ersteres funktioniert gut und strukturiert durch ein entsprechendes Studium, aber auch im Internet gibt es viele Quellen, die die notwendigen Informationen enthalten. Letztendlich lernt man es aber nur, wenn man es selbst ausprobiert und anwendet.

Sana: Der beste Rat, den ich angehenden Data Scientists geben kann, ist, kontinuierlich aus allen verfügbaren Ressourcen zu lernen und mit einigen Projekten und Wettbewerben der Online-Community Kaggle zu üben.

Oliver: Kenne und verstehe die Grundlagen deines Gebiets. Natürlich versteht man den Unterschied zwischen Kausalität und Korrelation schnell, aber zudem war und ist es für mich sehr hilfreich, mathematisch viel Hintergrund zu haben, beispielsweise in Stochastik, Maßtheorie und Funktionalanalysis. Es ist nicht so, dass sich dadurch alle Probleme in Luft auflösen, aber es ist meine Erfahrung, dass ich auf diese Weise einen Kontext habe, der mir beim Entwickeln einer Lösung hilft.

Darf's ein bisschen mehr sein?
Für alle, die sich noch intensiver mit dem Thema Data Science befassen möchten, gibt es online eine Reihe sehr guter Quellen. Wir empfehlen beispielsweise deeplearning.ai, Yann LeCun’s Deep Learning Course, oder Kurse auf coursera und edX.

Und wer mehr zu Scandio Services rund um Data Science, KI und Machine Learning erfahren möchte, wird hier auf unserer Website fündig und kann hier unsere Expert:innen erreichen.