Reporting-Blog

Information Design & Visual Business Intelligence

Die Rolle: Wer ist dieser Data Scientist? (Teil 1 von 3)

3 Kommentare

Der Hype um die Data Scientists scheint auf dem Höhepunkt angekommen zu sein. Nie gab es mehr Treffer zu diesem Begriff, nie waren die Jobangebote besser. Aber wo kommt dieser Trend plötzlich her? Nur ein Zeitgeist ? Hat er womöglich etwas mit geschürten Erwartungen bei Unternehmen zu tun, mit diesen Experten nun endlich langgehegte Wünsche und Ziele angehen zu können? Und, was ist ein Data Scientist eigentlich genau? Höchste Zeit, sich mit den Hintergründen einmal etwas intensiver auseinanderzusetzen.

Vergegenwärtigen wir uns, dass von Anbeginn der Menschheit bis 2003 auf der Welt circa 5 Milliarden Gigabyte Daten erzeugt wurden. Bereits im Jahr 2013 erzeugen wir diesen Datenberg schon alle zehn Minuten. Mit dieser enormen Menge an Daten muss also auch entsprechend „umgegangen“ werden.

Das reine Ablegen der Daten spielt dabei noch die kleinere Rolle, dank intelligenter Speichermöglichkeiten für strukturierte Daten, wie Datenbanktechnologien.

Vielmehr gilt es, einen effektiven Nutzen aus diesen durch Smartphones, Onlineshops, beruflicher und privater Korrespondenz usw. herrührenden Daten zu ziehen. Klassische BI-Fragestellungen, wie etwa die Umsatzentwicklungen für Kunden mit bestimmten Eigenschaften, lassen sich nach wie vor durch einfache Data-Warehouse Systeme und ETL-Werkzeuge beantworten. Interessant wird es dann, wenn diese Werkzeuge nicht mehr ausreichen, um alle Informationen, die zu Kunden oder Produkten vorliegen, in vollem Umfang auszuwerten, aber auch wenn externe Daten zusätzlich herangezogen werden, um Strukturen in den Daten herauszuarbeiten, Modelle zu verbessern uvm.

An dieser Stelle knüpft nun idealerweise die Rolle des Data Scientists an.

Der Data Scientist als Allrounder – Aufzeigen eines Missverständnisses

Die Wunschliste von Unternehmen ist groß: da wird mehr Umsatz gewünscht, ein höherer Gewinn, maximale Auslastungszeiten von Mitarbeitern, zufriedene Kunden und Vieles mehr. Und – das versteht sich von selbst – einen Data Scientisten, der es nun endlich richten soll!

An dieser Stelle passt also am ehesten der Begriff der eierlegenden Wollmilchsau. In Wirklichkeit impliziert die Rolle des Data Scientist allerdings faktisch drei Einzelrollen:

  • Der Daten- und Statistikspezialist (gern mit Hintergrund Mathematiker, Physiker, Naturwissenschaftler, und natürlich PhD/ Dr.)
  • Der Informatik-Experte (Informatiker, Wirtschafts, Bio- oder Sonstwie-Informatiker) gern auch mit mehrjähriger Projekterfahrung
  • Das Kommunikations-Genie oder die „Vortrags-Rampensau“ als Schnittstelle zwischen der NERD-behafteten IT oder dem Datenbank-Kellerraum in jedem Unternehmen und den hippen Entscheidern im Bereich Marketing, aber auch zur Geschäftsleitung, den eigentlichen Entscheidern.

Die Frage lautet also: wer kann das leisten? „Natürlich zahle ich so jemandem problemlos seine 80.000 im Jahr, denn er ersetzt ja immerhin drei!“, so sicherlich die Rechtfertigung vor Kollegen, warum der „Neue“ denn so teuer sei. Aber mal im Ernst: wie realistisch ist das Vorhandensein all dieser Skills in einer Person und wie wahrscheinlich ist es, dass gerade ich als kleiner Mittelständer noch vor Google, Facebook und Co auf diese Leute aufmerksam werde? Nicht besonders groß, weswegen sich jedes Unternehmen die Frage stellen muss, ob es tatsächlich auch auf Teile des gewünschten Profils verzichten möchte und sich das Data Scientist-Konstrukt, zumindest in Teilen, selbst „zusammenbaut“.

Key Skills – die wichtigen Voraussetzungen zum Data Scientist

Trotz der eben genannten Gründe gibt es natürlich Key Skills, die ein Data Scientist beherrschen sollte. Zwingende Voraussetzung sind natürlich ein gutes Zahlen- und Mathematik-Verständnis, gepaart mit Programmiererfahrung im Open Source-Bereich, wie etwa R. Statistik sollte für ihn wohl auch kein Fremdwort sein, die Theorie hinter Clustering oder Predictive modelling also durchaus ein Begriff.

Darüber hinaus sollte er zumindest während des Studiums oder der Abschlussarbeit schon einmal mit gängigen Datenstrukturen in Unternehmen und den sich daraus ergebenden Problemen bei Daten-Migrationen und Datenkonsistenz konfrontiert worden sein. Das gilt auch für Berührungen mit den Bereichen Customer Relationship Management und Customer Intelligence, zwei Begriffen aus dem Marketing, die in erste Linie ein besseres Verständnis des Kundenstamms im Fokus haben (Siehe Abb. 1).

Data Scientist

Abb.1 :Links: Erforderliche und wünschenswerte Skills eines Data Scientists. Rechts: Sogenannte „Word Cloud“ zu Begriffen aus diesem Artikel, normiert nach Häufigkeit und Relevanz des Begriffs (Sourcecode: „R-Bloggers – Open Source Community

Das sichere Beherrschen moderner Programmiersprachen, allen voran Java oder Python, ist zwar sicherlich von Vorteil, muss aber keine zwingende Voraussetzung bei den Einstellungskriterien sein, da es sehr wohl Sinn macht, dem Data Scientist einen oder mehrere Software-Entwickler zur Seite zu stellen, je nach Umfang des zur integrierenden „Pakets“ in das „echte“ Produktivsystem. Gerade in diesem Bereich gilt noch mehr: „Wer kann was und vor allem wie schnell umsetzen? Wer konzipiert und testet, und wer implementiert alles am Ende?“ Dies ist schlicht eine Frage der Effizienz für ein Unternehmen.

Dennoch, ohne methodisches und auch praktisches Grundwissen im Bereich IT-Infrastruktur, Programmiersprachen und ein wenig Erfahrung über Studium oder Ausbildung hinaus, wird aller Anfang schwer sein.

Symbiose – Der Data Scientist und der Entwickler

Wie eben angesprochen ist eine enge Zusammenarbeit zwischen Data Scientist und Software-Entwickler von immenser Bedeutung: beide Rollen lernen dabei voneinander, so dass beim Ausscheiden einer von beiden aus dem Unternehmen zumindest ein Großteil des Wissens im jeweils anderen Glied verbleibt.

In der Regel liegt es auf der Seite des Data Scientists, Konzepte zu erarbeiten, statistisch und rechnerisch ausgiebig zu testen, und diese nach Erreichen des gewünschten Ergebnisses mithilfe erfahrener Entwickler-Kollegen in das Produktivsystem (z.B. Data Warehouse) einzuspielen. Welcher technologischer Komponenten er sich dabei bedienen muss, sollte im Vorfeld bereits mit den Experten von der Datenbank-Seite abgeklärt sein, eine Integration kann somit unter seiner qualitätssichernden „Aufsicht“ und mithilfe des Entwickler(teams) erfolgen.

 

Teil 2 folgt am Mi. 18.03.2015.

Damit nehmen wir an der Blogparade von SAS zum Thema Data Scientist teil.

3 Kommentare zu “Die Rolle: Wer ist dieser Data Scientist? (Teil 1 von 3)

  1. Hallo Herr Stahl,

    vielen Dank für diesen Beitrag zur Blogparade Data Scientist. Ich freue mich, dass jemand mal ausspricht, dass der Data Scientist, wie ihn sich viele Unternehmen wünschen, keine eierlegende Wollmilchsau sein kann.
    Bin schon gespannt auf die weiteren Teile.

    viele Grüße, Anita Lakhotia

  2. Seit Mitte der 70er Jahre sind Data Scientists im Schwange. Sie haben solides Know-How in multivariater und multivariabler Statistik, können SAS samt Makros oder SPSS jetzt auch incl. R programmieren und haben substantives Fachstudium, sei es in Pharmazie, BWL, Sozialpsychologie, Marketing oder Maschinenbau. Entsprechend breit sind die Berufsfelder dieser Dipl.-mult. gestreut: Handel, Banken, Versicherungen , Marketing (Scorings), Maschinenbau, Luftfahrt, Pharmazie (Haltbarkeit. bzw. Renewal). Diese eierlegenden Wollmilchsäue gibt es übrigens häufiger als gedacht. Es ist die Elite, die die deutsche Industrie zu Weltmarktführer macht.

  3. Sehr gut geschrieben!

    Ich denke auch das es schwierig werden wird alle die Attribute eines Data Scientist in einer Person zu vereinigen.
    Jeder Data Scientist wird einen Fokus haben und am Ende kommt es darauf an ein gutes Team zu haben in dem alle Bereiche gut abgedeckt sind.

    Freue mich auf den 2. Teil…

    Cheers,
    Guido

Kommentar verfassen

Trage deine Daten unten ein oder klicke ein Icon um dich einzuloggen:

WordPress.com-Logo

Du kommentierst mit Deinem WordPress.com-Konto. Abmelden / Ändern )

Twitter-Bild

Du kommentierst mit Deinem Twitter-Konto. Abmelden / Ändern )

Facebook-Foto

Du kommentierst mit Deinem Facebook-Konto. Abmelden / Ändern )

Google+ Foto

Du kommentierst mit Deinem Google+-Konto. Abmelden / Ändern )

Verbinde mit %s