reportingimpulse – Blog

Information Design, Dashboarding & Visual Analytics


Hinterlasse einen Kommentar

Zwischen den Zeilen Part IV – Autor André Petras

André Petras ist schon seit über 15 Jahre in der Business Intelligence Branche in diversen Rollen tätig. Nach seiner praxisorientierten Ausbildung zum Fachinformatiker hat er 2001 als Technischer Berater / Developer bei der MIS AG in Düsseldorf angefangen. Seine Aufgabe war es, in diversen Projekten maßgeschneiderte und individuelle Business Intelligence und Planungslösungen zu finden. Ab 2007 war er als Senior Consultant für Braincourt tätig und zu seinen Aufgaben gesellten sich dedizierte Leitungsaufgaben in Kundenprojekten der Branchen Telekommunikation, Fertigung, Energieversorgung und Dienstleistungen.

Seit 2010 versorgt er in Festanstellung die Führungsebene der E-Plus Gruppe mit Steuerungsinformationen aus dem täglichen Geschäft.

1416413140414

Seit 2014 veröffentlicht André in seinem Blog  sehr erfolgreich Posts rund um das Thema Information Design und sorgt mit klaren Standpunkten immer wieder für spannende fachliche Diskussionen. Die tolle Auswahl an Beiträgen, die vielen Impulse aus der breiten Dataviz-Community und die großartigen Einblicke in seine Tätigkeit bei E-Plus haben unsere Neugier geweckt und aus dem schriftlichen Kontakt wurde schnell ein persönlicher.

Wir haben uns sehr gefreut, ihn als Autor für unser Buch Managementberichte gekonnt visualisieren zu gewinnen, da kaum jemand so viel Erfahrung im Zusammenspiel von Mobile Business Intelligence und Information Design aufweist wie er.

Im fünften Kapitel unseres Buches „Umsetzung mobiler Berichte“ schreibt André über „Mobiles Top-Management Reporting zur Vertriebssteuerung eines Mobilfunkunternehmens“. Besonderes Augenmerk legt er dabei auf die Business-Intelligence-Infrastruktur als technologisches Standbein für die digitale Zusammenarbeit, Funktionen und Reporting-Konzepte für eine mobile Zielgruppe und die Besonderheiten des Push-Reportings für das Top-Management.

Bildschirmfoto 2016-08-03 um 10.18.46


Hinterlasse einen Kommentar

Das Problem der Unternehmen: Die Suche nach dem Data Scientist als Allheilmittel (Teil 3 von 3)

Das Hauptproblem bei den Neueinstellungen der Data Scientists besteht darin, dass Unternehmen oft zu viel zu schnell wollen, sich aber zu wenig bewusst sind, was die Vorstufen bis dahin sind. Wird der Data Scientist bereits im Vorfeld zu sehr als Allheilmittel gehypt, so folgt sehr schnell die Ernüchterung über die meist unverschuldet ausbleibenden Fortschritte bei den doch so klar formulierten Zielen à la: „Was tue ich, damit die Kunden mir nicht weglaufen, ich aber trotzdem noch Geld mit ihnen verdiene?“

Deswegen sind wichtige Fragen im Vorfeld vom Unternehmen selbst zu beantworten:

  • Sind alle relevanten Informationen (welche sind überhaupt relevant?) verfügbar und einfach abrufbar?
  • Mache ich überhaupt schon die einfachsten Analysen mithilfe meines DWH, bevor ich mich an sehr viel Komplexere mache?
  • Was genau will ich eigentlich? Folge ich nur einem Trend, möglichst alles, was theoretisch möglich ist, zu nutzen?
  • Bin ich richtig über die Kosten-Nutzen Relation der Heranziehung eines Data Scientists informiert?
  • Wie lang sind die Kommunikations- und Datenmigrations-Wege? Immerhin ist eine direkte Kommunikation zwischen Entscheidern und Data Scientists nötig.

So lange ein Großteil dieser Punkte nicht bereits im Vorfeld beantwortet werden kann, ist die Heranziehung der Data Scientists, zumindest zu diesem Zeitpunkt, fraglich und sollte zunächst durch externe Dienstleister erfolgen, um Klarheit über die Möglichkeiten und technischen Machbarkeiten zu erlangen.

Fazit – Wer ist also, der optimale Data Scientist?

Wer ist er, der optimale Data Scientist und was zeichnet ihn nun aus? Haben wir nicht alle vorgestellten Themen schon einmal irgendwo gehört? Wo sind die Innovationen, von denen doch die ganze Zeit die Rede ist? Brauchen wir wirklich eine ganz neue Berufsgruppe, die sowohl bekannter als auch neuer Themen Herr wird?

In der Tat, vieles von dem, was angesprochen wurde, ist tatsächlich nicht wirklich neu. Neu ist aber, eine Person zu definieren, die zumindest einen theoretischen Überblick über diese Themen behält, die die nötigen Anstöße und Konzepte mitgestaltet und überwacht – und im besten Fall tatsächlich Innovatives auf die Beine stellt. Über die Bezeichnung „Data Scientist“ lässt sich also streiten, ohne dass jedoch andere passender erscheinen würden. „Data Analyst“ klingt zwar weniger sexy, wird der Tätigkeit aber nicht wirklich gerecht. Ganz zu schweigen von Datenanalyst oder Datenmanager.

Fakt ist, dass für diese Position eine umfangreiche Generalisten-Ausbildung klar von Vorteil ist, so lange sie die oben angesprochenen Bereiche Informatik und Statistik gebührend miteinbezieht. Insofern sind eben jene Profile angesprochen, die, wie oben beschrieben, umfangreiche theoretische Kenntnisse, konzeptionelles Geschick und zumindest einen soliden Grundstock an technischem Know-How mitbringen. Zudem müssen sie sich und ihr Produkt gut verkaufen können, und in der Lage sein, neben der Entwicklung neuer Konzepte, zwischen den Disziplinen zu vermitteln, aber auch selbst klare Vorgaben zu formulieren.

Der maximale Output lässt sich also vor allem dann erreichen, wenn auch die Unternehmen ihre Anforderungen klarer stellen, sich informieren, was bei ihnen überhaupt möglich ist, um dann am Ende mit sehr klaren Vorgaben an die so geschätzte und vielleicht auch überschätzte Allzweckwaffe „Data Scientist“ heranzutreten.

Das Team von reportingimpulse bedankt sich für die tolle Zusammenarbeit bei Dr. Clemens von Bismarck-Osten und OPITZ CONSULTING.

Damit nehmen wir an der Blogparade von SAS zum Thema Data Scientist teil.


Hinterlasse einen Kommentar

Main Tasks – Was muss der Data Scientist können? (Teil 2 von 3)

Wichtig ist: ein Data Scientist muss nicht zwangsläufig von Anfang an die hochinnovativen Themen behandeln. Die allermeisten Innovationen bei der Datenanalyse und der Modellverbesserung entwickeln sich häufig zufällig, sei es durch aktuelle Projekte und deren Problemstellungen, das Kombinieren neuer Verfahren mit älteren Ansätzen oder plötzlich veränderter Rechenkapazitäten.

Andere innovative Ansätze sollten eher von anderen Geschäftsbereichen, wie dem Marketing, klar formuliert und in gemeinsamer Arbeit entwickelt werden.

Für eine fruchtbare Tätigkeit im Unternehmen gilt es, mindestens die folgenden Punkte zu beachten:

Ein Data Scientist sollte von Beginn an

  • Einblick in das Tagesgeschäft (v.a. im Bereich BI und DWH) erhalten
  • die fachlichen Anforderungen in seinem Bereich verstehen
  • die Kontakte zur internen IT und zur Entscheider-Ebene aufbauen
  • Technologien, die im Unternehmen genutzt werden, verstehen und mit dem eigenen Technologie-Wissen kombinieren
  • Den Technologie-Markt regelmäßig beobachten und eigenes Wissen weiter anreichern

Je nach Branche, in der er tätig ist, sollte ein Data Scientist in der Lage sein, klassische Fragen aus dem BI-Bereich lösen zu können. Einige Beispiele dafür sind:

  • … im Vertragskundengeschäft zu einer Verbesserung der Kundenbeziehung zu gelangen, z.B. indem unzufriedene Kunden statistisch identifiziert werden können, um ihnen im Anschluss Angebote oder Preisnachlässe zu gewähren und die Beziehung auf diese Weise zu verlängern (Classification). Ein Beispiel ist in Abb. 2 dargestellt.
  • … den maximalen Gewinn aus dem Kunden herausholen, indem er mit den passendsten Angeboten aus dem eigenen Produkt-Stack konfrontiert wird, ohne ihn jedoch zu „überfrachten“ (Recommendation). Ein Beispiel ist in Abb. 3 dargestellt.
  • … Kunden (oder Produkte) in sinnvolle Gruppen einteilen (Clustering), um aus den Gruppen bestimmte (und vorher noch unbekannte) Eigenschaften zu extrahieren, mit denen sich die „ähnlichsten“ anderen Produkte oder Kunden ermitteln lassen.
    Ein Beispiel: Anstatt Marketingaktionen oder Werbemaßnahmen an Altersgruppen, Geschlecht oder weitere Einzelattribute anzupassen, teilt man den Kundenstamm in bspw. 20 Cluster auf und betrachtet die Kauf-Eigenschaften innerhalb jeden Clusters. Anschließend müssen lediglich 20 Pakete „geschnürt“ werden, die den meisten Kunden im Cluster zusagen. Dies Verfahren spart Arbeit und zeigt in der Regel gute Ergebnisse.
  • … Absatzprognosen und Auslastungsquoten auf Basis früherer Daten für die Zukunft berechnen.

 

Modellergebnis für die Wirtschaftlichkeitsberechnung einer „Churn-Prediction“

Abbildung 2: Modellergebnis für die Wirtschaftlichkeitsberechnung einer „Churn-Prediction“. Dabei wurde versucht, jene Kunden zu identifizieren, die mit einer großen Wahrscheinlichkeit demnächst kündigen werden. Diese gilt es im Vorfeld durch gezielte Preisnachlässe davon abzubringen. Je größer der Fehler bei der Identifizierung der richtigen Kunden (Model Precision), desto kleiner der zu erwartende Gewinn, weswegen dabei unterschiedliche Classifier getestet werden müssen, worauf anschließend noch ein Modell-Tuning folgt. Im Beispiel wurde mit einer Erfolgswahrscheinlichkeit von 25%, einer Rendite von 120 €/a pro Kunde und Rabatt von 60 €/a pro identifizierten Kunde gerechnet.

Der Recommender in der Theorie - Beispiel für Online-Bezahlcontent

Abbildung 3: Der Recommender in der Theorie – Beispiel für Online-Bezahlcontent. Die „Ähnlichkeit“ zwischen Usern wird in der Regel in Form mathematischer Distanzmaße (Korrelation, Absolute Distances, Euclidean Distances) berechnet. Das Schaubild verdeutlicht folgende Logik: „Nimm jeden Content (z.B bezahlpflichtige Premium Angebote) ,den ich (Kunde) noch nicht kenne, schaue welchen davon die „mir ähnlichen User“ haben und schlage ihn mir in absteigender Reihenfolge, nach absolutem Auftreten unter den mir ähnlichsten Usern, vor.“ Bei anonymen Usern funktioniert die Logik ähnlich, nur dass ähnliche User erst nach einer bestimmten Anzahl beobachteter „Aktionen“ ermittelt werden können, während bei bekannten Usern diese Daten bereits existieren.

Innovative Tasks – Was darf der Data Scientist noch können

Bei der Bewältigung und Auswertung großer Datenmengen müssen statistische Berechnungen oftmals verteilt gerechnet werden. Dieser Bereich ist zwar auch im Bereich des Software Development mitangesiedelt, dennoch ist es sinnvoll, dass sich der Data Scientist mit diesen Technologien vertraut macht. Diese „Big Data“ –Themen sind vor allem dort wichtig, wo unstrukturierte Daten, wie Freitexte aus den sozialen Medien, Forum-Einträge oder ganze Blogs als Datengrundlage mit in die Modelle oder Auswertungen fließen. Theorie und Praxis des Text Minings als eine Form des Data Mining sind hierbei unabdingbar. Texte müssen ausgelesen, transformiert, auf Zusammenhänge, Tonalität etc. untersucht werden, um die dadurch gewonnenen Informationen in bestmöglicher Form für weitere Analysen zu nutzen, oder visuell aufzubereiten.

Um ein Beispiel zu zeigen, sind in Abb. 3 bis 5 die Tweets zu den zwei Produkten Samsung Galaxy S6 und Apples iPhone6 in raum-zeitlicher und themenspezifischer Dimension zu sehen. Die Beispiele sollen zeigen, wie mit relativ geringem Aufwand (im gezeigten Beispiel wurde eine individuelle Lösung in etwa 2 bis 3 Tagen konzipiert) eigene Produkte, aber auch jene der Konkurrenz, über einen längeren Zeitraum in den sozialen Medien beobachtet werden können. Dabei wird zu jedem Suchbegriff eine feste Anzahl an thematischen Unterteilungen a-priori festgelegt und per Clustering die gesamten Tweets, ihrer Ähnlichkeit zueinander entsprechend, zusammengefasst. Dies hat zum Ziel, all jene Begriffe in den Tweeds zu erkennen, die am häufigsten miteinander auftauchen. Dabei bedient man sich im Vorfeld häufig einer Normierungsvariante, die unwichtige Bestandteile wie Präpositionen, Artikel oder häufige Verben, die keinerlei Auskunft über den Inhalt geben, herausfiltert (Für Details siehe TF-IDF Normierung[1]). Diese Logik muss im Anschluss noch individuell angepasst werden, je nach individuellem Use Case. Auf diese Weise kann man nun themenspezifische Auswertungen machen, Stimmungen analysieren, Trends rechtzeitig erkennen, uvm.

Tweets pro Land

 

Abbildung 4: Herkunft von ca. 60.000 Tweets, gesammelt zwischen 03.03.2015 und 05.03.2015, wovon sich rund zwei Drittel den Ländern zuordnen ließen. Das verbleibende Drittel wurde ausgeblendet, ebenso Länder mit weniger als 50 Einträgen.

Samsung Galaxy

Abbildung 5: Entwicklung von Tweets, die dem Cluster „Samsung Galaxy S6 is a clone of the iPhone“ zugeordnet wurden. Die Benennung ergab sich aus den häufigsten Wörtern innerhalb des Cluster ‚clone‘, ‚iphone clone‘, ’samsung insist‘ (Datenbasis: 60.000 Tweets, gesammelt zwischen 03.03.2015 und 05.03.2015).

Bei allen Analysen ist es aber vor allem wichtig, zu erkennen, wer eigentlich Beiträge veröffentlicht. Durch Informationen, wie z.B. die Gesamt-Anzahl an Followern, kann man gezielt große Unternehmen herausfiltern, welche hier in unserem Fall Werte jenseits der 50.000 aufweisen. Auch eine Vielzahl an Spam-Tweets (Abb. 6) kann bis zu einem gewissen Grad aus den Daten durch intelligentes Filtern entfernt werden, etwa durch Erkennung ähnlich aufgebauter Tweets in kurzer zeitlicher Aufeinanderfolge. Auf diese Weise bekommt man also die „echten“ Meinungen von Usern zurück. Anschließend kann noch weiter nach Device (über welche App wurde Tweet abgesendet), Aktivität der User (Gesamtzahl an Tweets pro User) uvm. gefiltert werden, je nachdem, welche Fragestellung ein Unternehmen beantworten möchte.

Die Beispiele sollen lediglich demonstrieren, dass das Sammeln externer Daten durchaus Sinn machen kann, die Frage nach der tatsächlichen Rentabilität eines solchen Verfahrens und welche Datenquellen herangezogen werden sollen, muss sich jedes Unternehmen dennoch individuell selbst stellen.

Anzahl Spam-Tweets pro Land

Abbildung 6: : Herkunft Tweets, die als Spam klassifiziert wurden, gesammelt zwischen 03.03.2015 und 05.03.2015. Länder mit weniger als 20 Einträgen wurden ausgeblendet. Die Spam-Tweets wurden anhand der Worthäufigkeiten klassischer Spambegriffe und durch das Vorkommen großer Teile des Textes in zeitnaher Aufeinanderfolge identifiziert.

 

Teil 3 folgt am Fr. 20.03.2015.

Damit nehmen wir an der Blogparade von SAS zum Thema Data Scientist teil.

 


3 Kommentare

Die Rolle: Wer ist dieser Data Scientist? (Teil 1 von 3)

Der Hype um die Data Scientists scheint auf dem Höhepunkt angekommen zu sein. Nie gab es mehr Treffer zu diesem Begriff, nie waren die Jobangebote besser. Aber wo kommt dieser Trend plötzlich her? Nur ein Zeitgeist ? Hat er womöglich etwas mit geschürten Erwartungen bei Unternehmen zu tun, mit diesen Experten nun endlich langgehegte Wünsche und Ziele angehen zu können? Und, was ist ein Data Scientist eigentlich genau? Höchste Zeit, sich mit den Hintergründen einmal etwas intensiver auseinanderzusetzen.

Vergegenwärtigen wir uns, dass von Anbeginn der Menschheit bis 2003 auf der Welt circa 5 Milliarden Gigabyte Daten erzeugt wurden. Bereits im Jahr 2013 erzeugen wir diesen Datenberg schon alle zehn Minuten. Mit dieser enormen Menge an Daten muss also auch entsprechend „umgegangen“ werden.

Das reine Ablegen der Daten spielt dabei noch die kleinere Rolle, dank intelligenter Speichermöglichkeiten für strukturierte Daten, wie Datenbanktechnologien.

Vielmehr gilt es, einen effektiven Nutzen aus diesen durch Smartphones, Onlineshops, beruflicher und privater Korrespondenz usw. herrührenden Daten zu ziehen. Klassische BI-Fragestellungen, wie etwa die Umsatzentwicklungen für Kunden mit bestimmten Eigenschaften, lassen sich nach wie vor durch einfache Data-Warehouse Systeme und ETL-Werkzeuge beantworten. Interessant wird es dann, wenn diese Werkzeuge nicht mehr ausreichen, um alle Informationen, die zu Kunden oder Produkten vorliegen, in vollem Umfang auszuwerten, aber auch wenn externe Daten zusätzlich herangezogen werden, um Strukturen in den Daten herauszuarbeiten, Modelle zu verbessern uvm.

An dieser Stelle knüpft nun idealerweise die Rolle des Data Scientists an.

Der Data Scientist als Allrounder – Aufzeigen eines Missverständnisses

Die Wunschliste von Unternehmen ist groß: da wird mehr Umsatz gewünscht, ein höherer Gewinn, maximale Auslastungszeiten von Mitarbeitern, zufriedene Kunden und Vieles mehr. Und – das versteht sich von selbst – einen Data Scientisten, der es nun endlich richten soll!

An dieser Stelle passt also am ehesten der Begriff der eierlegenden Wollmilchsau. In Wirklichkeit impliziert die Rolle des Data Scientist allerdings faktisch drei Einzelrollen:

  • Der Daten- und Statistikspezialist (gern mit Hintergrund Mathematiker, Physiker, Naturwissenschaftler, und natürlich PhD/ Dr.)
  • Der Informatik-Experte (Informatiker, Wirtschafts, Bio- oder Sonstwie-Informatiker) gern auch mit mehrjähriger Projekterfahrung
  • Das Kommunikations-Genie oder die „Vortrags-Rampensau“ als Schnittstelle zwischen der NERD-behafteten IT oder dem Datenbank-Kellerraum in jedem Unternehmen und den hippen Entscheidern im Bereich Marketing, aber auch zur Geschäftsleitung, den eigentlichen Entscheidern.

Die Frage lautet also: wer kann das leisten? „Natürlich zahle ich so jemandem problemlos seine 80.000 im Jahr, denn er ersetzt ja immerhin drei!“, so sicherlich die Rechtfertigung vor Kollegen, warum der „Neue“ denn so teuer sei. Aber mal im Ernst: wie realistisch ist das Vorhandensein all dieser Skills in einer Person und wie wahrscheinlich ist es, dass gerade ich als kleiner Mittelständer noch vor Google, Facebook und Co auf diese Leute aufmerksam werde? Nicht besonders groß, weswegen sich jedes Unternehmen die Frage stellen muss, ob es tatsächlich auch auf Teile des gewünschten Profils verzichten möchte und sich das Data Scientist-Konstrukt, zumindest in Teilen, selbst „zusammenbaut“.

Key Skills – die wichtigen Voraussetzungen zum Data Scientist

Weiterlesen


Hinterlasse einen Kommentar

„Data Scientists – Der Hype um die Allrounder und die Realität“

OPITZ CONSULTING und reportingimpulse starten eine dreiteilige Blog-Reihe zum Thema: „Data Scientists – Der Hype um die Allrounder und die Realität“. Dr. Clemens von Bismarck-Osten und Andreas Wiener haben sich leidenschaftlich dazu ausgetauscht und sind gemeinsam zu einigen überraschenden Hypothesen gekommen, was die Rolle, die Aufgaben und Erwartungen an den „sexiest Job des 21. Jahrhunderts“ angeht.

Data Scientist

Parallel zur CeBIT werden drei Teile veröffentlicht. Der erste erscheint am Montag, 16.03., der zweite am Mittwoch, 18.03. und der letzte am Freitag, 20.03.

Über die Autoren:

Dr. Clemens von Bismarck-Osten ist Data Scientist bei OPITZ CONSULTING und hilft seinen Kunden Chancen und Potentiale in großen Datenmengen zu heben.

Andreas Wiener, Geschäftsführer der reportingimpulse GmbH, ist Spezialist zum Thema der visuellen Analyse von Daten und Autor des Buchs Visual Business Analytics.

 

Damit nehmen wir an der Blogparade von SAS zum Thema Data Scientist teil.