Citizen Data Scientists
Business-Analysten bewegen sich durch strukturierte Datenmodelle eines Data Warehouses. Sie kennen die Datenmodelle meist gut und verstehen es, über Frontend-Tools (Excel, Tableau, SAP BO) Abfragen auf den Datenmodellen zu erstellen, um ihren Informationsbedarf zu decken.
Die Komplexität der Datenbankstrukturen wird durch moderne Werkzeuge verborgen, die Tools erzeugen automatisch den für die Abfragen notwendigen Programmiercode und ermöglichen so eine gewisse Unabhängigkeit von den IT-Professionals.
Business-Analysten haben oftmals BWL, Wirtschaftswissenschaften oder Wirtschaftsinformatik studiert und arbeiten in den Fachbereichen oder an der Schnittstelle zwischen Fachbereich und IT.
Data Lakes statt Warehouse
„Daten sind das neue Öl.“ Dieser in der Praxis häufig verwendete Slogan beschreibt die Bedeutung von Daten für die fortschreitende Digitalisierung in allen Lebensbereichen.
Überall werden Daten gesammelt, bei der Nutzung des Smartphones, über die Sensorik unseres Fahrzeuges bis hin zur App der Kaffeemaschine, die die Kapseln automatisch wiederbestellt.
Die Daten strömen statt in die geordneten Strukturen eines Data Warehouse nun in einen sogenannte Data Lake. Ein Data Lake ist ein Datenspeicher, der große Menge an Daten in ihrem ursprünglichen Format aufbewahrt, so lange, bis sie irgendwann mal gebraucht werden.
Da es kein vordefiniertes Datenschema gibt, werden viele Metadaten zu den Daten abgespeichert, bis irgendwann eine Datenanforderung definiert wird.
Wenn sich zum Beispiel eine geschäftliche Fragestellung ergibt, kann der Data Lake nach relevanten Daten durchsucht werden und die daraus resultierende Datenmenge kann dann gezielt analysiert werden, um zu einer Lösung des Geschäftsproblems beizutragen.
In der Fachliteratur wird häufig „Information“ als entscheidungsrelevantes bzw. handlungsrelevantes Wissen definiert. Daten werden also zu „Information“, wenn sie helfen, ein Problem zu lösen bzw. eine Entscheidung herbeizuführen.
Interdisziplinäres Wissen und KI
Genau dazu dient das Data Warehouse. Dort werden die Daten so strukturiert und fachlich aufbereitet, dass der Anwender seinen Informationsbedarf selbstständig decken kann.
Im Data Lake fehlen die Informationsstrukturen zunächst und müssen von Experten erst mal entdeckt und aufbereitet werden. Für die Entdeckung dieser Strukturen und Zusammenhänge benötigt es spezielle IT-Kenntnisse, die sehr oft mathematische und statistische Methoden erfordern, die zudem noch in Programmiersprachen wie R oder Python eingebettet werden müssen.
Hilfestellung liefert das maschinelle Lernen mit Methoden, die aus der Disziplin „Künstliche Intelligenz“ stammen. Dass dazu Mathematiker, Informatiker, Naturwissenschaftler oder Techniker (MINT) mit einem guten theoretischen Hintergrund benötigt werden, ist naheliegend.
Nicht nur, dass MINT-Absolventen sehr schwierig zu bekommen sind, sondern dass diese auch nur über wenig betriebswirtschaftliche Kenntnisse verfügen, macht die Entdeckung neuer Zusammenhänge in den Daten des Data Lakes zu einem großen Problem.
Es liegt daher nahe, den gut ausgebildeten und erfahrenen Business-Analysten mit ausgewählten Methoden aus dem Fachgebiet Data Science weiterzubilden und spezialisierte Werkzeuge zu beschaffen, die diese Methoden mit einer einfach zu bedienenden Benutzerführung unterstützen.
Das Marktforschungsunternehmen Gartner prägte bereits 2015 in einem Artikel den Begriff des Citizen Data Scientist1. Gartner spricht dabei von einer Konvergenz von Business Analytics und Predictive Analytics, die Organisationen helfen kann, die Lücke zwischen komplexen mathematischen Analysefunktionen und Verfahren der „Künstlichen Intelligenz“ zu schließen.
Es wird den Unternehmen somit auch ermöglicht, entlang des Reifegrades von Business Analytics deutliche Fortschritte zu machen. Die Konvergenz wird dazu beitragen, dass Predictive Analytics ein breiteres Publikum von Business-Analysten und somit Citizen Data Scientists erreicht.
Ein Citizen Data Scientist (CDS) ist mehr als nur ein erfahrener Excel-Anwender, der es versteht, Pivot-Tabellen zu untersuchen. Ein CDS ist in der Lage, die betriebswirtschaftliche Fragestellung auf den Data-Science-Prozess methodisch abzubilden, die kritische Bedeutung von Datenqualität für das maschinelle Lernen zu verstehen, verschiedene Werkzeuge zu evaluieren und zu nutzen.
Er darf keine Berührungsängste vor einer Programmiersprache haben. Dabei geht es weniger um das Programmieren komplexer Anwendungen, sondern um das Skripten von kleinen Programmteilen und die Nutzung und Parametrisierung vorhandener Algorithmen.
Neue Art der Datenerschließung
Der Prozess zur Erschließung des neuen Wissens für den Data Scientist verändert sich völlig. Im klassischen Data Warehousing wird zunächst in Zusammenarbeit zwischen Fachbereich und IT ein multidimensionales Modell erstellt und daraus ein Schema für einen Data Mart entwickelt.
Das Schema besteht grundsätzlich aus Kennzahlen und Attributen, die mit den Kennzahlen in Beziehung stehen. Dimensionen und Hierarchien sind weitere Strukturmerkmale, die helfen, die Anforderungen der Fachanwender zu strukturieren.
Danach werden die Strukturen über einen Extraktions-, Transformations- und Ladeprozess befüllt. Ob dabei z. B. ein SAP-Hana-Schema oder ein SAP-BW-Infoprovider befüllt wird, ist eigentlich nur eine technische Frage.
Im Vordergrund steht ein mit dem Fachbereich abgestimmtes Schema, das mit Daten befüllt wird. Ein Data Scientist geht dagegen völlig anders vor. Die Daten aus seinen Datenquellen besitzen häufig zunächst keine vorgegebene bzw. offensichtliche Struktur.
So werden etwa CSV-Dateien mit Sensordaten, Texte aus sozialen Medien oder Geodaten aus einer Smartphone-App im Filesystem eines Data Lakes gespeichert. Wendet sich ein Fachanwender mit seinem Informationsbedarf nun an den Data Scientist, wird ein Datenerschließungsprozess angestoßen, an dessen Ende eine Datenstruktur steht, die für Analysewerkzeuge geeignet ist.
Ob es sich dabei um eine Data-Mining- oder eine Predictive-Maintenance-Anwendung handelt, ist an dieser Stelle zwar wichtig, aber nicht entscheidend.
Beim Datenerschließungsprozess wird zunächst ein Datenbestand aufgebaut, der sich „vermutlich“ für die Datenanalyse eignet. Ab jetzt beginnen die Probleme. Dieser Datenbestand sollte zunächst repräsentativ sein, also Merkmale und Daten beinhalten, die das Anwendungsszenario möglichst gut darstellen.
„Alle Daten“ eignen sich für Analyseanwendungen zumeist nicht, da zu viele Ausreißer und Besonderheiten die Ergebnisse verfälschen würden. Danach werden die Daten so transformiert, dass sie auf die Bedürfnisse der Analysewerkzeuge „passen“.
Dabei spielt die Qualität der Daten die entscheidende Rolle. Ein Analysewerkzeug eines Data Scientist „lernt“ aufgrund der Daten, die es zu begutachten hat. Die Datenqualität ist dem Werkzeug grundsätzlich völlig egal. Es „lernt“ etwa, dass überdurchschnittlich viele Abonnenten eines Newsletters aus „Afghanistan“ kommen.
Der Grund liegt offensichtlich darin, dass „Afghanistan“ in der Liste der Länder in der Anmeldemaske einer Website an erster Stelle steht. Leider sind solche Datenkonstellationen oft nicht so offensichtlich wie in diesem Beispiel.
Datenqualität ist entscheidend
In einem Forschungsprojekt im Rahmen einer Zusammenarbeit zwischen der Hochschule der Medien Stuttgart und Uniserv wurde aufgezeigt, wie einfach der Messwert für die Qualität eines Analysewerkzeugs aufgrund der schlechten Datenqualität ausgehebelt werden kann.
Dazu wurden im Rahmen einer Partnerschaft Szenarien erstellt, die sowohl mit qualitativ hochwertigen Daten als auch mit qualitativ schlechten Daten ein „Learning“ durchführten. Das Verfahren, das qualitativ hochwertige Daten erzeugt, wird als „Ground Truth“ bezeichnet.
Dieser Begriff wurde ursprünglich vom MIT geprägt und im Rahmen des Forschungsprojekts weiterentwickelt. Dabei wurden Kundenstammdaten mit Transaktionsdaten angereichert, die zuvor ein Datenqualitätsregelwerk durchlaufen haben.
Dadurch entsteht ein Datensatz, der sowohl Stammdaten als auch Transaktionsdaten enthält und dadurch ein präzises Profil eines Kunden erstellt. Am Ende des Datenerschließungsprozesses steht eine Datenstruktur, die an das Analysewerkzeug weitergereicht wird.
Oftmals werden Ergebnisse erzeugt, die zunächst nicht befriedigend sind. Es müssen dann weitere Attribute oder andere Daten dem Datenpool für die Analyse hinzugefügt werden.
Der Datenerschließungsprozess für die Erstellung des Ground Truth beginnt also von vorne. Daher spielen Softwarekomponenten für den Datenerschließungsprozess eine entscheidende Rolle für den Data Scientist. Ohne eine geeignete Datenqualität ist kein verlässliches Predictive Analytics möglich.
Wegen des dringenden Bedarfs und der zwingenden Notwendigkeit, Daten als Unternehmens-Asset zu verstehen und das darin enthaltene Potenzial nutzbar zu machen, bieten immer mehr öffentliche Hochschulen und Unternehmen Ausbildungen zum Citizen Data Scientist an.
Dabei ist zu beachten, dass ein ausgewogener Mix zwischen Theorie und praxisnahen Anwendungsszenarien mit Hands-ons besteht. Ein Austausch im Team mit Business-Analysten von anderen Unternehmen sollte ebenso selbstverständlich sein wie die Nutzung von IT-Systemen unterschiedlicher Hersteller.
Die Hochschule der Medien Stuttgart bietet eine anwendungsbezogene, berufliche Weiterbildung zum Citizen Data Scientist an.
[1] Predicts 2015: A Step Change in the Industrialization of Advanced Analytics, https://www.gartner.com/doc/2930917/predicts-step-change-industrialization, abgerufen am
26. Februar 2018