{"id":42349,"date":"2018-06-07T11:00:11","date_gmt":"2018-06-07T09:00:11","guid":{"rendered":"http:\/\/e3mag.com\/?p=42349"},"modified":"2022-05-01T10:00:45","modified_gmt":"2022-05-01T08:00:45","slug":"ciudadanos-cientificos-de-datos","status":"publish","type":"post","link":"https:\/\/e3mag.com\/es\/ciudadanos-cientificos-de-datos\/","title":{"rendered":"Ciudadanos cient\u00edficos de datos"},"content":{"rendered":"<p>Business-Analysten bewegen sich durch strukturierte Datenmodelle eines Data Warehouses. Sie kennen die Datenmodelle meist gut und verstehen es, \u00fcber Frontend-Tools (Excel, Tableau, SAP BO) Abfragen auf den Datenmodellen zu erstellen, um ihren Informationsbedarf zu decken.<\/p>\n<p>Die Komplexit\u00e4t der Datenbankstrukturen wird durch moderne Werkzeuge verborgen, die Tools erzeugen automatisch den f\u00fcr die Abfragen notwendigen Programmiercode und erm\u00f6glichen so eine gewisse Unabh\u00e4ngigkeit von den IT-Professionals.<\/p>\n<p>Business-Analysten haben oftmals BWL, Wirtschaftswissenschaften oder Wirtschaftsinformatik studiert und arbeiten in den Fachbereichen oder an der Schnittstelle zwischen Fachbereich und IT.<\/p>\n<h3>Data Lakes statt Warehouse<\/h3>\n<p>\u201eDaten sind das neue \u00d6l.\u201c Dieser in der Praxis h\u00e4ufig verwendete Slogan beschreibt die Bedeutung von Daten f\u00fcr die fortschreitende Digitalisierung in allen Lebensbereichen.<\/p>\n<p>\u00dcberall werden Daten gesammelt, bei der Nutzung des Smartphones, \u00fcber die Sensorik unseres Fahrzeuges bis hin zur App der Kaffeemaschine, die die Kapseln automatisch wiederbestellt.<\/p>\n<p>Die Daten str\u00f6men statt in die geordneten Strukturen eines Data Warehouse nun in einen sogenannte Data Lake. Ein Data Lake ist ein Datenspeicher, der gro\u00dfe Menge an Daten in ihrem urspr\u00fcnglichen Format aufbewahrt, so lange, bis sie irgendwann mal gebraucht werden.<\/p>\n<p>Da es kein vordefiniertes Datenschema gibt, werden viele Metadaten zu den Daten abgespeichert, bis irgendwann eine Datenanforderung definiert wird.<\/p>\n<p>Wenn sich zum Beispiel eine gesch\u00e4ftliche Fragestellung ergibt, kann der Data Lake nach relevanten Daten durchsucht werden und die daraus resultierende Datenmenge kann dann gezielt analysiert werden, um zu einer L\u00f6sung des Gesch\u00e4ftsproblems beizutragen.<\/p>\n<p>In der Fachliteratur wird h\u00e4ufig \u201eInformation\u201c als entscheidungsrelevantes bzw. handlungsrelevantes Wissen definiert. Daten werden also zu \u201eInformation\u201c, wenn sie helfen, ein Problem zu l\u00f6sen bzw. eine Entscheidung herbeizuf\u00fchren.<\/p>\n<h3>Interdisziplin\u00e4res Wissen und KI<\/h3>\n<p>Genau dazu dient das Data Warehouse. Dort werden die Daten so strukturiert und fachlich aufbereitet, dass der Anwender seinen Informationsbedarf selbstst\u00e4ndig decken kann.<\/p>\n<p>Im Data Lake fehlen die Informationsstrukturen zun\u00e4chst und m\u00fcssen von Experten erst mal entdeckt und aufbereitet werden. F\u00fcr die Entdeckung dieser Strukturen und Zusammenh\u00e4nge ben\u00f6tigt es spezielle IT-Kenntnisse, die sehr oft mathematische und statistische Methoden erfordern, die zudem noch in Programmiersprachen wie R oder Python eingebettet werden m\u00fcssen.<\/p>\n<p>Hilfestellung liefert das maschinelle Lernen mit Methoden, die aus der Disziplin \u201eK\u00fcnstliche Intelligenz\u201c stammen. Dass dazu Mathematiker, Informatiker, Naturwissenschaftler oder Techniker (MINT) mit einem guten theoretischen Hintergrund ben\u00f6tigt werden, ist naheliegend.<\/p>\n<p>Nicht nur, dass MINT-Absolventen sehr schwierig zu bekommen sind, sondern dass diese auch nur \u00fcber wenig betriebswirtschaftliche Kenntnisse verf\u00fcgen, macht die Entdeckung neuer Zusammenh\u00e4nge in den Daten des Data Lakes zu einem gro\u00dfen Problem.<\/p>\n<p>Es liegt daher nahe, den gut ausgebildeten und erfahrenen Business-Analysten mit ausgew\u00e4hlten Methoden aus dem Fachgebiet Data Science weiterzubilden und spezialisierte Werkzeuge zu beschaffen, die diese Methoden mit einer einfach zu bedienenden Benutzerf\u00fchrung unterst\u00fctzen.<\/p>\n<p>Das Marktforschungsunternehmen Gartner pr\u00e4gte bereits 2015 in einem Artikel den Begriff des Citizen Data Scientist1. Gartner spricht dabei von einer Konvergenz von Business Analytics und Predictive Analytics, die Organisationen helfen kann, die L\u00fccke zwischen komplexen mathematischen Analysefunktionen und Verfahren der \u201eK\u00fcnstlichen Intelligenz\u201c zu schlie\u00dfen.<\/p>\n<p>Es wird den Unternehmen somit auch erm\u00f6glicht, entlang des Reifegrades von Business Analytics deutliche Fortschritte zu machen. Die Konvergenz wird dazu beitragen, dass Predictive Analytics ein breiteres Publikum von Business-Analysten und somit Citizen Data Scientists erreicht.<\/p>\n<p>Ein Citizen Data Scientist (CDS) ist mehr als nur ein erfahrener Excel-Anwender, der es versteht, Pivot-Tabellen zu untersuchen. Ein CDS ist in der Lage, die betriebswirtschaftliche Fragestellung auf den Data-Science-Prozess methodisch abzubilden, die kritische Bedeutung von Datenqualit\u00e4t f\u00fcr das maschinelle Lernen zu verstehen, verschiedene Werkzeuge zu evaluieren und zu nutzen.<\/p>\n<p>Er darf keine Ber\u00fchrungs\u00e4ngste vor einer Programmiersprache haben. Dabei geht es weniger um das Programmieren komplexer Anwendungen, sondern um das Skripten von kleinen Programmteilen und die Nutzung und Parametrisierung vorhandener Algorithmen.<\/p>\n<h3>Neue Art der Datenerschlie\u00dfung<\/h3>\n<p>Der Prozess zur Erschlie\u00dfung des neuen Wissens f\u00fcr den Data Scientist ver\u00e4ndert sich v\u00f6llig. Im klassischen Data Warehousing wird zun\u00e4chst in Zusammenarbeit zwischen Fachbereich und IT ein multidimensionales Modell erstellt und daraus ein Schema f\u00fcr einen Data Mart entwickelt.<\/p>\n<p>Das Schema besteht grunds\u00e4tzlich aus Kennzahlen und Attributen, die mit den Kennzahlen in Beziehung stehen. Dimensionen und Hierarchien sind weitere Strukturmerkmale, die helfen, die Anforderungen der Fachanwender zu strukturieren.<\/p>\n<p>Danach werden die Strukturen \u00fcber einen Extraktions-, Transformations- und Ladeprozess bef\u00fcllt. Ob dabei z. B. ein SAP-Hana-Schema oder ein SAP-BW-Infoprovider bef\u00fcllt wird, ist eigentlich nur eine technische Frage.<\/p>\n<p>Im Vordergrund steht ein mit dem Fachbereich abgestimmtes Schema, das mit Daten bef\u00fcllt wird. Ein Data Scientist geht dagegen v\u00f6llig anders vor. Die Daten aus seinen Datenquellen besitzen h\u00e4ufig zun\u00e4chst keine vorgegebene bzw. offensichtliche Struktur.<\/p>\n<p>So werden etwa CSV-Dateien mit Sensordaten, Texte aus sozialen Medien oder Geodaten aus einer Smart\u00adphone-App im Filesystem eines Data Lakes gespeichert. Wendet sich ein Fachanwender mit seinem Informationsbedarf nun an den Data Scientist, wird ein Datenerschlie\u00dfungsprozess angesto\u00dfen, an dessen Ende eine Datenstruktur steht, die f\u00fcr Analysewerkzeuge geeignet ist.<\/p>\n<p>Ob es sich dabei um eine Data-Mining- oder eine Predictive\u00ad-Maintenance-Anwendung handelt, ist an dieser Stelle zwar wichtig, aber nicht entscheidend.<\/p>\n<p>Beim Datenerschlie\u00dfungsprozess wird zun\u00e4chst ein Datenbestand aufgebaut, der sich \u201evermutlich\u201c f\u00fcr die Datenanalyse eignet. Ab jetzt beginnen die Probleme. Dieser Datenbestand sollte zun\u00e4chst repr\u00e4sentativ sein, also Merkmale und Daten beinhalten, die das Anwendungsszenario m\u00f6glichst gut darstellen.<\/p>\n<p>\u201eAlle Daten\u201c eignen sich f\u00fcr Analyseanwendungen zumeist nicht, da zu viele Ausrei\u00dfer und Besonderheiten die Ergebnisse verf\u00e4lschen w\u00fcrden. Danach werden die Daten so transformiert, dass sie auf die Bed\u00fcrfnisse der Analysewerkzeuge \u201epassen\u201c.<\/p>\n<p>Dabei spielt die Qualit\u00e4t der Daten die entscheidende Rolle. Ein Analysewerkzeug eines Data Scientist \u201elernt\u201c aufgrund der Daten, die es zu begutachten hat. Die Datenqualit\u00e4t ist dem Werkzeug grunds\u00e4tzlich v\u00f6llig egal. Es \u201elernt\u201c etwa, dass \u00fcberdurchschnittlich viele Abonnenten eines Newsletters aus \u201eAfghanistan\u201c kommen.<\/p>\n<p>Der Grund liegt offensichtlich darin, dass \u201eAfghanistan\u201c in der Liste der L\u00e4nder in der Anmeldemaske einer Website an erster Stelle steht. Leider sind solche Datenkonstellationen oft nicht so offensichtlich wie in diesem Beispiel.<\/p>\n<h3>Datenqualit\u00e4t ist entscheidend<\/h3>\n<p>In einem Forschungsprojekt im Rahmen einer Zusammenarbeit zwischen der Hochschule der Medien Stuttgart und Uniserv wurde aufgezeigt, wie einfach der Messwert f\u00fcr die Qualit\u00e4t eines Analysewerkzeugs aufgrund der schlechten Datenqualit\u00e4t ausgehebelt werden kann.<\/p>\n<p>Dazu wurden im Rahmen einer Partnerschaft Szenarien erstellt, die sowohl mit qualitativ hochwertigen Daten als auch mit qualitativ schlechten Daten ein \u201eLearning\u201c durchf\u00fchrten. Das Verfahren, das qualitativ hochwertige Daten erzeugt, wird als \u201eGround Truth\u201c bezeichnet.<\/p>\n<p>Dieser Begriff wurde urspr\u00fcnglich vom MIT gepr\u00e4gt und im Rahmen des Forschungsprojekts weiterentwickelt. Dabei wurden Kundenstammdaten mit Transaktionsdaten angereichert, die zuvor ein Datenqualit\u00e4tsregelwerk durchlaufen haben.<\/p>\n<p>Dadurch entsteht ein Datensatz, der sowohl Stammdaten als auch Transaktionsdaten enth\u00e4lt und dadurch ein pr\u00e4zises Profil eines Kunden erstellt. Am Ende des Datenerschlie\u00dfungsprozesses steht eine Datenstruktur, die an das Analysewerkzeug weitergereicht wird.<\/p>\n<p>Oftmals werden Ergebnisse erzeugt, die zun\u00e4chst nicht befriedigend sind. Es m\u00fcssen dann weitere Attribute oder andere Daten dem Datenpool f\u00fcr die Analyse hinzugef\u00fcgt werden.<\/p>\n<p>Der \u00adDatenerschlie\u00dfungsprozess f\u00fcr die Erstellung des Ground Truth beginnt also von vorne. Daher spielen Softwarekomponenten f\u00fcr den Datenerschlie\u00dfungsprozess eine entscheidende Rolle f\u00fcr den Data Scientist. Ohne eine geeignete Datenqualit\u00e4t ist kein verl\u00e4ssliches Predictive Analytics m\u00f6glich.<\/p>\n<p>Wegen des dringenden Bedarfs und der zwingenden Notwendigkeit, Daten als Unternehmens-Asset zu verstehen und das darin enthaltene Potenzial nutzbar zu machen, bieten immer mehr \u00f6ffentliche Hochschulen und Unternehmen Ausbildungen zum Citizen Data Scientist an.<\/p>\n<p>Dabei ist zu beachten, dass ein ausgewogener Mix zwischen Theorie und praxisnahen Anwendungsszenarien mit Hands-ons besteht. Ein Austausch im Team mit Business-Analysten von anderen Unternehmen sollte ebenso selbstverst\u00e4ndlich sein wie die Nutzung von IT-Systemen unterschiedlicher Hersteller.<\/p>\n<p>Die Hochschule der Medien Stuttgart bietet eine anwendungsbezogene, berufliche Weiterbildung zum Citizen Data Scientist an.<\/p>\n<p>&nbsp;<\/p>\n<p><em>[1] Predicts 2015: A Step Change in the Industrialization of Advanced Analytics, https:\/\/www.gartner.com\/doc\/2930917\/predicts-step-change-industrialization, abgerufen am<\/em><br \/>\n<em>26. Februar 2018<\/em><\/p>\n","protected":false},"excerpt":{"rendered":"<p>Big Data y Data Science est\u00e1n en boca de todos desde hace unos a\u00f1os. Se busca desesperadamente a cient\u00edficos de datos que ayuden a descubrir nuevas conexiones en los datos utilizando m\u00e9todos matem\u00e1ticos y estad\u00edsticos. <\/p>","protected":false},"author":1526,"featured_media":42350,"comment_status":"open","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"_acf_changed":false,"pmpro_default_level":"","footnotes":""},"categories":[22961,22044],"tags":[22964,1026,927,4757,624,626,3812,10336],"coauthors":[22966],"class_list":["post-42349","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-wissenschaft-forschung","category-mag-1805","tag-data-lakes","tag-data-mining","tag-data-warehouse","tag-excel","tag-ki-joule","tag-kuenstliche-intelligenz","tag-predictive-maintenance","tag-tableau","pmpro-has-access"],"acf":[],"featured_image_urls_v2":{"full":["https:\/\/e3mag.com\/wp-content\/uploads\/2018\/05\/Wissenschaft-und-Forschung-2.jpg",1000,431,false],"thumbnail":["https:\/\/e3mag.com\/wp-content\/uploads\/2018\/05\/Wissenschaft-und-Forschung-2-150x150.jpg",150,150,true],"medium":["https:\/\/e3mag.com\/wp-content\/uploads\/2018\/05\/Wissenschaft-und-Forschung-2.jpg",400,172,false],"medium_large":["https:\/\/e3mag.com\/wp-content\/uploads\/2018\/05\/Wissenschaft-und-Forschung-2-768x331.jpg",768,331,true],"large":["https:\/\/e3mag.com\/wp-content\/uploads\/2018\/05\/Wissenschaft-und-Forschung-2.jpg",1000,431,false],"image-100":["https:\/\/e3mag.com\/wp-content\/uploads\/2018\/05\/Wissenschaft-und-Forschung-2-100x43.jpg",100,43,true],"image-480":["https:\/\/e3mag.com\/wp-content\/uploads\/2018\/05\/Wissenschaft-und-Forschung-2-480x207.jpg",480,207,true],"image-640":["https:\/\/e3mag.com\/wp-content\/uploads\/2018\/05\/Wissenschaft-und-Forschung-2-640x276.jpg",640,276,true],"image-720":["https:\/\/e3mag.com\/wp-content\/uploads\/2018\/05\/Wissenschaft-und-Forschung-2-720x310.jpg",720,310,true],"image-960":["https:\/\/e3mag.com\/wp-content\/uploads\/2018\/05\/Wissenschaft-und-Forschung-2-960x414.jpg",960,414,true],"image-1168":["https:\/\/e3mag.com\/wp-content\/uploads\/2018\/05\/Wissenschaft-und-Forschung-2.jpg",1000,431,false],"image-1440":["https:\/\/e3mag.com\/wp-content\/uploads\/2018\/05\/Wissenschaft-und-Forschung-2.jpg",1000,431,false],"image-1920":["https:\/\/e3mag.com\/wp-content\/uploads\/2018\/05\/Wissenschaft-und-Forschung-2.jpg",1000,431,false],"1536x1536":["https:\/\/e3mag.com\/wp-content\/uploads\/2018\/05\/Wissenschaft-und-Forschung-2.jpg",1000,431,false],"2048x2048":["https:\/\/e3mag.com\/wp-content\/uploads\/2018\/05\/Wissenschaft-und-Forschung-2.jpg",1000,431,false],"trp-custom-language-flag":["https:\/\/e3mag.com\/wp-content\/uploads\/2018\/05\/Wissenschaft-und-Forschung-2.jpg",18,8,false],"bricks_large_16x9":["https:\/\/e3mag.com\/wp-content\/uploads\/2018\/05\/Wissenschaft-und-Forschung-2.jpg",1000,431,false],"bricks_large":["https:\/\/e3mag.com\/wp-content\/uploads\/2018\/05\/Wissenschaft-und-Forschung-2.jpg",1000,431,false],"bricks_large_square":["https:\/\/e3mag.com\/wp-content\/uploads\/2018\/05\/Wissenschaft-und-Forschung-2.jpg",1000,431,false],"bricks_medium":["https:\/\/e3mag.com\/wp-content\/uploads\/2018\/05\/Wissenschaft-und-Forschung-2.jpg",600,259,false],"bricks_medium_square":["https:\/\/e3mag.com\/wp-content\/uploads\/2018\/05\/Wissenschaft-und-Forschung-2.jpg",600,259,false],"profile_24":["https:\/\/e3mag.com\/wp-content\/uploads\/2018\/05\/Wissenschaft-und-Forschung-2-24x24.jpg",24,24,true],"profile_48":["https:\/\/e3mag.com\/wp-content\/uploads\/2018\/05\/Wissenschaft-und-Forschung-2-48x48.jpg",48,48,true],"profile_96":["https:\/\/e3mag.com\/wp-content\/uploads\/2018\/05\/Wissenschaft-und-Forschung-2-96x96.jpg",96,96,true],"profile_150":["https:\/\/e3mag.com\/wp-content\/uploads\/2018\/05\/Wissenschaft-und-Forschung-2-150x150.jpg",150,150,true],"profile_300":["https:\/\/e3mag.com\/wp-content\/uploads\/2018\/05\/Wissenschaft-und-Forschung-2-300x300.jpg",300,300,true]},"post_excerpt_stackable_v2":"<p>Seit einigen Jahren sind Big Data und Data Science in aller Munde. H\u00e4nderingend werden Data Scientists gesucht, die mit mathematischen und statistischen Verfahren helfen, neue Zusammenh\u00e4nge in den Daten zu entdecken. <\/p>\n","category_list_v2":"<a href=\"https:\/\/e3mag.com\/es\/categoria\/investigacion-cientifica\/\" rel=\"category tag\">Wissenschaft &amp; Forschung<\/a>, <a href=\"https:\/\/e3mag.com\/es\/categoria\/mag-1805\/\" rel=\"category tag\">MAG 18-05<\/a>","author_info_v2":{"name":"Prof. Dr.-Ing. Peter Lehmann","url":"https:\/\/e3mag.com\/es\/author\/peter-lehmann\/"},"comments_num_v2":"0 comentarios","_links":{"self":[{"href":"https:\/\/e3mag.com\/es\/wp-json\/wp\/v2\/posts\/42349","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/e3mag.com\/es\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/e3mag.com\/es\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/e3mag.com\/es\/wp-json\/wp\/v2\/users\/1526"}],"replies":[{"embeddable":true,"href":"https:\/\/e3mag.com\/es\/wp-json\/wp\/v2\/comments?post=42349"}],"version-history":[{"count":0,"href":"https:\/\/e3mag.com\/es\/wp-json\/wp\/v2\/posts\/42349\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/e3mag.com\/es\/wp-json\/wp\/v2\/media\/42350"}],"wp:attachment":[{"href":"https:\/\/e3mag.com\/es\/wp-json\/wp\/v2\/media?parent=42349"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/e3mag.com\/es\/wp-json\/wp\/v2\/categories?post=42349"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/e3mag.com\/es\/wp-json\/wp\/v2\/tags?post=42349"},{"taxonomy":"author","embeddable":true,"href":"https:\/\/e3mag.com\/es\/wp-json\/wp\/v2\/coauthors?post=42349"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}