Scientifiques des données citoyennes


Les analystes commerciaux évoluent dans des modèles de données structurés d'un entrepôt de données. Ils connaissent généralement bien les modèles de données et savent créer des requêtes sur les modèles de données via des outils frontaux (Excel, Tableau, SAP BO) afin de répondre à leurs besoins d'information.
La complexité des structures des bases de données est cachée par des outils modernes, les outils génèrent automatiquement le code de programmation nécessaire aux requêtes et permettent ainsi une certaine indépendance par rapport aux professionnels de l'informatique.
Les analystes commerciaux ont souvent fait des études de gestion, d'économie ou d'informatique de gestion et travaillent dans les domaines spécialisés ou à l'interface entre les domaines spécialisés et l'informatique.
Des lacs de données plutôt que des entrepôts
"Les données sont le nouveau pétrole". Ce slogan souvent utilisé dans la pratique décrit l'importance des données pour la numérisation croissante dans tous les domaines de la vie.
Des données sont collectées partout, lors de l'utilisation du smartphone, en passant par les capteurs de notre véhicule, jusqu'à l'application de la machine à café qui commande automatiquement les capsules à nouveau.
Au lieu des structures ordonnées d'un entrepôt de données, les données affluent désormais dans ce que l'on appelle un data lake. Un data lake est un entrepôt de données qui conserve une grande quantité de données dans leur format d'origine, jusqu'à ce qu'elles soient utilisées à un moment donné.
Comme il n'existe pas de schéma de données prédéfini, de nombreuses métadonnées relatives aux données sont stockées jusqu'à ce qu'une demande de données soit définie à un moment donné.
Par exemple, si une question commerciale se pose, il est possible de rechercher des données pertinentes dans le Data Lake et d'analyser ensuite de manière ciblée la quantité de données qui en résulte afin de contribuer à la résolution du problème commercial.
Dans la littérature spécialisée, l'"information" est souvent définie comme un savoir pertinent pour la prise de décision ou l'action. Les données deviennent donc des "informations" lorsqu'elles aident à résoudre un problème ou à prendre une décision.
Connaissances interdisciplinaires et IA
C'est précisément à cela que sert l'entrepôt de données. Les données y sont structurées et préparées de manière professionnelle afin que l'utilisateur puisse couvrir lui-même ses besoins en informations.
Dans le Data Lake, les structures d'information font d'abord défaut et doivent être découvertes et préparées par des experts. La découverte de ces structures et de ces relations nécessite des connaissances informatiques spécifiques, qui requièrent très souvent des méthodes mathématiques et statistiques, qui doivent en outre être intégrées dans des langages de programmation tels que R ou Python.
L'apprentissage automatique avec des méthodes issues de la discipline de "l'intelligence artificielle" fournit une aide. Il est évident qu'il faut pour cela des mathématiciens, des informaticiens, des scientifiques ou des techniciens (MINT) disposant d'un bon bagage théorique.
Non seulement il est très difficile de trouver des diplômés MINT, mais le fait qu'ils n'aient que peu de connaissances en gestion d'entreprise fait que la découverte de nouvelles relations dans les données du Data Lake est un problème majeur.
Il est donc logique de former l'analyste commercial bien formé et expérimenté à des méthodes choisies dans le domaine de la science des données et d'acquérir des outils spécialisés qui soutiennent ces méthodes avec une interface utilisateur facile à utiliser.
En 2015 déjà, la société d'études de marché Gartner a inventé dans un article le terme de "Citizen Data Scientist "1. Gartner parle ainsi d'une convergence entre Business Analytics et Predictive Analytics, qui peut aider les organisations à combler l'écart entre les fonctions d'analyse mathématique complexes et les procédés d'"intelligence artificielle".
Elle permettra donc également aux entreprises de faire des progrès significatifs tout au long du cycle de maturité de l'analyse décisionnelle. La convergence contribuera à ce que l'analyse prédictive touche un public plus large d'analystes commerciaux et donc de data scientists citoyens.
Un Citizen Data Scientist (CDS) est plus qu'un utilisateur expérimenté d'Excel qui sait examiner les tableaux croisés dynamiques. Un CDS est en mesure de reproduire méthodiquement les questions de gestion d'entreprise sur le processus de science des données, de comprendre l'importance critique de la qualité des données pour l'apprentissage automatique, d'évaluer et d'utiliser différents outils.
Il ne doit pas avoir peur d'utiliser un langage de programmation. Il s'agit moins de programmer des applications complexes que de scripter de petites parties de programme et d'utiliser et de paramétrer des algorithmes existants.
Un nouveau type d'indexation des données
Le processus d'acquisition de nouvelles connaissances pour le Data Scientist change complètement. Dans le data warehousing classique, un modèle multidimensionnel est d'abord créé en collaboration entre le service spécialisé et l'IT, puis un schéma est développé à partir de ce modèle pour un data mart.
Le schéma se compose en principe de ratios et d'attributs qui sont en relation avec les ratios. Les dimensions et les hiérarchies sont d'autres caractéristiques structurelles qui aident à structurer les exigences des utilisateurs professionnels.
Les structures sont ensuite remplies via un processus d'extraction, de transformation et de chargement. Le remplissage d'un schéma SAP Hana ou d'un fournisseur d'informations SAP BW, par exemple, n'est qu'une question technique.
Au premier plan se trouve un schéma convenu avec le service spécialisé, qui est rempli de données. Un data scientist procède en revanche de manière totalement différente. Les données issues de ses sources de données ne possèdent souvent pas de structure prédéfinie ou évidente au départ.
Ainsi, des fichiers CSV contenant des données de capteurs, des textes issus de médias sociaux ou des données géographiques provenant d'une application pour smartphone sont enregistrés dans le système de fichiers d'un Data Lake. Lorsqu'un utilisateur spécialisé s'adresse au Data Scientist avec son besoin d'informations, un processus d'exploration des données est déclenché, à l'issue duquel une structure de données adaptée aux outils d'analyse est créée.
Qu'il s'agisse d'une application de data mining ou de maintenance prédictive est certes important à ce stade, mais pas décisif.
Lors du processus d'élaboration des données, on commence par constituer un ensemble de données qui se prête "probablement" à l'analyse des données. C'est à partir de là que les problèmes commencent. Cette base de données doit d'abord être représentative, c'est-à-dire qu'elle doit contenir des caractéristiques et des données qui représentent le mieux possible le scénario d'application.
La plupart du temps, "toutes les données" ne conviennent pas aux applications d'analyse, car trop de valeurs aberrantes et de particularités fausseraient les résultats. Les données sont ensuite transformées de manière à "coller" aux besoins des outils d'analyse.
La qualité des données joue ici un rôle décisif. L'outil d'analyse d'un data scientist "apprend" sur la base des données qu'il doit expertiser. La qualité des données n'a en principe aucune importance pour l'outil. Il "apprend" par exemple que le nombre d'abonnés à une newsletter provenant d'"Afghanistan" est supérieur à la moyenne.
La raison en est évidemment que "Afghanistan" figure en première position dans la liste des pays figurant dans le masque de connexion d'un site web. Malheureusement, de telles constellations de données ne sont souvent pas aussi évidentes que dans cet exemple.
La qualité des données est essentielle
Un projet de recherche mené dans le cadre d'une collaboration entre la Hochschule der Medien de Stuttgart et Uniserv a montré avec quelle facilité la mesure de la qualité d'un outil d'analyse peut être annulée en raison de la mauvaise qualité des données.
Pour ce faire, des scénarios ont été créés dans le cadre d'un partenariat qui a permis d'effectuer un "learning" avec des données de haute qualité ainsi qu'avec des données de mauvaise qualité. Le processus qui produit des données de haute qualité est appelé "Ground Truth".
Ce terme a été créé à l'origine par le MIT et développé dans le cadre du projet de recherche. Il s'agissait d'enrichir les données de base des clients avec des données de transaction qui avaient été préalablement soumises à un ensemble de règles de qualité des données.
Il en résulte un ensemble de données contenant à la fois des données de base et des données de transaction, ce qui permet de créer un profil précis d'un client. À la fin du processus de création de données, on obtient une structure de données qui est transmise à l'outil d'analyse.
Souvent, les résultats produits ne sont pas satisfaisants au départ. Il faut alors ajouter d'autres attributs ou d'autres données au pool de données pour l'analyse.
Le processus d'exploration des données pour la création de la vérité terrain recommence donc depuis le début. C'est pourquoi les composants logiciels pour le processus de création de données jouent un rôle crucial pour le data scientist. Sans une qualité de données appropriée, aucune analyse prédictive fiable n'est possible.
En raison du besoin urgent et de l'impérieuse nécessité de comprendre les données comme un actif de l'entreprise et d'exploiter le potentiel qu'elles contiennent, de plus en plus d'universités publiques et d'entreprises proposent des formations de Citizen Data Scientist.
Il faut veiller à ce qu'il y ait un mélange équilibré entre la théorie et des scénarios d'application proches de la pratique avec des manipulations. L'échange en équipe avec des analystes commerciaux d'autres entreprises doit être une évidence, tout comme l'utilisation de systèmes informatiques de différents fabricants.
La Haute école des médias de Stuttgart propose une formation professionnelle continue axée sur l'application pour devenir Citizen Data Scientist.
[1] Predicts 2015 : A Step Change in the Industrialization of Advanced Analytics, https://www.gartner.com/doc/2930917/predicts-step-change-industrialization, consulté le
26 février 2018




