Information et éducation par et pour la communauté SAP

Scientifiques des données citoyennes

Depuis quelques années, le big data et la science des données sont sur toutes les lèvres. On recherche désespérément des data scientists qui aident à découvrir de nouvelles relations dans les données grâce à des méthodes mathématiques et statistiques.
Peter Lehmann, professeur et ingénieur
7 juin 2018
Science et recherche
avatar
Ce texte a été automatiquement traduit en français de l'allemand

Les analystes commerciaux évoluent dans des modèles de données structurés d'un entrepôt de données. Ils connaissent généralement bien les modèles de données et savent créer des requêtes sur les modèles de données via des outils frontaux (Excel, Tableau, SAP BO) afin de répondre à leurs besoins d'information.

La complexité des structures des bases de données est cachée par des outils modernes, les outils génèrent automatiquement le code de programmation nécessaire aux requêtes et permettent ainsi une certaine indépendance par rapport aux professionnels de l'informatique.

Les analystes commerciaux ont souvent fait des études de gestion, d'économie ou d'informatique de gestion et travaillent dans les domaines spécialisés ou à l'interface entre les domaines spécialisés et l'informatique.

Des lacs de données plutôt que des entrepôts

"Les données sont le nouveau pétrole". Ce slogan souvent utilisé dans la pratique décrit l'importance des données pour la numérisation croissante dans tous les domaines de la vie.

Des données sont collectées partout, lors de l'utilisation du smartphone, en passant par les capteurs de notre véhicule, jusqu'à l'application de la machine à café qui commande automatiquement les capsules à nouveau.

Au lieu des structures ordonnées d'un entrepôt de données, les données affluent désormais dans ce que l'on appelle un data lake. Un data lake est un entrepôt de données qui conserve une grande quantité de données dans leur format d'origine, jusqu'à ce qu'elles soient utilisées à un moment donné.

Comme il n'existe pas de schéma de données prédéfini, de nombreuses métadonnées relatives aux données sont stockées jusqu'à ce qu'une demande de données soit définie à un moment donné.

Par exemple, si une question commerciale se pose, il est possible de rechercher des données pertinentes dans le Data Lake et d'analyser ensuite de manière ciblée la quantité de données qui en résulte afin de contribuer à la résolution du problème commercial.

Dans la littérature spécialisée, l'"information" est souvent définie comme un savoir pertinent pour la prise de décision ou l'action. Les données deviennent donc des "informations" lorsqu'elles aident à résoudre un problème ou à prendre une décision.

Connaissances interdisciplinaires et IA

C'est précisément à cela que sert l'entrepôt de données. Les données y sont structurées et préparées de manière professionnelle afin que l'utilisateur puisse couvrir lui-même ses besoins en informations.

Dans le Data Lake, les structures d'information font d'abord défaut et doivent être découvertes et préparées par des experts. La découverte de ces structures et de ces relations nécessite des connaissances informatiques spécifiques, qui requièrent très souvent des méthodes mathématiques et statistiques, qui doivent en outre être intégrées dans des langages de programmation tels que R ou Python.

L'apprentissage automatique avec des méthodes issues de la discipline de "l'intelligence artificielle" fournit une aide. Il est évident qu'il faut pour cela des mathématiciens, des informaticiens, des scientifiques ou des techniciens (MINT) disposant d'un bon bagage théorique.

Non seulement il est très difficile de trouver des diplômés MINT, mais le fait qu'ils n'aient que peu de connaissances en gestion d'entreprise fait que la découverte de nouvelles relations dans les données du Data Lake est un problème majeur.

Il est donc logique de former l'analyste commercial bien formé et expérimenté à des méthodes choisies dans le domaine de la science des données et d'acquérir des outils spécialisés qui soutiennent ces méthodes avec une interface utilisateur facile à utiliser.

En 2015 déjà, la société d'études de marché Gartner a inventé dans un article le terme de "Citizen Data Scientist "1. Gartner parle ainsi d'une convergence entre Business Analytics et Predictive Analytics, qui peut aider les organisations à combler l'écart entre les fonctions d'analyse mathématique complexes et les procédés d'"intelligence artificielle".

Elle permettra donc également aux entreprises de faire des progrès significatifs tout au long du cycle de maturité de l'analyse décisionnelle. La convergence contribuera à ce que l'analyse prédictive touche un public plus large d'analystes commerciaux et donc de data scientists citoyens.

Un Citizen Data Scientist (CDS) est plus qu'un utilisateur expérimenté d'Excel qui sait examiner les tableaux croisés dynamiques. Un CDS est en mesure de reproduire méthodiquement les questions de gestion d'entreprise sur le processus de science des données, de comprendre l'importance critique de la qualité des données pour l'apprentissage automatique, d'évaluer et d'utiliser différents outils.

Il ne doit pas avoir peur d'utiliser un langage de programmation. Il s'agit moins de programmer des applications complexes que de scripter de petites parties de programme et d'utiliser et de paramétrer des algorithmes existants.

Un nouveau type d'indexation des données

Le processus d'acquisition de nouvelles connaissances pour le Data Scientist change complètement. Dans le data warehousing classique, un modèle multidimensionnel est d'abord créé en collaboration entre le service spécialisé et l'IT, puis un schéma est développé à partir de ce modèle pour un data mart.

Le schéma se compose en principe de ratios et d'attributs qui sont en relation avec les ratios. Les dimensions et les hiérarchies sont d'autres caractéristiques structurelles qui aident à structurer les exigences des utilisateurs professionnels.

Les structures sont ensuite remplies via un processus d'extraction, de transformation et de chargement. Le remplissage d'un schéma SAP Hana ou d'un fournisseur d'informations SAP BW, par exemple, n'est qu'une question technique.

Au premier plan se trouve un schéma convenu avec le service spécialisé, qui est rempli de données. Un data scientist procède en revanche de manière totalement différente. Les données issues de ses sources de données ne possèdent souvent pas de structure prédéfinie ou évidente au départ.

Ainsi, des fichiers CSV contenant des données de capteurs, des textes issus de médias sociaux ou des données géographiques provenant d'une application pour smartphone sont enregistrés dans le système de fichiers d'un Data Lake. Lorsqu'un utilisateur spécialisé s'adresse au Data Scientist avec son besoin d'informations, un processus d'exploration des données est déclenché, à l'issue duquel une structure de données adaptée aux outils d'analyse est créée.

Qu'il s'agisse d'une application de data mining ou de maintenance prédictive est certes important à ce stade, mais pas décisif.

Lors du processus d'élaboration des données, on commence par constituer un ensemble de données qui se prête "probablement" à l'analyse des données. C'est à partir de là que les problèmes commencent. Cette base de données doit d'abord être représentative, c'est-à-dire qu'elle doit contenir des caractéristiques et des données qui représentent le mieux possible le scénario d'application.

La plupart du temps, "toutes les données" ne conviennent pas aux applications d'analyse, car trop de valeurs aberrantes et de particularités fausseraient les résultats. Les données sont ensuite transformées de manière à "coller" aux besoins des outils d'analyse.

La qualité des données joue ici un rôle décisif. L'outil d'analyse d'un data scientist "apprend" sur la base des données qu'il doit expertiser. La qualité des données n'a en principe aucune importance pour l'outil. Il "apprend" par exemple que le nombre d'abonnés à une newsletter provenant d'"Afghanistan" est supérieur à la moyenne.

La raison en est évidemment que "Afghanistan" figure en première position dans la liste des pays figurant dans le masque de connexion d'un site web. Malheureusement, de telles constellations de données ne sont souvent pas aussi évidentes que dans cet exemple.

La qualité des données est essentielle

Un projet de recherche mené dans le cadre d'une collaboration entre la Hochschule der Medien de Stuttgart et Uniserv a montré avec quelle facilité la mesure de la qualité d'un outil d'analyse peut être annulée en raison de la mauvaise qualité des données.

Pour ce faire, des scénarios ont été créés dans le cadre d'un partenariat qui a permis d'effectuer un "learning" avec des données de haute qualité ainsi qu'avec des données de mauvaise qualité. Le processus qui produit des données de haute qualité est appelé "Ground Truth".

Ce terme a été créé à l'origine par le MIT et développé dans le cadre du projet de recherche. Il s'agissait d'enrichir les données de base des clients avec des données de transaction qui avaient été préalablement soumises à un ensemble de règles de qualité des données.

Il en résulte un ensemble de données contenant à la fois des données de base et des données de transaction, ce qui permet de créer un profil précis d'un client. À la fin du processus de création de données, on obtient une structure de données qui est transmise à l'outil d'analyse.

Souvent, les résultats produits ne sont pas satisfaisants au départ. Il faut alors ajouter d'autres attributs ou d'autres données au pool de données pour l'analyse.

Le processus d'exploration des données pour la création de la vérité terrain recommence donc depuis le début. C'est pourquoi les composants logiciels pour le processus de création de données jouent un rôle crucial pour le data scientist. Sans une qualité de données appropriée, aucune analyse prédictive fiable n'est possible.

En raison du besoin urgent et de l'impérieuse nécessité de comprendre les données comme un actif de l'entreprise et d'exploiter le potentiel qu'elles contiennent, de plus en plus d'universités publiques et d'entreprises proposent des formations de Citizen Data Scientist.

Il faut veiller à ce qu'il y ait un mélange équilibré entre la théorie et des scénarios d'application proches de la pratique avec des manipulations. L'échange en équipe avec des analystes commerciaux d'autres entreprises doit être une évidence, tout comme l'utilisation de systèmes informatiques de différents fabricants.

La Haute école des médias de Stuttgart propose une formation professionnelle continue axée sur l'application pour devenir Citizen Data Scientist.

 

[1] Predicts 2015 : A Step Change in the Industrialization of Advanced Analytics, https://www.gartner.com/doc/2930917/predicts-step-change-industrialization, consulté le
26 février 2018

avatar
Peter Lehmann, professeur et ingénieur

Peter Lehmann est professeur d'informatique de gestion, en particulier de Business Intelligence, à la Hochschule der Medien, Stuttgart.


Écrire un commentaire

Le travail sur la base SAP est essentiel pour réussir la conversion S/4. 

Ce que l'on appelle le centre de compétences prend ainsi une importance stratégique chez les clients existants de SAP. Indépendamment du modèle d'exploitation d'un S/4 Hana, les thèmes tels que Automatisation, Suivi, Sécurité, Gestion du cycle de vie des applications et Gestion des données la base de l'exploitation opérationnelle de S/4.

Pour la quatrième fois déjà, le magazine E3 organise à Salzbourg un sommet pour la communauté SAP afin de s'informer en détail sur tous les aspects du travail de base de S/4-Hana.

Lieu de la manifestation

FourSide Hôtel Salzbourg,
Trademark Collection by Wyndham
Am Messezentrum 2, 5020 Salzbourg, Autriche
+43-66-24355460

Date de l'événement

mercredi 10 juin, et
Jeudi 11 juin 2026

Billet d'entrée anticipé

Billet régulier

Abonnés au magazine E3 Ticket

à prix réduit avec le Promocode CCAbo26

Étudiants*

à prix réduit avec le Promocode CCStud26.
Veuillez envoyer votre certificat d'études par e-mail à office@b4bmedia.net.
*Les 10 premiers billets sont gratuits pour les étudiants. Tentez votre chance ! 🍀
EUR 390 hors TVA
disponible jusqu'au 20 décembre 2025
EUR 590 hors TVA
EUR 390 hors TVA
EUR 290 hors TVA

Lieu de la manifestation

Hôtel Hilton Heidelberg
Kurfürstenanlage 1
D-69115 Heidelberg

Date de l'événement

mercredi 22 avril et
Jeudi 23 avril 2026

Billets

Billet d'entrée anticipé
Billet régulier
EUR 390 hors TVA
disponible jusqu'au 20/12/2025
EUR 590 hors TVA
Abonnés au magazine E3
à prix réduit avec le Promocode STAbo26
EUR 390 hors TVA
Étudiants*
à prix réduit avec le Promocode STStud26.
Veuillez envoyer votre certificat d'études par e-mail à office@b4bmedia.net.
EUR 290 hors TVA
*Les 10 premiers billets sont gratuits pour les étudiants. Tentez votre chance ! 🍀
L'organisateur est le magazine E3 de la maison d'édition B4Bmedia.net AG. Les conférences seront accompagnées d'une exposition de partenaires SAP sélectionnés. Le prix du billet comprend la participation à toutes les conférences du Steampunk and BTP Summit 2026, la visite de l'espace d'exposition, la participation à la soirée et les repas pendant le programme officiel. Le programme des conférences et la liste des exposants et des sponsors (partenaires SAP) seront publiés en temps utile sur ce site.