Information et éducation par et pour la communauté SAP

Qu'est-ce que le Big Data ?

De nombreuses entreprises en sont à leurs débuts en matière de Big Data. On a de premières idées. On explore le potentiel. SAP aussi a des approches différentes du sujet, selon le service avec lequel on parle.
Werner Dähn, rtdi.io
31 octobre 2019
Intégration de données intelligentes et big data
avatar
Ce texte a été automatiquement traduit en français de l'allemand

Le plus grand obstacle au départ est le terme Big Data lui-même. La traduction directe "données de masse" ne concerne malheureusement qu'un aspect. Toutes les données normales issues du système ERP et d'autres bases de données sont également des données de masse.

En ce qui concerne le volume, il faut donc parler de quantités trop importantes pour les bases de données - trop importantes dans l'absolu ou en termes de coûts et d'avantages. Un autre aspect est le degré de structure des données.

Le système ERP contient 99 pour cent de données bien structurées. Les 1 % sont des textes libres comme une note de livraison. Avec le Big Data, c'est l'autre extrême et les informations passionnantes se trouvent dans les zones de données non structurées. Quand et où une photo a été prise, c'est intéressant, mais ce que l'image montre est incomparablement plus important.

Le type de traitement des données va également de pair. Si, dans le cas des bases de données, il s'agit d'une requête du type "total du chiffre d'affaires par mois", dans les exemples ci-dessus, on parle soudain d'analyse d'images et d'analyse de textes.

La définition la plus importante du big data est toutefois "toutes les données que l'on n'utilise pas aujourd'hui pour augmenter le bénéfice de l'entreprise". La créativité est ici de mise.

L'un de mes projets passés a permis d'écrire la charge de travail des serveurs dans le centre de calcul - dans le but de réduire le nombre de serveurs. Pour illustrer mon propos, je vais vous donner un exemple.

Il s'agit d'associer les ventes à l'information sur l'intensité avec laquelle les clients ont consulté le produit en question sur le site web. Par exemple, un produit fait l'objet d'une publicité dans les médias. Cette publicité est-elle perçue ?

Si c'est le cas, on devrait voir une augmentation du nombre de visites sur les pages de produits correspondantes. Les personnes intéressées lisent-elles brièvement la page du produit, sont-elles immédiatement convaincues et achètent-elles ensuite ? Ou lisent-ils très attentivement les données techniques et n'achètent-ils pas ?

Une fois que l'on a une idée des données qui doivent être analysées avec Big Data, il faut se poser la question d'une architecture porteuse d'avenir. Dans le domaine du big data justement, de nouveaux produits sont constamment développés pour remplacer les anciens. Il y a quelques années, Map Reduce sur Hadoop était le nec plus ultra, puis est arrivé Apache Spark, qui a de meilleures performances et une plus grande puissance.

Pendant longtemps, Apache Hive était la voie à suivre, aujourd'hui c'est Parquet Files. Dans un environnement aussi dynamique, je ne veux pas dépenser beaucoup d'argent pour une solution potentiellement utilisée à court terme et je veux aussi avoir l'ouverture pour pouvoir passer à quelque chose de nouveau à tout moment.

Apache Spark répond à ce besoin d'une solution à la fois puissante et ouverte, et c'est pourquoi il est utilisé dans presque tous les projets du monde.

L'installation est simple, des transformations complexes sont possibles avec moins de lignes de code et le logiciel ne coûte rien. Les grands frais seraient engagés pour cela lors de la mise en place d'un système de BI.

J'ai donc préféré ajouter les indicateurs calculés par Spark à l'entrepôt de données existant et permettre aux utilisateurs d'effectuer de nouvelles analyses à l'aide des outils existants - par exemple, corréler les ventes d'un produit avec le temps de lecture et le nombre de pages consultées.

Conclusion et avenir : jusqu'à récemment, le stockage et le traitement de données aussi secondaires n'étaient pas intéressants en termes de prix. Le volume des données était trop important, la densité des informations trop faible et la seule façon de traiter efficacement les données était d'utiliser des outils proches de la BD.

Ces arguments ne sont plus valables aujourd'hui. Avec le système de fichiers Apache Hadoop (HDFS), il est possible de former de grands systèmes de fichiers à partir de composants PC bon marché, au lieu d'acheter une baie de disques coûteuse.

Apache Spark peut traiter ces grandes quantités de données, avec les algorithmes complexes qui vont avec, y compris les méthodes statistiques et l'apprentissage automatique.

Et la solution : les outils du domaine de l'entrepôt de données, y compris ceux de SAP, se sont adaptés à cette situation et offrent un accès direct aux fichiers Hadoop ou envoient des tâches de transformation à un cluster Spark connecté. L'une de ces perles méconnues est le SAP Hana Spark Connector.

avatar
Werner Dähn, rtdi.io

Werner Dähn est spécialiste de l'intégration des données et directeur de rtdi.io.


Écrire un commentaire

Le travail sur la base SAP est essentiel pour réussir la conversion S/4. 

Ce que l'on appelle le centre de compétences prend ainsi une importance stratégique chez les clients existants de SAP. Indépendamment du modèle d'exploitation d'un S/4 Hana, les thèmes tels que Automatisation, Suivi, Sécurité, Gestion du cycle de vie des applications et Gestion des données la base de l'exploitation opérationnelle de S/4.

Pour la deuxième fois déjà, le magazine E3 organise à Salzbourg un sommet pour la communauté SAP afin de s'informer en détail sur tous les aspects du travail de base de S/4-Hana.

Lieu de la manifestation

FourSide Hôtel Salzbourg,
Trademark Collection by Wyndham
Am Messezentrum 2, 5020 Salzbourg, Autriche
+43-66-24355460

Date de l'événement

mercredi 10 juin, et
Jeudi 11 juin 2026

Billet d'entrée anticipé

Billet régulier

EUR 390 hors TVA
disponible jusqu'au 1.10.2025
EUR 590 hors TVA

Lieu de la manifestation

Hôtel Hilton Heidelberg
Kurfürstenanlage 1
D-69115 Heidelberg

Date de l'événement

mercredi 22 avril et
Jeudi 23 avril 2026

Billets

Billet régulier
EUR 590 hors TVA
Abonnés au magazine E3
à prix réduit avec le Promocode STAbo26
EUR 390 hors TVA
Étudiants*
à prix réduit avec le Promocode STStud26.
Veuillez envoyer votre certificat d'études par e-mail à office@b4bmedia.net.
EUR 290 hors TVA
*Les 10 premiers billets sont gratuits pour les étudiants. Tentez votre chance ! 🍀
L'organisateur est le magazine E3 de la maison d'édition B4Bmedia.net AG. Les conférences seront accompagnées d'une exposition de partenaires SAP sélectionnés. Le prix du billet comprend la participation à toutes les conférences du Steampunk and BTP Summit 2026, la visite de l'espace d'exposition, la participation à la soirée et les repas pendant le programme officiel. Le programme des conférences et la liste des exposants et des sponsors (partenaires SAP) seront publiés en temps utile sur ce site.