Information et éducation par et pour la communauté SAP

Architecture Big Data

Le big data est un sujet important, mais la multitude de possibilités est écrasante. Chaque fournisseur de logiciels propose des produits différents et poursuit des objectifs différents. J'aimerais apporter un peu de structure dans cette jungle et faciliter le démarrage.
Werner Dähn, rtdi.io
2 octobre 2019
Intégration de données intelligentes et big data
avatar
Ce texte a été automatiquement traduit en français de l'allemand

En tant qu'architecte de logiciels, mon objectif est de réaliser des tâches compliquées par le biais de solutions simples. Les différents éléments d'une solution ont chacun des avantages et des inconvénients, l'art consiste à les combiner de manière à ce que la somme des avantages soit conservée et que les inconvénients s'annulent mutuellement.

Pour de nombreux utilisateurs SAP, il s'agira dans un premier temps de permettre l'Analytics avec Big Data, c'est-à-dire de trouver des informations intéressantes dans ces énormes quantités de données.

Mais au lieu de construire une infrastructure entièrement nouvelle pour les utilisateurs, je combine le système de big data avec l'entrepôt de données existant.

Le Data Scientist reçoit le Data Lake, une zone de données dans laquelle se trouvent toutes les données brutes, et un outil puissant qui lui permet également de préparer ces données brutes. Le résultat de ses activités sont de nouveaux indicateurs que j'ajoute dans le data warehouse. Cela présente plusieurs avantages :

  • L'utilisateur professionnel continue à utiliser ses outils habituels pour l'analyse, mais il dispose désormais de plus d'indicateurs.
  • Le Data Scientist a accès à toutes les données, Big Data et données ERP.
  • Pour l'IT, l'effort est gérable.

Cette solution est également intéressante du point de vue des coûts par rapport aux avantages et aux probabilités de réussite : en m'appuyant sur ce qui existe déjà, j'ai une portée de projet réduite, donc un risque de projet minimisé et une mise en œuvre moins coûteuse, tout en exploitant pleinement les avantages potentiels.

Ainsi, une solution Big Data ne se compose plus que de deux éléments : le Data Lake avec les données brutes et un cluster de serveurs dans lequel se fait la préparation des données.

Data Lake ou SAP Vora

Par le passé, SAP a proposé SAP Vora comme Data Lake et commercialise la solution Altiscale sous le nom de Big Data Services. Mais au fond, le Data Lake n'est qu'un grand système de fichiers. Si malgré tout, le service commercial de SAP propose Vora, Altiscale ou DataHub, il convient de poser un regard très critique sur le prix et la prestation.

Pourquoi ne pas commencer tout simplement dans la première phase du projet avec un disque dur local ou le serveur de fichiers central ? Tant qu'il y a suffisamment de place et que le coût de l'espace de stockage n'est pas trop élevé, c'est tout à fait valable. Copier les fichiers peut se faire à tout moment et sans problème, c'est pourquoi je ne bloque rien pour l'avenir.

Préparation avec Apache Spark

Pour le traitement de ces données, la plupart des projets utilisent aujourd'hui le framework open source Apache Spark. Il permet d'écrire en quelques lignes de code des programmes pour la préparation des données et de les exécuter en parallèle dans un cluster de serveurs.

Il n'y a aucune raison pour moi de réinventer la roue, d'autant plus qu'une telle installation est très simple et peut être effectuée en dix minutes : télécharger le paquet sur un petit ordinateur Linux, l'extraire et lancer un maître et un premier travailleur via la commande start-all.

Défi : algorithme

La technique est gérable avec l'approche ci-dessus. C'est le développement des algorithmes pour les nouveaux indicateurs qui est la partie la plus difficile : comment obtenir des informations à partir des données de masse, qui se traduiront finalement par des bénéfices pour l'entreprise ?

C'est précisément là que se joue la réussite d'un projet de big data. C'est pourquoi je pense qu'il est judicieux d'investir dans ce domaine, par exemple dans la formation de data scientists.

Dans les chroniques suivantes, je répondrai entre autres aux questions suivantes : Pourquoi utiliser Apache Spark et non un outil ETL ? Pourquoi a-t-on besoin du Data Lake alors que les données se trouvent déjà dans le Data Warehouse ? Etc.

avatar
Werner Dähn, rtdi.io

Werner Dähn est spécialiste de l'intégration des données et directeur de rtdi.io.


Écrire un commentaire

Le travail sur la base SAP est essentiel pour réussir la conversion S/4. 

Ce que l'on appelle le centre de compétences prend ainsi une importance stratégique chez les clients existants de SAP. Indépendamment du modèle d'exploitation d'un S/4 Hana, les thèmes tels que Automatisation, Suivi, Sécurité, Gestion du cycle de vie des applications et Gestion des données la base de l'exploitation opérationnelle de S/4.

Pour la deuxième fois déjà, le magazine E3 organise à Salzbourg un sommet pour la communauté SAP afin de s'informer en détail sur tous les aspects du travail de base de S/4-Hana.

Lieu de la manifestation

FourSide Hôtel Salzbourg,
Trademark Collection by Wyndham
Am Messezentrum 2, 5020 Salzbourg, Autriche
+43-66-24355460

Date de l'événement

mercredi 10 juin, et
Jeudi 11 juin 2026

Billet d'entrée anticipé

Billet régulier

EUR 390 hors TVA
disponible jusqu'au 1.10.2025
EUR 590 hors TVA

Lieu de la manifestation

Hôtel Hilton Heidelberg
Kurfürstenanlage 1
D-69115 Heidelberg

Date de l'événement

mercredi 22 avril et
Jeudi 23 avril 2026

Billets

Billet régulier
EUR 590 hors TVA
Abonnés au magazine E3
à prix réduit avec le Promocode STAbo26
EUR 390 hors TVA
Étudiants*
à prix réduit avec le Promocode STStud26.
Veuillez envoyer votre certificat d'études par e-mail à office@b4bmedia.net.
EUR 290 hors TVA
*Les 10 premiers billets sont gratuits pour les étudiants. Tentez votre chance ! 🍀
L'organisateur est le magazine E3 de la maison d'édition B4Bmedia.net AG. Les conférences seront accompagnées d'une exposition de partenaires SAP sélectionnés. Le prix du billet comprend la participation à toutes les conférences du Steampunk and BTP Summit 2026, la visite de l'espace d'exposition, la participation à la soirée et les repas pendant le programme officiel. Le programme des conférences et la liste des exposants et des sponsors (partenaires SAP) seront publiés en temps utile sur ce site.