Information et éducation par et pour la communauté SAP

La technique d'un Data Lake

Dans un entrepôt de données, les données sont stockées dans une base de données relationnelle. Cela coûte cher et c'est pourquoi il existe des produits issus du monde des Big Data qui s'attaquent à ce problème. Parquet, Hive, SAP Vora et Exasol sont les représentants les plus connus dans l'environnement SAP.
Werner Dähn, rtdi.io
9 janvier 2020
Intégration de données intelligentes et big data
avatar
Ce texte a été automatiquement traduit en français de l'allemand

En général, je diviserais les options de stockage des données en trois catégories. Files : les données sont stockées sous forme de fichiers simples et utilisées comme des tableaux.

Ces fichiers devraient avoir des informations sur la structure et devraient également être indexés en eux-mêmes. Le format de fichier parquet est un représentant de cette catégorie.

Processus de base de données : au lieu de travailler directement avec les fichiers, un service actif se trouve par-dessus et il se sent comme une base de données. Il s'occupe de la mise en cache des données souvent utilisées et peut être interrogé via ODBC/JDBC. Un représentant typique de ce genre dans le monde des Big Data est Apache Hive.

In-memory : pour une performance maximale, on place toutes les données en mémoire, on les indexe et on construit ainsi quelque chose de similaire à Hana. Exasol et SAP Vora fonctionnent selon ce principe.

Le monde des Big Data vit uniquement du fait que de nombreux petits serveurs (et donc bon marché) forment un système global. On peut ainsi évoluer à l'infini, les coûts de matériel n'augmentant que de manière linéaire.

Mais plus il y a de nœuds dans le système global, plus leur synchronisation est coûteuse. Une jointure de trois tables, voire plus, peut signifier que chaque nœud doit aller chercher les résultats intermédiaires appropriés de la jointure précédente et que la requête dure des heures.

Ce problème s'appelle le "reshuffle". Le fait que les données soient en mémoire n'aide évidemment pas non plus à la redistribution des résultats intermédiaires sur le réseau.

Hana, quant à elle, est une véritable base de données. Elle est extrêmement rapide pour les recherches. Les performances de jointure sont excellentes, on a une cohérence transactionnelle totale en lecture et en écriture. Tout cela demande beaucoup de synchronisation.

En revanche, une telle base de données ne s'adapte pas indéfiniment. De nombreux projets résolvent le dilemme du "reshuffle" en stockant les données de manière optimisée pour certaines requêtes. Cela réduit à nouveau la flexibilité et augmente les coûts, c'est-à-dire précisément les points que l'on souhaitait avoir comme avantage d'un Data Lake.

Le coût de synchronisation de la cohérence des transactions est un problème logique. Il ne peut pas être résolu sans imposer des exigences plus souples, telles que la "cohérence éventuelle".

Ce problème est appelé théorème CAP. Parmi les trois exigences Consistency-Availability-Partitioning, tous les points ne peuvent jamais être atteints, en particulier en cas d'erreur.

Un système hautement disponible et distribué doit faire des concessions sur la cohérence des données, un système de base de données transactionnel doit faire des concessions sur la disponibilité ou l'évolutivité.

Les données présentes dans les Big Data sont des données brutes qui se transforment en informations par des transformations non-SQL - ainsi, un entrepôt de données basé sur les Big Data avec des requêtes SQL n'a pas de sens.

Le Data Lake est le terrain de jeu du Data Scientist. Cette personne peut y accéder facilement à des données qui ont été supprimées auparavant ou auxquelles on ne pouvait accéder que difficilement.

Le data scientist peut gérer tous les problèmes liés aux techniques de big data : La sémantique des données ; la lenteur des performances ; et quelles données il y a. Mélanger des données Big Data et des données commerciales ? Pas de problème pour lui.

Coupler Hana avec Vora n'a pas beaucoup de sens selon ce raisonnement. Tous deux stockent les données en mémoire et permettent des recherches rapides - à un coût correspondant. Les deux ont un stockage à chaud sur disque (base de données Sybase), les deux se concentrent sur les requêtes SQL. Vora n'est d'ailleurs plus un produit autonome sur la liste de prix de SAP.

En revanche, les fichiers parquet et une base de données se complètent parfaitement. Les fichiers parquet dans un Data Lake ne coûtent pratiquement rien en termes de stockage, alors que dans une base de données, l'espace de stockage coûte cher.

Une base de données comme Hana est excellente pour les jointures et les requêtes SQL compliquées, mais pour un cluster de calcul, ce sont précisément ces opérations qui sont les plus coûteuses.

La combinaison des deux donne donc des requêtes rapides de Business Intelligence et un accès confortable à toutes les données brutes. Les deux apportent leurs points forts.

avatar
Werner Dähn, rtdi.io

Werner Dähn est spécialiste de l'intégration des données et directeur de rtdi.io.


Écrire un commentaire

Le travail sur la base SAP est essentiel pour réussir la conversion S/4. 

Ce que l'on appelle le centre de compétences prend ainsi une importance stratégique chez les clients existants de SAP. Indépendamment du modèle d'exploitation d'un S/4 Hana, les thèmes tels que Automatisation, Suivi, Sécurité, Gestion du cycle de vie des applications et Gestion des données la base de l'exploitation opérationnelle de S/4.

Pour la deuxième fois déjà, le magazine E3 organise à Salzbourg un sommet pour la communauté SAP afin de s'informer en détail sur tous les aspects du travail de base de S/4-Hana.

Lieu de la manifestation

FourSide Hôtel Salzbourg,
Trademark Collection by Wyndham
Am Messezentrum 2, 5020 Salzbourg, Autriche
+43-66-24355460

Date de l'événement

mercredi 10 juin, et
Jeudi 11 juin 2026

Billet d'entrée anticipé

Billet régulier

EUR 390 hors TVA
disponible jusqu'au 1.10.2025
EUR 590 hors TVA

Lieu de la manifestation

Hôtel Hilton Heidelberg
Kurfürstenanlage 1
D-69115 Heidelberg

Date de l'événement

mercredi 22 avril et
Jeudi 23 avril 2026

Billets

Billet régulier
EUR 590 hors TVA
Abonnés au magazine E3
à prix réduit avec le Promocode STAbo26
EUR 390 hors TVA
Étudiants*
à prix réduit avec le Promocode STStud26.
Veuillez envoyer votre certificat d'études par e-mail à office@b4bmedia.net.
EUR 290 hors TVA
*Les 10 premiers billets sont gratuits pour les étudiants. Tentez votre chance ! 🍀
L'organisateur est le magazine E3 de la maison d'édition B4Bmedia.net AG. Les conférences seront accompagnées d'une exposition de partenaires SAP sélectionnés. Le prix du billet comprend la participation à toutes les conférences du Steampunk and BTP Summit 2026, la visite de l'espace d'exposition, la participation à la soirée et les repas pendant le programme officiel. Le programme des conférences et la liste des exposants et des sponsors (partenaires SAP) seront publiés en temps utile sur ce site.