SAP Big Data - Qu'est-ce que le Big Data ?


Avec la traduction directe des données de masse, on ne touche qu'un aspect. Toutes les données normales issues du système ERP et d'autres bases de données sont également des données de masse.
En ce qui concerne le volume des données, il faut parler de quantités trop importantes pour les bases de données - trop importantes dans l'absolu ou en termes de coût/bénéfice.
L'aspect le plus intéressant est le degré de structure des données. Le système ERP contient à 99 % des données bien structurées, comme le champ MATART (type d'article) dans la table MARA (base de données articles).
Le premier pour cent, ce sont des textes libres comme une note de livraison. Avec le Big Data, c'est l'autre extrême et les informations passionnantes se trouvent dans les zones de données non structurées. Il est intéressant de savoir quand et où une photo a été prise, mais ce que l'image montre est incomparablement plus important.
Le type de traitement des données va également de pair. Si, dans le cas d'une base de données, il s'agit d'une requête du type "total des ventes par mois", dans l'exemple ci-dessus, on parle soudain d'analyse d'images.
Même dans les cas moins extrêmes, comme les fichiers journaux, les totalisations et les comptages ne sont pas simples. Les bases de données sont donc le pire choix pour de telles données.
La définition la plus importante du big data est toutefois "toutes les données que l'on n'utilise pas aujourd'hui pour augmenter les bénéfices de l'entreprise". Ici, la créativité est de mise. L'un de mes derniers projets a co-écrit l'utilisation des serveurs dans le centre de calcul - dans le but de réduire le nombre de serveurs.
Un exemple : les ventes doivent être associées à l'information sur l'intensité avec laquelle les clients ont consulté le produit en question sur le site web. Par exemple, un produit fait l'objet d'une publicité dans les médias.
Cette publicité est-elle perçue ? Si oui, on devrait voir une augmentation du nombre de visites sur les pages de produits correspondantes. Les personnes intéressées lisent brièvement la page du produit, sont immédiatement convaincues et achètent ensuite ?
Le serveur web enregistre déjà tous les accès aux pages dans des fichiers journaux, mais ils sont supprimés au bout d'une semaine. Les données nécessaires seraient donc disponibles, mais elles ne sont pas encore utilisées.
L'objectif est de maximiser l'efficacité et la flexibilité. Il y a quelques années, Map Reduce sur Hadoop était le nec plus ultra, puis Apache Spark est arrivé. Il pouvait faire plus, avec de meilleures performances et une plus grande puissance.
Pendant longtemps, Apache Hive était la voie à suivre, aujourd'hui c'est Parquet Files. Dans un environnement aussi dynamique, je ne veux pas dépenser beaucoup de ressources pour une solution potentiellement utilisée à court terme et je veux aussi avoir l'ouverture nécessaire pour pouvoir passer à quelque chose de nouveau à tout moment.
Actuellement, Apache Spark est une solution à la fois puissante et ouverte. Une ligne de code suffit pour décomposer les fichiers journaux du serveur web en lignes et en colonnes. Ce qui est plus compliqué, c'est de développer la logique permettant de déduire la durée de lecture par page à partir de l'historique des pages consultées.
Si j'ajoute finalement ces chiffres et d'autres à l'entrepôt de données, cela permet de réaliser des analyses combinées - par exemple, pour un produit, de visualiser les chiffres clés du chiffre d'affaires, de la durée de lecture et du nombre de pages consultées au fil du temps.
Jusqu'à récemment, le stockage et le traitement des données secondaires n'étaient pas intéressants en termes de prix. Le volume des données était trop important, la densité des informations trop faible et la seule façon de traiter efficacement les données était d'utiliser des outils proches des bases de données.
Avec le système de fichiers Apache Hadoop (HDFS), de grands systèmes de fichiers peuvent être formés à partir de composants PC bon marché, au lieu d'acheter une baie de disques coûteuse. Apache Spark peut traiter ces grandes quantités de données, avec les algorithmes complexes qui vont avec, y compris les méthodes statistiques et l'apprentissage automatique.
Les outils du domaine de l'entrepôt de données, y compris ceux de SAP, se sont adaptés à cette situation et offrent un accès direct aux fichiers Hadoop ou envoient des tâches de transformation à un cluster Spark connecté. Une manière très simple de lire des données à partir de Hana est de passer par le SAP Hana Spark Connector.