Qu'est-ce que le Big Data ?


Le plus grand obstacle au départ est le terme Big Data lui-même. La traduction directe "données de masse" ne concerne malheureusement qu'un aspect. Toutes les données normales issues du système ERP et d'autres bases de données sont également des données de masse.
En ce qui concerne le volume, il faut donc parler de quantités trop importantes pour les bases de données - trop importantes dans l'absolu ou en termes de coûts et d'avantages. Un autre aspect est le degré de structure des données.
Le système ERP contient 99 pour cent de données bien structurées. Les 1 % sont des textes libres comme une note de livraison. Avec le Big Data, c'est l'autre extrême et les informations passionnantes se trouvent dans les zones de données non structurées. Quand et où une photo a été prise, c'est intéressant, mais ce que l'image montre est incomparablement plus important.
Le type de traitement des données va également de pair. Si, dans le cas des bases de données, il s'agit d'une requête du type "total du chiffre d'affaires par mois", dans les exemples ci-dessus, on parle soudain d'analyse d'images et d'analyse de textes.
La définition la plus importante du big data est toutefois "toutes les données que l'on n'utilise pas aujourd'hui pour augmenter le bénéfice de l'entreprise". La créativité est ici de mise.
L'un de mes projets passés a permis d'écrire la charge de travail des serveurs dans le centre de calcul - dans le but de réduire le nombre de serveurs. Pour illustrer mon propos, je vais vous donner un exemple.
Il s'agit d'associer les ventes à l'information sur l'intensité avec laquelle les clients ont consulté le produit en question sur le site web. Par exemple, un produit fait l'objet d'une publicité dans les médias. Cette publicité est-elle perçue ?
Si c'est le cas, on devrait voir une augmentation du nombre de visites sur les pages de produits correspondantes. Les personnes intéressées lisent-elles brièvement la page du produit, sont-elles immédiatement convaincues et achètent-elles ensuite ? Ou lisent-ils très attentivement les données techniques et n'achètent-ils pas ?
Une fois que l'on a une idée des données qui doivent être analysées avec Big Data, il faut se poser la question d'une architecture porteuse d'avenir. Dans le domaine du big data justement, de nouveaux produits sont constamment développés pour remplacer les anciens. Il y a quelques années, Map Reduce sur Hadoop était le nec plus ultra, puis est arrivé Apache Spark, qui a de meilleures performances et une plus grande puissance.
Pendant longtemps, Apache Hive était la voie à suivre, aujourd'hui c'est Parquet Files. Dans un environnement aussi dynamique, je ne veux pas dépenser beaucoup d'argent pour une solution potentiellement utilisée à court terme et je veux aussi avoir l'ouverture pour pouvoir passer à quelque chose de nouveau à tout moment.
Apache Spark répond à ce besoin d'une solution à la fois puissante et ouverte, et c'est pourquoi il est utilisé dans presque tous les projets du monde.
L'installation est simple, des transformations complexes sont possibles avec moins de lignes de code et le logiciel ne coûte rien. Les grands frais seraient engagés pour cela lors de la mise en place d'un système de BI.
J'ai donc préféré ajouter les indicateurs calculés par Spark à l'entrepôt de données existant et permettre aux utilisateurs d'effectuer de nouvelles analyses à l'aide des outils existants - par exemple, corréler les ventes d'un produit avec le temps de lecture et le nombre de pages consultées.
Conclusion et avenir : jusqu'à récemment, le stockage et le traitement de données aussi secondaires n'étaient pas intéressants en termes de prix. Le volume des données était trop important, la densité des informations trop faible et la seule façon de traiter efficacement les données était d'utiliser des outils proches de la BD.
Ces arguments ne sont plus valables aujourd'hui. Avec le système de fichiers Apache Hadoop (HDFS), il est possible de former de grands systèmes de fichiers à partir de composants PC bon marché, au lieu d'acheter une baie de disques coûteuse.
Apache Spark peut traiter ces grandes quantités de données, avec les algorithmes complexes qui vont avec, y compris les méthodes statistiques et l'apprentissage automatique.
Et la solution : les outils du domaine de l'entrepôt de données, y compris ceux de SAP, se sont adaptés à cette situation et offrent un accès direct aux fichiers Hadoop ou envoient des tâches de transformation à un cluster Spark connecté. L'une de ces perles méconnues est le SAP Hana Spark Connector.