Fin du chaos des données


Le problème
Jay Kreps est le fondateur et CEO de Confluent et l'un des auteurs originaux du projet open source Apache Kafka. Il tente de résoudre un problème que beaucoup connaissent : les données ne sont pas à jour, les connexions sont fragiles et c'est une lutte permanente pour exploiter pleinement les données, car il n'existe pas de structure unique pour organiser les données entre les différents secteurs d'une entreprise. Un système est en place depuis le début, puis de nouvelles connexions, de nouveaux fils, sont ajoutés, ce qui donne lieu à un amalgame de désordres.
De nombreuses offres actuelles proposent des solutions uniquement pour l'aspect analytique des données, mais pas pour l'aspect opérationnel, et inversement. Or, les entreprises doivent être en mesure d'accéder à l'ensemble de leurs données dans leur intégralité, en particulier si elles prévoient de mettre en œuvre l'IA dans leur entreprise. Toute IA qu'elles développent ne peut être aussi bonne que les données avec lesquelles elle est entraînée.
Responsabilités, technologies et processus
D'autres ont tenté de maîtriser le chaos en comblant le fossé entre le domaine opérationnel, où s'exécutent les applications de gestion de l'entreprise, et le domaine analytique, où sont analysées les données et évalués les aspects financiers, par d'autres moyens, par exemple les technologies de data lake. Cependant, le fondateur et PDG de Kafka Apache, Jay Kreps, est tout à fait ambitieux et tente de résoudre le problème de l'encombrement des systèmes et infrastructures de données. Kreps a proposé comme solution un produit de données universel qui utilise le streaming de données comme moyen de permettre aux entreprises d'accéder aux données et de les filtrer en temps réel - ce qui, selon la définition de Jay Kreps, signifie simplement qu'elles sont très rapides, tant au niveau opérationnel qu'analytique, la faible latence étant la norme.
Selon Confluent, un produit de données est un ensemble de données fiables spécialement conçu pour être partagé et réutilisé avec d'autres équipes et services. C'est une formalisation des responsabilités, des technologies et des processus qui permet aux utilisateurs d'accéder facilement aux données dont ils ont besoin.
Le produit Data de Confluent est une solution de streaming de données de bout en bout - une triple attaque contre le chaos des données - composée de la Confluent Data Streaming Platform, qui fournit la fonctionnalité centrale de streaming, d'Apache Flink, qui permet le traitement en temps réel, et d'Iceberg, qui permet de visualiser les résultats et de les partager sous forme de tableaux. Les architectures pour les applications d'IA, qui englobent à la fois le monde opérationnel et le monde analytique, nécessitent un traitement par lots, et le streaming est une généralisation du traitement par lots, un sur-ensemble de celui-ci.
Plate-forme de streaming de données
Confluent Data Streaming Platform est une offre cloudnative, sans serveur, qui intègre Kora, le nouveau moteur Kafka pour le cloud avec stockage infini, qui serait seize fois plus rapide que l'Apache Kafka original. Apache Kafka est un système distribué, un modèle PubSub, dans lequel les producteurs sont en mesure d'envoyer des messages - c'est-à-dire des données en temps réel - à la plateforme de streaming de données, et tous les consommateurs en aval qui souhaitent travailler avec ces données dans une approche one-to-many peuvent y accéder et travailler directement avec elles. La plateforme Confluent s'appuie sur Apache Kafka et facilite les fonctions de streaming de données en réduisant la nécessité pour les entreprises de gérer le système d'origine. Elle offre une accessibilité supplémentaire à Apache Kafka en éliminant les frais généraux, les coûts et les autres défis liés à la gestion des logiciels open source.
Intégration SAP
Une partie importante du développement de Confluent est l'intégration SAP. SAP étant une offre phare de Confluent, l'intégration est directement intégrée dans la console SAP. Confluent permet aux clients SAP d'accéder à leurs données SAP et de les fusionner en temps réel avec toutes les différentes sources de données, telles que les données IoT, les données des outils marketing, les flux de clics en temps réel sur Internet et d'autres sources, afin qu'ils puissent les transmettre en temps réel sous forme de produit de données complet aux bases de données, aux entrepôts de données, aux lacs de données et aux outils d'IA-ML.
Les clients SAP ont la possibilité d'accéder à la plateforme Confluent Data Streaming et aux flux de données entièrement gérés directement depuis SAP Datasphere. Cela signifie que lorsque les utilisateurs travaillent avec Datasphere sur la BTP (Business Technology Platform), ils ont en plus la possibilité de configurer une écriture en temps réel de ces données dans des flux de données entièrement gérés sur le site Confluent. De cette manière, les utilisateurs peuvent libérer les données ERP à partir de SAP et déplacer ces données en aval pour alimenter les applications et les analyses en données en temps réel.
Rapide
Le deuxième pilier de l'attaque en trois parties, après la plate-forme de diffusion de données Confluent, est Apache Flink. Flink est un service de traitement de flux open source qui fonctionne comme un traitement système par lots. Confluent affirme que Flink, tout comme le moteur de recherche Kora, est seize fois plus rapide qu'Apache Kafka, ce qui en fait un add-on à prendre en considération si la vitesse est une priorité. Le produit permet aux utilisateurs de traiter les données sans une seule ligne de code, ce qui facilite la gestion pour le personnel ayant des connaissances moins spécialisées, bien que des options de codage soient également disponibles pour ceux qui sont intéressés. Flink permet également de traiter des flux de données continus à faible latence et à haut débit, avec des capacités supplémentaires telles que des sémantiques de traitement spécifiques et la prise en charge de plusieurs API.
Iceberg
Le troisième pilier après Flink est Apache Iceberg. Iceberg est un projet open source et l'un des formats de tableau standard ouverts pour l'ensemble de l'écosystème des outils d'analyse, comme Snowflake par exemple. Il permet aux utilisateurs d'accéder aux tableaux à partir des données stockées dans le stockage en nuage et permet un large partage. En outre, il existe une large communauté qui utilise le format Iceberg et cet écosystème continuera à se développer dans les années à venir, ce qui signifie que des options et des fonctionnalités supplémentaires seront disponibles pour les utilisateurs d'Iceberg, y compris de la part d'autres fournisseurs.
Parmi les autres caractéristiques remarquables, on peut citer les transactions atomiques, dans lesquelles les données sont soit entièrement figées, soit entièrement externalisées afin d'éviter toute corruption ou perte de données ; l'évolution des schémas, qui permet de modifier les colonnes sans interrompre les données ou les requêtes existantes ; et le voyage dans le temps, qui n'implique malheureusement pas de machines à remonter le temps, mais qui permet aux utilisateurs d'interroger les données telles qu'elles existaient à un moment donné.
En intégrant Iceberg, l'offre peut offrir un système unifié permettant des flux de données dans Kafka et des tables communes dans Iceberg. Exactement les mêmes données du moteur cloud de Kora sont ensuite mises à disposition sous forme de tables Iceberg. Le flux de données se déroule en trois phases. Dans la première phase, les données stockées dans le moteur Kora circulent dans Iceberg. Dans la deuxième phase, le flux de données est bidirectionnel, c'est-à-dire que les données sont disponibles à partir des deux sites. Dans la troisième phase, toutes les données d'Iceberg (tableaux, etc.) sont disponibles via Kafka.
Gouvernance
Lorsqu'on travaille avec des données, il est évidemment essentiel de connaître les politiques de gouvernance des données d'une entreprise. Dans la plateforme Confluent, la gouvernance est implémentée dès le départ sous forme de flux. Les autres facteurs qui jouent un rôle dans la gouvernance sont la qualité du flux, le catalogue des flux et le lignage des flux. La qualité du flux se compose de l'intégrité des données, des règles de données et des contrats ; elle garantit l'existence de normes pour toutes les données qui transitent par la plate-forme. Le catalogue et le lignage des flux permettent à l'utilisateur de visualiser les mouvements des données et les changements qu'elles ont subis le long de leur trajectoire. La suite de gouvernance intégrée et complète fait partie du produit de données et constitue une autre manière de résoudre le problème du chaos des données en réduisant la charge de travail de l'équipe de sécurité.
Fin du chaos des données
Pour les utilisateurs SAP aux prises avec le chaos des données dans Datasphere sur la BTP (Business Technology Platform), la solution complète de streaming de données en trois parties pourrait être exactement la lueur d'espoir qu'ils recherchent. Les utilisateurs pourraient non seulement rationaliser leurs données, mais aussi réduire la charge de travail associée à la gestion de flux de données complexes. En utilisant ce triptyque de technologies Apache - la plateforme de streaming de données de Confluent, les capacités de traitement de flux de Flink et le format de table d'Iceberg pour la gestion des données - les utilisateurs SAP ont la possibilité d'avoir un meilleur contrôle sur leurs données et d'exploiter de nouveaux gisements d'efficacité, ce qui leur permet de consacrer un temps et des ressources précieux à l'amélioration d'autres aspects de leurs opérations. C'est l'une des nombreuses options intéressantes qui s'offrent aux utilisateurs SAP, et le magazine E3 suivra avec grand intérêt les futurs développements de Confluent en matière de solutions de streaming de données.