L'avenir appartient aux pipelines de streaming de données


Ils utilisent généralement des pipelines de données point à point pour déplacer les données entre les bases de données opérationnelles et un entrepôt de données ou un data lake centralisé. Les pipelines ETL (extraire, transformer et charger), par exemple, prennent des données, les transforment en lots réguliers et les transmettent plus tard à un entrepôt de données analytique en aval. Les pipelines ETL et les pipelines ETL inversés renvoient également les résultats des analyses de données effectuées dans l'entrepôt vers les bases de données et les applications opérationnelles.
Même si les entreprises exploitent aujourd'hui souvent des dizaines, voire des centaines de pipelines de données point à point, de plus en plus de responsables informatiques en arrivent à la conclusion que les pipelines de données point à point et par lots ne sont plus d'actualité. Les anciens pipelines ne sont généralement pas très flexibles et sont perçus par les développeurs comme des "boîtes noires", car ils ne peuvent pas être adaptés et sont difficiles à transférer dans d'autres environnements. Lorsque des processus opérationnels ou des données doivent être adaptés, les développeurs de données évitent donc de modifier les pipelines existants. Au lieu de cela, ils ajoutent encore plus de pipelines et les dettes techniques qui y sont liées. En fin de compte, les pipelines ETL traditionnels nécessitent trop de puissance de calcul et d'espace de stockage, ce qui peut entraîner des problèmes d'évolutivité et de performance ainsi que des coûts d'exploitation élevés à mesure que le volume de données et les exigences augmentent.
Les pipelines de données en continu constituent une approche moderne de la fourniture de données en tant que produit en libre-service. Au lieu d'envoyer des données à un entrepôt central ou à un outil d'analyse, les pipelines de flux de données peuvent capturer les changements en temps réel, les enrichir au fil de l'eau et les envoyer à des systèmes en aval. Les équipes peuvent traiter, partager et réutiliser les données où et quand elles en ont besoin, avec leur propre accès en libre-service.
Contrairement aux pipelines ordinaires, les pipelines de flux de données peuvent être créés avec des langages déclaratifs comme SQL. Cela permet d'éviter les tâches opérationnelles inutiles avec une logique prédéfinie des opérations requises. Cette approche contribue à maintenir l'équilibre entre l'observabilité continue centralisée, la sécurité, la gestion des politiques, les normes de conformité et le besoin de données faciles à rechercher et à trouver.