{"id":62135,"date":"2019-10-02T11:00:14","date_gmt":"2019-10-02T09:00:14","guid":{"rendered":"http:\/\/e3mag.com\/?p=62135"},"modified":"2020-02-08T16:11:33","modified_gmt":"2020-02-08T15:11:33","slug":"architecture-big-data","status":"publish","type":"post","link":"https:\/\/e3mag.com\/fr\/big-data-architektur\/","title":{"rendered":"Architecture Big Data"},"content":{"rendered":"<p>En tant qu'architecte de logiciels, mon objectif est de r\u00e9aliser des t\u00e2ches compliqu\u00e9es par le biais de solutions simples. Les diff\u00e9rents \u00e9l\u00e9ments d'une solution ont chacun des avantages et des inconv\u00e9nients, l'art consiste \u00e0 les combiner de mani\u00e8re \u00e0 ce que la somme des avantages soit conserv\u00e9e et que les inconv\u00e9nients s'annulent mutuellement.<\/p>\n<p>Pour de nombreux utilisateurs SAP, il s'agira dans un premier temps de permettre l'Analytics avec Big Data, c'est-\u00e0-dire de trouver des informations int\u00e9ressantes dans ces \u00e9normes quantit\u00e9s de donn\u00e9es.<\/p>\n<p>Mais au lieu de construire une infrastructure enti\u00e8rement nouvelle pour les utilisateurs, je combine le syst\u00e8me de big data avec l'entrep\u00f4t de donn\u00e9es existant.<\/p>\n<p>Le Data Scientist re\u00e7oit le Data Lake, une zone de donn\u00e9es dans laquelle se trouvent toutes les donn\u00e9es brutes, et un outil puissant qui lui permet \u00e9galement de pr\u00e9parer ces donn\u00e9es brutes. Le r\u00e9sultat de ses activit\u00e9s sont de nouveaux indicateurs que j'ajoute dans le data warehouse. Cela pr\u00e9sente plusieurs avantages :<\/p>\n<ul>\n<li>L'utilisateur professionnel continue \u00e0 utiliser ses outils habituels pour l'analyse, mais il dispose d\u00e9sormais de plus d'indicateurs.<\/li>\n<li>Le Data Scientist a acc\u00e8s \u00e0 toutes les donn\u00e9es, Big Data et donn\u00e9es ERP.<\/li>\n<li>Pour l'IT, l'effort est g\u00e9rable.<\/li>\n<\/ul>\n<p>Cette solution est \u00e9galement int\u00e9ressante du point de vue des co\u00fbts par rapport aux avantages et aux probabilit\u00e9s de r\u00e9ussite : en m'appuyant sur ce qui existe d\u00e9j\u00e0, j'ai une port\u00e9e de projet r\u00e9duite, donc un risque de projet minimis\u00e9 et une mise en \u0153uvre moins co\u00fbteuse, tout en exploitant pleinement les avantages potentiels.<\/p>\n<p>Ainsi, une solution Big Data ne se compose plus que de deux \u00e9l\u00e9ments : le Data Lake avec les donn\u00e9es brutes et un cluster de serveurs dans lequel se fait la pr\u00e9paration des donn\u00e9es.<\/p>\n<h3>Data Lake ou SAP Vora<\/h3>\n<p>Par le pass\u00e9, SAP a propos\u00e9 SAP Vora comme Data Lake et commercialise la solution Altiscale sous le nom de Big Data Services. Mais au fond, le Data Lake n'est qu'un grand syst\u00e8me de fichiers. Si malgr\u00e9 tout, le service commercial de SAP propose Vora, Altiscale ou DataHub, il convient de poser un regard tr\u00e8s critique sur le prix et la prestation.<\/p>\n<p>Pourquoi ne pas commencer tout simplement dans la premi\u00e8re phase du projet avec un disque dur local ou le serveur de fichiers central ? Tant qu'il y a suffisamment de place et que le co\u00fbt de l'espace de stockage n'est pas trop \u00e9lev\u00e9, c'est tout \u00e0 fait valable. Copier les fichiers peut se faire \u00e0 tout moment et sans probl\u00e8me, c'est pourquoi je ne bloque rien pour l'avenir.<\/p>\n<h3>Pr\u00e9paration avec Apache Spark<\/h3>\n<p>Pour le traitement de ces donn\u00e9es, la plupart des projets utilisent aujourd'hui le framework open source Apache Spark. Il permet d'\u00e9crire en quelques lignes de code des programmes pour la pr\u00e9paration des donn\u00e9es et de les ex\u00e9cuter en parall\u00e8le dans un cluster de serveurs.<\/p>\n<p>Il n'y a aucune raison pour moi de r\u00e9inventer la roue, d'autant plus qu'une telle installation est tr\u00e8s simple et peut \u00eatre effectu\u00e9e en dix minutes : t\u00e9l\u00e9charger le paquet sur un petit ordinateur Linux, l'extraire et lancer un ma\u00eetre et un premier travailleur via la commande start-all.<\/p>\n<h3>D\u00e9fi : algorithme<\/h3>\n<p>La technique est g\u00e9rable avec l'approche ci-dessus. C'est le d\u00e9veloppement des algorithmes pour les nouveaux indicateurs qui est la partie la plus difficile : comment obtenir des informations \u00e0 partir des donn\u00e9es de masse, qui se traduiront finalement par des b\u00e9n\u00e9fices pour l'entreprise ?<\/p>\n<p>C'est pr\u00e9cis\u00e9ment l\u00e0 que se joue la r\u00e9ussite d'un projet de big data. C'est pourquoi je pense qu'il est judicieux d'investir dans ce domaine, par exemple dans la formation de data scientists.<\/p>\n<p>Dans les chroniques suivantes, je r\u00e9pondrai entre autres aux questions suivantes : Pourquoi utiliser Apache Spark et non un outil ETL ? Pourquoi a-t-on besoin du Data Lake alors que les donn\u00e9es se trouvent d\u00e9j\u00e0 dans le Data Warehouse ? Etc.<\/p>","protected":false},"excerpt":{"rendered":"<p>Le big data est un sujet important, mais la multitude de possibilit\u00e9s est \u00e9crasante. Chaque fournisseur de logiciels propose des produits diff\u00e9rents et poursuit des objectifs diff\u00e9rents. J'aimerais apporter un peu de structure dans cette jungle et faciliter le d\u00e9marrage.<\/p>","protected":false},"author":1891,"featured_media":62136,"comment_status":"open","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"_acf_changed":false,"pmpro_default_level":"","footnotes":""},"categories":[7,35911,36004],"tags":[937,210,927,67],"coauthors":[36006],"class_list":["post-62135","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-meinung","category-mag-1909","category-smart-big-data-integration","tag-analytics","tag-big-data","tag-data-warehouse","tag-linux","pmpro-has-access"],"acf":[],"featured_image_urls_v2":{"full":["https:\/\/e3mag.com\/wp-content\/uploads\/2019\/08\/Smart-and-Big-Data-Integration.jpg",1000,450,false],"thumbnail":["https:\/\/e3mag.com\/wp-content\/uploads\/2019\/08\/Smart-and-Big-Data-Integration-150x150.jpg",150,150,true],"medium":["https:\/\/e3mag.com\/wp-content\/uploads\/2019\/08\/Smart-and-Big-Data-Integration.jpg",400,180,false],"medium_large":["https:\/\/e3mag.com\/wp-content\/uploads\/2019\/08\/Smart-and-Big-Data-Integration-768x346.jpg",768,346,true],"large":["https:\/\/e3mag.com\/wp-content\/uploads\/2019\/08\/Smart-and-Big-Data-Integration.jpg",1000,450,false],"image-100":["https:\/\/e3mag.com\/wp-content\/uploads\/2019\/08\/Smart-and-Big-Data-Integration-100x45.jpg",100,45,true],"image-480":["https:\/\/e3mag.com\/wp-content\/uploads\/2019\/08\/Smart-and-Big-Data-Integration-480x216.jpg",480,216,true],"image-640":["https:\/\/e3mag.com\/wp-content\/uploads\/2019\/08\/Smart-and-Big-Data-Integration-640x288.jpg",640,288,true],"image-720":["https:\/\/e3mag.com\/wp-content\/uploads\/2019\/08\/Smart-and-Big-Data-Integration-720x324.jpg",720,324,true],"image-960":["https:\/\/e3mag.com\/wp-content\/uploads\/2019\/08\/Smart-and-Big-Data-Integration-960x432.jpg",960,432,true],"image-1168":["https:\/\/e3mag.com\/wp-content\/uploads\/2019\/08\/Smart-and-Big-Data-Integration.jpg",1000,450,false],"image-1440":["https:\/\/e3mag.com\/wp-content\/uploads\/2019\/08\/Smart-and-Big-Data-Integration.jpg",1000,450,false],"image-1920":["https:\/\/e3mag.com\/wp-content\/uploads\/2019\/08\/Smart-and-Big-Data-Integration.jpg",1000,450,false],"1536x1536":["https:\/\/e3mag.com\/wp-content\/uploads\/2019\/08\/Smart-and-Big-Data-Integration.jpg",1000,450,false],"2048x2048":["https:\/\/e3mag.com\/wp-content\/uploads\/2019\/08\/Smart-and-Big-Data-Integration.jpg",1000,450,false],"trp-custom-language-flag":["https:\/\/e3mag.com\/wp-content\/uploads\/2019\/08\/Smart-and-Big-Data-Integration.jpg",18,8,false],"bricks_large_16x9":["https:\/\/e3mag.com\/wp-content\/uploads\/2019\/08\/Smart-and-Big-Data-Integration.jpg",1000,450,false],"bricks_large":["https:\/\/e3mag.com\/wp-content\/uploads\/2019\/08\/Smart-and-Big-Data-Integration.jpg",1000,450,false],"bricks_large_square":["https:\/\/e3mag.com\/wp-content\/uploads\/2019\/08\/Smart-and-Big-Data-Integration.jpg",1000,450,false],"bricks_medium":["https:\/\/e3mag.com\/wp-content\/uploads\/2019\/08\/Smart-and-Big-Data-Integration.jpg",600,270,false],"bricks_medium_square":["https:\/\/e3mag.com\/wp-content\/uploads\/2019\/08\/Smart-and-Big-Data-Integration.jpg",600,270,false],"profile_24":["https:\/\/e3mag.com\/wp-content\/uploads\/2019\/08\/Smart-and-Big-Data-Integration-24x24.jpg",24,24,true],"profile_48":["https:\/\/e3mag.com\/wp-content\/uploads\/2019\/08\/Smart-and-Big-Data-Integration-48x48.jpg",48,48,true],"profile_96":["https:\/\/e3mag.com\/wp-content\/uploads\/2019\/08\/Smart-and-Big-Data-Integration-96x96.jpg",96,96,true],"profile_150":["https:\/\/e3mag.com\/wp-content\/uploads\/2019\/08\/Smart-and-Big-Data-Integration-150x150.jpg",150,150,true],"profile_300":["https:\/\/e3mag.com\/wp-content\/uploads\/2019\/08\/Smart-and-Big-Data-Integration-300x300.jpg",300,300,true]},"post_excerpt_stackable_v2":"<p>Big Data ist ein gro\u00dfes Thema, doch die Vielzahl an M\u00f6glichkeiten erschl\u00e4gt. Jeder SW-Anbieter kommt mit verschiedenen Produkten und unterschiedlichen Zielen. In diesen Dschungel m\u00f6chte ich etwas Struktur bringen und den Einstieg erleichtern.<\/p>\n","category_list_v2":"<a href=\"https:\/\/e3mag.com\/fr\/category\/meinung\/\" rel=\"category tag\">Die Meinung der SAP-Community<\/a>, <a href=\"https:\/\/e3mag.com\/fr\/category\/mag-1909\/\" rel=\"category tag\">MAG 19-09<\/a>, <a href=\"https:\/\/e3mag.com\/fr\/category\/meinung\/smart-big-data-integration\/\" rel=\"category tag\">Smart &amp; Big Data Integration<\/a>","author_info_v2":{"name":"Werner D\u00e4hn, rtdi.io","url":"https:\/\/e3mag.com\/fr\/author\/werner-daehn\/"},"comments_num_v2":"0 commentaire","_links":{"self":[{"href":"https:\/\/e3mag.com\/fr\/wp-json\/wp\/v2\/posts\/62135","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/e3mag.com\/fr\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/e3mag.com\/fr\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/e3mag.com\/fr\/wp-json\/wp\/v2\/users\/1891"}],"replies":[{"embeddable":true,"href":"https:\/\/e3mag.com\/fr\/wp-json\/wp\/v2\/comments?post=62135"}],"version-history":[{"count":0,"href":"https:\/\/e3mag.com\/fr\/wp-json\/wp\/v2\/posts\/62135\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/e3mag.com\/fr\/wp-json\/wp\/v2\/media\/62136"}],"wp:attachment":[{"href":"https:\/\/e3mag.com\/fr\/wp-json\/wp\/v2\/media?parent=62135"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/e3mag.com\/fr\/wp-json\/wp\/v2\/categories?post=62135"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/e3mag.com\/fr\/wp-json\/wp\/v2\/tags?post=62135"},{"taxonomy":"author","embeddable":true,"href":"https:\/\/e3mag.com\/fr\/wp-json\/wp\/v2\/coauthors?post=62135"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}