{"id":64047,"date":"2020-01-09T10:00:32","date_gmt":"2020-01-09T09:00:32","guid":{"rendered":"http:\/\/e3mag.com\/?p=64047"},"modified":"2020-02-07T19:35:33","modified_gmt":"2020-02-07T18:35:33","slug":"les-donnees-techniques","status":"publish","type":"post","link":"https:\/\/e3mag.com\/fr\/die-technik-data\/","title":{"rendered":"La technique d'un Data Lake"},"content":{"rendered":"<p>En g\u00e9n\u00e9ral, je diviserais les options de stockage des donn\u00e9es en trois cat\u00e9gories. Files : les donn\u00e9es sont stock\u00e9es sous forme de fichiers simples et utilis\u00e9es comme des tableaux.<\/p>\n<p>Ces fichiers devraient avoir des informations sur la structure et devraient \u00e9galement \u00eatre index\u00e9s en eux-m\u00eames. Le format de fichier parquet est un repr\u00e9sentant de cette cat\u00e9gorie.<\/p>\n<p>Processus de base de donn\u00e9es : au lieu de travailler directement avec les fichiers, un service actif se trouve par-dessus et il se sent comme une base de donn\u00e9es. Il s'occupe de la mise en cache des donn\u00e9es souvent utilis\u00e9es et peut \u00eatre interrog\u00e9 via ODBC\/JDBC. Un repr\u00e9sentant typique de ce genre dans le monde des Big Data est Apache Hive.<\/p>\n<p>In-memory : pour une performance maximale, on place toutes les donn\u00e9es en m\u00e9moire, on les indexe et on construit ainsi quelque chose de similaire \u00e0 Hana. Exasol et SAP Vora fonctionnent selon ce principe.<\/p>\n<p>Le monde des Big Data vit uniquement du fait que de nombreux petits serveurs (et donc bon march\u00e9) forment un syst\u00e8me global. On peut ainsi \u00e9voluer \u00e0 l'infini, les co\u00fbts de mat\u00e9riel n'augmentant que de mani\u00e8re lin\u00e9aire.<\/p>\n<p>Mais plus il y a de n\u0153uds dans le syst\u00e8me global, plus leur synchronisation est co\u00fbteuse. Une jointure de trois tables, voire plus, peut signifier que chaque n\u0153ud doit aller chercher les r\u00e9sultats interm\u00e9diaires appropri\u00e9s de la jointure pr\u00e9c\u00e9dente et que la requ\u00eate dure des heures.<\/p>\n<p>Ce probl\u00e8me s'appelle le \"reshuffle\". Le fait que les donn\u00e9es soient en m\u00e9moire n'aide \u00e9videmment pas non plus \u00e0 la redistribution des r\u00e9sultats interm\u00e9diaires sur le r\u00e9seau.<\/p>\n<p>Hana, quant \u00e0 elle, est une v\u00e9ritable base de donn\u00e9es. Elle est extr\u00eamement rapide pour les recherches. Les performances de jointure sont excellentes, on a une coh\u00e9rence transactionnelle totale en lecture et en \u00e9criture. Tout cela demande beaucoup de synchronisation.<\/p>\n<p>En revanche, une telle base de donn\u00e9es ne s'adapte pas ind\u00e9finiment. De nombreux projets r\u00e9solvent le dilemme du \"reshuffle\" en stockant les donn\u00e9es de mani\u00e8re optimis\u00e9e pour certaines requ\u00eates. Cela r\u00e9duit \u00e0 nouveau la flexibilit\u00e9 et augmente les co\u00fbts, c'est-\u00e0-dire pr\u00e9cis\u00e9ment les points que l'on souhaitait avoir comme avantage d'un Data Lake.<\/p>\n<p>Le co\u00fbt de synchronisation de la coh\u00e9rence des transactions est un probl\u00e8me logique. Il ne peut pas \u00eatre r\u00e9solu sans imposer des exigences plus souples, telles que la \"coh\u00e9rence \u00e9ventuelle\".<\/p>\n<p>Ce probl\u00e8me est appel\u00e9 th\u00e9or\u00e8me CAP. Parmi les trois exigences Consistency-Availability-Partitioning, tous les points ne peuvent jamais \u00eatre atteints, en particulier en cas d'erreur.<\/p>\n<p>Un syst\u00e8me hautement disponible et distribu\u00e9 doit faire des concessions sur la coh\u00e9rence des donn\u00e9es, un syst\u00e8me de base de donn\u00e9es transactionnel doit faire des concessions sur la disponibilit\u00e9 ou l'\u00e9volutivit\u00e9.<\/p>\n<p>Les donn\u00e9es pr\u00e9sentes dans les Big Data sont des donn\u00e9es brutes qui se transforment en informations par des transformations non-SQL - ainsi, un entrep\u00f4t de donn\u00e9es bas\u00e9 sur les Big Data avec des requ\u00eates SQL n'a pas de sens.<\/p>\n<p>Le Data Lake est le terrain de jeu du Data Scientist. Cette personne peut y acc\u00e9der facilement \u00e0 des donn\u00e9es qui ont \u00e9t\u00e9 supprim\u00e9es auparavant ou auxquelles on ne pouvait acc\u00e9der que difficilement.<\/p>\n<p>Le data scientist peut g\u00e9rer tous les probl\u00e8mes li\u00e9s aux techniques de big data : La s\u00e9mantique des donn\u00e9es ; la lenteur des performances ; et quelles donn\u00e9es il y a. M\u00e9langer des donn\u00e9es Big Data et des donn\u00e9es commerciales ? Pas de probl\u00e8me pour lui.<\/p>\n<p>Coupler Hana avec Vora n'a pas beaucoup de sens selon ce raisonnement. Tous deux stockent les donn\u00e9es en m\u00e9moire et permettent des recherches rapides - \u00e0 un co\u00fbt correspondant. Les deux ont un stockage \u00e0 chaud sur disque (base de donn\u00e9es Sybase), les deux se concentrent sur les requ\u00eates SQL. Vora n'est d'ailleurs plus un produit autonome sur la liste de prix de SAP.<\/p>\n<p>En revanche, les fichiers parquet et une base de donn\u00e9es se compl\u00e8tent parfaitement. Les fichiers parquet dans un Data Lake ne co\u00fbtent pratiquement rien en termes de stockage, alors que dans une base de donn\u00e9es, l'espace de stockage co\u00fbte cher.<\/p>\n<p>Une base de donn\u00e9es comme Hana est excellente pour les jointures et les requ\u00eates SQL compliqu\u00e9es, mais pour un cluster de calcul, ce sont pr\u00e9cis\u00e9ment ces op\u00e9rations qui sont les plus co\u00fbteuses.<\/p>\n<p>La combinaison des deux donne donc des requ\u00eates rapides de Business Intelligence et un acc\u00e8s confortable \u00e0 toutes les donn\u00e9es brutes. Les deux apportent leurs points forts.<\/p>","protected":false},"excerpt":{"rendered":"<p>Dans un entrep\u00f4t de donn\u00e9es, les donn\u00e9es sont stock\u00e9es dans une base de donn\u00e9es relationnelle. Cela co\u00fbte cher et c'est pourquoi il existe des produits issus du monde des Big Data qui s'attaquent \u00e0 ce probl\u00e8me. Parquet, Hive, SAP Vora et Exasol sont les repr\u00e9sentants les plus connus dans l'environnement SAP.<\/p>","protected":false},"author":1891,"featured_media":62136,"comment_status":"open","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"_acf_changed":false,"pmpro_default_level":"","footnotes":""},"categories":[7,37003,36004],"tags":[210,6062,338],"coauthors":[36006],"class_list":["post-64047","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-meinung","category-mag-1912","category-smart-big-data-integration","tag-big-data","tag-data-scientist","tag-sql","pmpro-has-access"],"acf":[],"featured_image_urls_v2":{"full":["https:\/\/e3mag.com\/wp-content\/uploads\/2019\/08\/Smart-and-Big-Data-Integration.jpg",1000,450,false],"thumbnail":["https:\/\/e3mag.com\/wp-content\/uploads\/2019\/08\/Smart-and-Big-Data-Integration-150x150.jpg",150,150,true],"medium":["https:\/\/e3mag.com\/wp-content\/uploads\/2019\/08\/Smart-and-Big-Data-Integration.jpg",400,180,false],"medium_large":["https:\/\/e3mag.com\/wp-content\/uploads\/2019\/08\/Smart-and-Big-Data-Integration-768x346.jpg",768,346,true],"large":["https:\/\/e3mag.com\/wp-content\/uploads\/2019\/08\/Smart-and-Big-Data-Integration.jpg",1000,450,false],"image-100":["https:\/\/e3mag.com\/wp-content\/uploads\/2019\/08\/Smart-and-Big-Data-Integration-100x45.jpg",100,45,true],"image-480":["https:\/\/e3mag.com\/wp-content\/uploads\/2019\/08\/Smart-and-Big-Data-Integration-480x216.jpg",480,216,true],"image-640":["https:\/\/e3mag.com\/wp-content\/uploads\/2019\/08\/Smart-and-Big-Data-Integration-640x288.jpg",640,288,true],"image-720":["https:\/\/e3mag.com\/wp-content\/uploads\/2019\/08\/Smart-and-Big-Data-Integration-720x324.jpg",720,324,true],"image-960":["https:\/\/e3mag.com\/wp-content\/uploads\/2019\/08\/Smart-and-Big-Data-Integration-960x432.jpg",960,432,true],"image-1168":["https:\/\/e3mag.com\/wp-content\/uploads\/2019\/08\/Smart-and-Big-Data-Integration.jpg",1000,450,false],"image-1440":["https:\/\/e3mag.com\/wp-content\/uploads\/2019\/08\/Smart-and-Big-Data-Integration.jpg",1000,450,false],"image-1920":["https:\/\/e3mag.com\/wp-content\/uploads\/2019\/08\/Smart-and-Big-Data-Integration.jpg",1000,450,false],"1536x1536":["https:\/\/e3mag.com\/wp-content\/uploads\/2019\/08\/Smart-and-Big-Data-Integration.jpg",1000,450,false],"2048x2048":["https:\/\/e3mag.com\/wp-content\/uploads\/2019\/08\/Smart-and-Big-Data-Integration.jpg",1000,450,false],"trp-custom-language-flag":["https:\/\/e3mag.com\/wp-content\/uploads\/2019\/08\/Smart-and-Big-Data-Integration.jpg",18,8,false],"bricks_large_16x9":["https:\/\/e3mag.com\/wp-content\/uploads\/2019\/08\/Smart-and-Big-Data-Integration.jpg",1000,450,false],"bricks_large":["https:\/\/e3mag.com\/wp-content\/uploads\/2019\/08\/Smart-and-Big-Data-Integration.jpg",1000,450,false],"bricks_large_square":["https:\/\/e3mag.com\/wp-content\/uploads\/2019\/08\/Smart-and-Big-Data-Integration.jpg",1000,450,false],"bricks_medium":["https:\/\/e3mag.com\/wp-content\/uploads\/2019\/08\/Smart-and-Big-Data-Integration.jpg",600,270,false],"bricks_medium_square":["https:\/\/e3mag.com\/wp-content\/uploads\/2019\/08\/Smart-and-Big-Data-Integration.jpg",600,270,false],"profile_24":["https:\/\/e3mag.com\/wp-content\/uploads\/2019\/08\/Smart-and-Big-Data-Integration-24x24.jpg",24,24,true],"profile_48":["https:\/\/e3mag.com\/wp-content\/uploads\/2019\/08\/Smart-and-Big-Data-Integration-48x48.jpg",48,48,true],"profile_96":["https:\/\/e3mag.com\/wp-content\/uploads\/2019\/08\/Smart-and-Big-Data-Integration-96x96.jpg",96,96,true],"profile_150":["https:\/\/e3mag.com\/wp-content\/uploads\/2019\/08\/Smart-and-Big-Data-Integration-150x150.jpg",150,150,true],"profile_300":["https:\/\/e3mag.com\/wp-content\/uploads\/2019\/08\/Smart-and-Big-Data-Integration-300x300.jpg",300,300,true]},"post_excerpt_stackable_v2":"<p>Beim Data Warehouse liegen die Daten in einer relationalen DB. Das ist teuer und entsprechend gibt es Produkte aus der Big-Data-Welt, die hier ansetzen. Parquet, Hive, SAP Vora und Exasol sind die bekanntesten Vertreter im SAP-Umfeld.<\/p>\n","category_list_v2":"<a href=\"https:\/\/e3mag.com\/fr\/category\/meinung\/\" rel=\"category tag\">Die Meinung der SAP-Community<\/a>, <a href=\"https:\/\/e3mag.com\/fr\/category\/mag-1912\/\" rel=\"category tag\">MAG 19-12<\/a>, <a href=\"https:\/\/e3mag.com\/fr\/category\/meinung\/smart-big-data-integration\/\" rel=\"category tag\">Smart &amp; Big Data Integration<\/a>","author_info_v2":{"name":"Werner D\u00e4hn, rtdi.io","url":"https:\/\/e3mag.com\/fr\/author\/werner-daehn\/"},"comments_num_v2":"0 commentaire","_links":{"self":[{"href":"https:\/\/e3mag.com\/fr\/wp-json\/wp\/v2\/posts\/64047","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/e3mag.com\/fr\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/e3mag.com\/fr\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/e3mag.com\/fr\/wp-json\/wp\/v2\/users\/1891"}],"replies":[{"embeddable":true,"href":"https:\/\/e3mag.com\/fr\/wp-json\/wp\/v2\/comments?post=64047"}],"version-history":[{"count":0,"href":"https:\/\/e3mag.com\/fr\/wp-json\/wp\/v2\/posts\/64047\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/e3mag.com\/fr\/wp-json\/wp\/v2\/media\/62136"}],"wp:attachment":[{"href":"https:\/\/e3mag.com\/fr\/wp-json\/wp\/v2\/media?parent=64047"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/e3mag.com\/fr\/wp-json\/wp\/v2\/categories?post=64047"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/e3mag.com\/fr\/wp-json\/wp\/v2\/tags?post=64047"},{"taxonomy":"author","embeddable":true,"href":"https:\/\/e3mag.com\/fr\/wp-json\/wp\/v2\/coauthors?post=64047"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}