{"id":64047,"date":"2020-01-09T10:00:32","date_gmt":"2020-01-09T09:00:32","guid":{"rendered":"http:\/\/e3mag.com\/?p=64047"},"modified":"2020-02-07T19:35:33","modified_gmt":"2020-02-07T18:35:33","slug":"die-technik-data","status":"publish","type":"post","link":"https:\/\/e3mag.com\/de\/die-technik-data\/","title":{"rendered":"Die Technik eines Data Lake"},"content":{"rendered":"<p>Generell w\u00fcrde ich die Optionen zur Datenspeicherung in drei Kategorien einteilen. Files: Die Daten werden als einfache Files abgelegt und wie Tabellen verwendet.<\/p>\n<p>Diese Files m\u00fcssten Informationen \u00fcber die Struktur haben und sollten auch in sich indiziert sein. Das Parquet-File-Format ist ein Vertreter dieser Kategorie.<\/p><div class=\"great-fullsize-content-de\" style=\"float: left;\" id=\"great-1218959537\"><div id=\"great-2010646895\" style=\"margin-bottom: 20px;\"><a data-no-instant=\"1\" href=\"https:\/\/www.youtube.com\/watch?v=6yfv7eho3Gc\" rel=\"noopener\" class=\"a2t-link\" target=\"_blank\" aria-label=\"Fullsize\"><img loading=\"lazy\" decoding=\"async\" src=\"https:\/\/e3mag.com\/wp-content\/uploads\/2026\/03\/banner_26_04_08_1200x150.jpg\" alt=\"Fullsize\"  srcset=\"https:\/\/e3mag.com\/wp-content\/uploads\/2026\/03\/banner_26_04_08_1200x150.jpg 1200w, https:\/\/e3mag.com\/wp-content\/uploads\/2026\/03\/banner_26_04_08_1200x150-400x50.jpg 400w, https:\/\/e3mag.com\/wp-content\/uploads\/2026\/03\/banner_26_04_08_1200x150-768x96.jpg 768w, https:\/\/e3mag.com\/wp-content\/uploads\/2026\/03\/banner_26_04_08_1200x150-100x13.jpg 100w, https:\/\/e3mag.com\/wp-content\/uploads\/2026\/03\/banner_26_04_08_1200x150-480x60.jpg 480w, https:\/\/e3mag.com\/wp-content\/uploads\/2026\/03\/banner_26_04_08_1200x150-640x80.jpg 640w, https:\/\/e3mag.com\/wp-content\/uploads\/2026\/03\/banner_26_04_08_1200x150-720x90.jpg 720w, https:\/\/e3mag.com\/wp-content\/uploads\/2026\/03\/banner_26_04_08_1200x150-960x120.jpg 960w, https:\/\/e3mag.com\/wp-content\/uploads\/2026\/03\/banner_26_04_08_1200x150-1168x146.jpg 1168w, https:\/\/e3mag.com\/wp-content\/uploads\/2026\/03\/banner_26_04_08_1200x150-18x2.jpg 18w, https:\/\/e3mag.com\/wp-content\/uploads\/2026\/03\/banner_26_04_08_1200x150-600x75.jpg 600w\" sizes=\"(max-width: 1200px) 100vw, 1200px\" width=\"1200\" height=\"150\"  style=\" max-width: 100%; height: auto;\" \/><\/a><\/div><\/div>\n<p>Datenbankprozess: Statt direkt mit den Files zu arbeiten, liegt ein aktiver Service dar\u00fcber und der f\u00fchlt sich wie eine Datenbank an. Er k\u00fcmmert sich um Caching von oft benutzten Daten, kann per ODBC\/JDBC abgefragt werden. Ein typischer Vertreter dieser Gattung in der Big-Data-Welt ist Apache Hive.<\/p>\n<p>In-memory: F\u00fcr h\u00f6chste Performance legt man alle Daten ins Memory, indiziert sie und baut damit etwas Hana-\u00c4hnliches. Exasol und SAP Vora arbeiten nach diesem Prinzip.<\/p>\n<p>Die Big-Data-Welt lebt einzig und allein davon, dass viele kleine (und damit preiswerte) Server ein Gesamtsystem bilden. Damit kann man unendlich skalieren, die Hardwarekosten steigen nur linear.<\/p>\n<p>Aber je mehr Knoten das Gesamtsystem formen, umso teurer wird deren Synchronisierung. Eine Verkn\u00fcpfung (\u201eJoin\u201c) von drei oder sogar noch mehr Tabellen kann bedeuten, dass jeder Knoten sich die passenden Zwischen\u00adergebnisse vom vorhergehenden Join holen muss und die Abfrage Stunden l\u00e4uft.<\/p>\n<p>Dieses Problem nennt sich \u201eReshuffle\u201c. Dass die Daten in-memory liegen, hilft bei der Neuverteilung der Zwischenergebnisse \u00fcber das Netzwerk nat\u00fcrlich auch nicht.<\/p>\n<p>Hana wiederum ist eine echte Datenbank. Sie ist rasend schnell bei der Suche. Die Join-Performance ist gro\u00dfartig, man hat volle Transaktionskonsistenz beim Lesen und Schreiben. All das erfordert einiges an Synchronisierung.<\/p>\n<p>Daf\u00fcr skaliert so eine Datenbank nicht unendlich. Viele Projekte l\u00f6sen sich aus dem Dilemma des \u201eReshuffle\u201c, indem die Daten optimiert f\u00fcr gewisse Abfragen abgelegt werden. Das reduziert wiederum die Flexibilit\u00e4t und erh\u00f6ht die Kosten, also genau die Punkte, die man als Vorteil eines Data Lake eigentlich haben wollte.<\/p>\n<p>Der Synchronisierungsaufwand von Transaktionskonsistenz ist ein logisches Problem. Es kann nicht gel\u00f6st werden, ohne weichere Anforderungen zu stellen, etwa \u201eEventual Consistency\u201c.<\/p>\n<p>Dieses Problem wird als CAP-Theorem bezeichnet. Von den drei Anforderungen Consistency-Availability-Partitioning k\u00f6nnen, speziell im Fehlerfall, niemals alle der Punkte erreicht werden.<\/p>\n<p>Ein hochverf\u00fcgbares und verteiltes System muss Abstriche bei der Datenkonsistenz, ein transaktionales Datenbanksystem Abstriche bei der Verf\u00fcgbarkeit oder Skalierbarkeit machen.<\/p>\n<p>Die in Big Data vorliegenden Daten sind Rohdaten, die durch Nicht-SQL-Transformationen zu Informationen werden \u2013 so macht ein Big-Data-basiertes Data Warehouse mit SQL-Abfragen keinen Sinn.<\/p>\n<p>Das Data Lake ist der Spielplatz f\u00fcr den Data Scientist. Diese Person hat dar\u00fcber einfachen Zugriff auf Daten, die vorher gel\u00f6scht wurden oder an die man nur umst\u00e4ndlich herankam.<\/p>\n<p>Der Data Scientist kann mit allen Problemen, die sich aus der Big-Data-Technik ergeben, umgehen: Semantik der Daten; langsame Performance; und, welche Daten es gibt. Mischen von Big-Data- und Business-Daten? F\u00fcr ihn kein Problem.<\/p>\n<p>Hana mit Vora zu koppeln macht aus dieser Argumentation heraus wenig Sinn. Beide speichern die Daten in-memory und erlauben schnelle Suchen \u2013 bei entsprechenden Kosten. Beide haben einen Warm Storage auf Disk (Sybase-Datenbank), beide fokussieren sich auf SQL-Abfragen. Vora ist auch nicht mehr als eigenst\u00e4ndiges Produkt auf der Preisliste von SAP.<\/p>\n<p>Parquet Files und eine Datenbank erg\u00e4nzen sich hingegen perfekt. Die Parquet Files in einem Data Lake kosten in der Speicherung praktisch nichts, in der Datenbank ist Speicherplatz teuer.<\/p>\n<p>Eine Datenbank wie Hana ist exzellent f\u00fcr Joins und f\u00fcr komplizierte SQL-Abfragen geeignet, f\u00fcr einen Compute-Cluster sind genau diese Operationen das Aufw\u00e4ndigste.<\/p>\n<p>Die Kombination von beidem ergibt somit schnelle Business-Intelligence-Abfragen und komfortablen Zugriff auf alle Rohdaten. Beide bringen ihre St\u00e4rken ein.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Beim Data Warehouse liegen die Daten in einer relationalen DB. Das ist teuer und entsprechend gibt es Produkte aus der Big-Data-Welt, die hier ansetzen. Parquet, Hive, SAP Vora und Exasol sind die bekanntesten Vertreter im SAP-Umfeld.<\/p>\n","protected":false},"author":1891,"featured_media":62136,"comment_status":"open","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"_acf_changed":false,"pmpro_default_level":"","footnotes":""},"categories":[7,37003,36004],"tags":[210,6062,338],"coauthors":[36006],"class_list":["post-64047","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-meinung","category-mag-1912","category-smart-big-data-integration","tag-big-data","tag-data-scientist","tag-sql","pmpro-has-access"],"acf":[],"featured_image_urls_v2":{"full":["https:\/\/e3mag.com\/wp-content\/uploads\/2019\/08\/Smart-and-Big-Data-Integration.jpg",1000,450,false],"thumbnail":["https:\/\/e3mag.com\/wp-content\/uploads\/2019\/08\/Smart-and-Big-Data-Integration-150x150.jpg",150,150,true],"medium":["https:\/\/e3mag.com\/wp-content\/uploads\/2019\/08\/Smart-and-Big-Data-Integration.jpg",400,180,false],"medium_large":["https:\/\/e3mag.com\/wp-content\/uploads\/2019\/08\/Smart-and-Big-Data-Integration-768x346.jpg",768,346,true],"large":["https:\/\/e3mag.com\/wp-content\/uploads\/2019\/08\/Smart-and-Big-Data-Integration.jpg",1000,450,false],"image-100":["https:\/\/e3mag.com\/wp-content\/uploads\/2019\/08\/Smart-and-Big-Data-Integration-100x45.jpg",100,45,true],"image-480":["https:\/\/e3mag.com\/wp-content\/uploads\/2019\/08\/Smart-and-Big-Data-Integration-480x216.jpg",480,216,true],"image-640":["https:\/\/e3mag.com\/wp-content\/uploads\/2019\/08\/Smart-and-Big-Data-Integration-640x288.jpg",640,288,true],"image-720":["https:\/\/e3mag.com\/wp-content\/uploads\/2019\/08\/Smart-and-Big-Data-Integration-720x324.jpg",720,324,true],"image-960":["https:\/\/e3mag.com\/wp-content\/uploads\/2019\/08\/Smart-and-Big-Data-Integration-960x432.jpg",960,432,true],"image-1168":["https:\/\/e3mag.com\/wp-content\/uploads\/2019\/08\/Smart-and-Big-Data-Integration.jpg",1000,450,false],"image-1440":["https:\/\/e3mag.com\/wp-content\/uploads\/2019\/08\/Smart-and-Big-Data-Integration.jpg",1000,450,false],"image-1920":["https:\/\/e3mag.com\/wp-content\/uploads\/2019\/08\/Smart-and-Big-Data-Integration.jpg",1000,450,false],"1536x1536":["https:\/\/e3mag.com\/wp-content\/uploads\/2019\/08\/Smart-and-Big-Data-Integration.jpg",1000,450,false],"2048x2048":["https:\/\/e3mag.com\/wp-content\/uploads\/2019\/08\/Smart-and-Big-Data-Integration.jpg",1000,450,false],"trp-custom-language-flag":["https:\/\/e3mag.com\/wp-content\/uploads\/2019\/08\/Smart-and-Big-Data-Integration.jpg",18,8,false],"bricks_large_16x9":["https:\/\/e3mag.com\/wp-content\/uploads\/2019\/08\/Smart-and-Big-Data-Integration.jpg",1000,450,false],"bricks_large":["https:\/\/e3mag.com\/wp-content\/uploads\/2019\/08\/Smart-and-Big-Data-Integration.jpg",1000,450,false],"bricks_large_square":["https:\/\/e3mag.com\/wp-content\/uploads\/2019\/08\/Smart-and-Big-Data-Integration.jpg",1000,450,false],"bricks_medium":["https:\/\/e3mag.com\/wp-content\/uploads\/2019\/08\/Smart-and-Big-Data-Integration.jpg",600,270,false],"bricks_medium_square":["https:\/\/e3mag.com\/wp-content\/uploads\/2019\/08\/Smart-and-Big-Data-Integration.jpg",600,270,false],"profile_24":["https:\/\/e3mag.com\/wp-content\/uploads\/2019\/08\/Smart-and-Big-Data-Integration-24x24.jpg",24,24,true],"profile_48":["https:\/\/e3mag.com\/wp-content\/uploads\/2019\/08\/Smart-and-Big-Data-Integration-48x48.jpg",48,48,true],"profile_96":["https:\/\/e3mag.com\/wp-content\/uploads\/2019\/08\/Smart-and-Big-Data-Integration-96x96.jpg",96,96,true],"profile_150":["https:\/\/e3mag.com\/wp-content\/uploads\/2019\/08\/Smart-and-Big-Data-Integration-150x150.jpg",150,150,true],"profile_300":["https:\/\/e3mag.com\/wp-content\/uploads\/2019\/08\/Smart-and-Big-Data-Integration-300x300.jpg",300,300,true]},"post_excerpt_stackable_v2":"<p>Beim Data Warehouse liegen die Daten in einer relationalen DB. Das ist teuer und entsprechend gibt es Produkte aus der Big-Data-Welt, die hier ansetzen. Parquet, Hive, SAP Vora und Exasol sind die bekanntesten Vertreter im SAP-Umfeld.<\/p>\n","category_list_v2":"<a href=\"https:\/\/e3mag.com\/de\/category\/meinung\/\" rel=\"category tag\">Die Meinung der SAP-Community<\/a>, <a href=\"https:\/\/e3mag.com\/de\/category\/mag-1912\/\" rel=\"category tag\">MAG 19-12<\/a>, <a href=\"https:\/\/e3mag.com\/de\/category\/meinung\/smart-big-data-integration\/\" rel=\"category tag\">Smart &amp; Big Data Integration<\/a>","author_info_v2":{"name":"Werner D\u00e4hn, rtdi.io","url":"https:\/\/e3mag.com\/de\/author\/werner-daehn\/"},"comments_num_v2":"0 comments","_links":{"self":[{"href":"https:\/\/e3mag.com\/de\/wp-json\/wp\/v2\/posts\/64047","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/e3mag.com\/de\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/e3mag.com\/de\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/e3mag.com\/de\/wp-json\/wp\/v2\/users\/1891"}],"replies":[{"embeddable":true,"href":"https:\/\/e3mag.com\/de\/wp-json\/wp\/v2\/comments?post=64047"}],"version-history":[{"count":0,"href":"https:\/\/e3mag.com\/de\/wp-json\/wp\/v2\/posts\/64047\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/e3mag.com\/de\/wp-json\/wp\/v2\/media\/62136"}],"wp:attachment":[{"href":"https:\/\/e3mag.com\/de\/wp-json\/wp\/v2\/media?parent=64047"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/e3mag.com\/de\/wp-json\/wp\/v2\/categories?post=64047"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/e3mag.com\/de\/wp-json\/wp\/v2\/tags?post=64047"},{"taxonomy":"author","embeddable":true,"href":"https:\/\/e3mag.com\/de\/wp-json\/wp\/v2\/coauthors?post=64047"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}