{"id":62135,"date":"2019-10-02T11:00:14","date_gmt":"2019-10-02T09:00:14","guid":{"rendered":"http:\/\/e3mag.com\/?p=62135"},"modified":"2020-02-08T16:11:33","modified_gmt":"2020-02-08T15:11:33","slug":"big-data-architektur","status":"publish","type":"post","link":"https:\/\/e3mag.com\/de\/big-data-architektur\/","title":{"rendered":"Big-Data-Architektur"},"content":{"rendered":"<p>Als Software-Architekt habe ich das Ziel, komplizierte Aufgaben \u00fcber einfache L\u00f6sungen zu erreichen. Die einzelnen Bestandteile einer L\u00f6sung haben jeweils Vor- und Nachteile, die Kunst ist, sie so zu kombinieren, dass in Summe die Vorteile erhalten bleiben und die Nachteile sich gegenseitig aufheben.<\/p>\n<p>F\u00fcr viele SAP-Anwender wird es im ersten Schritt darum gehen, Analytics mit Big Data zu erm\u00f6glichen, also in diesen riesigen Datenmengen interessante Informationen zu finden.<\/p><div class=\"great-fullsize-content-de\" style=\"float: left;\" id=\"great-1524587184\"><div id=\"great-1647182416\" style=\"margin-bottom: 20px;\"><a data-no-instant=\"1\" href=\"https:\/\/www.youtube.com\/watch?v=6yfv7eho3Gc\" rel=\"noopener\" class=\"a2t-link\" target=\"_blank\" aria-label=\"Fullsize\"><img loading=\"lazy\" decoding=\"async\" src=\"https:\/\/e3mag.com\/wp-content\/uploads\/2026\/03\/banner_26_04_08_1200x150.jpg\" alt=\"Fullsize\"  srcset=\"https:\/\/e3mag.com\/wp-content\/uploads\/2026\/03\/banner_26_04_08_1200x150.jpg 1200w, https:\/\/e3mag.com\/wp-content\/uploads\/2026\/03\/banner_26_04_08_1200x150-400x50.jpg 400w, https:\/\/e3mag.com\/wp-content\/uploads\/2026\/03\/banner_26_04_08_1200x150-768x96.jpg 768w, https:\/\/e3mag.com\/wp-content\/uploads\/2026\/03\/banner_26_04_08_1200x150-100x13.jpg 100w, https:\/\/e3mag.com\/wp-content\/uploads\/2026\/03\/banner_26_04_08_1200x150-480x60.jpg 480w, https:\/\/e3mag.com\/wp-content\/uploads\/2026\/03\/banner_26_04_08_1200x150-640x80.jpg 640w, https:\/\/e3mag.com\/wp-content\/uploads\/2026\/03\/banner_26_04_08_1200x150-720x90.jpg 720w, https:\/\/e3mag.com\/wp-content\/uploads\/2026\/03\/banner_26_04_08_1200x150-960x120.jpg 960w, https:\/\/e3mag.com\/wp-content\/uploads\/2026\/03\/banner_26_04_08_1200x150-1168x146.jpg 1168w, https:\/\/e3mag.com\/wp-content\/uploads\/2026\/03\/banner_26_04_08_1200x150-18x2.jpg 18w, https:\/\/e3mag.com\/wp-content\/uploads\/2026\/03\/banner_26_04_08_1200x150-600x75.jpg 600w\" sizes=\"(max-width: 1200px) 100vw, 1200px\" width=\"1200\" height=\"150\"  style=\" max-width: 100%; height: auto;\" \/><\/a><\/div><\/div>\n<p>Anstatt aber eine komplett neue Infrastruktur f\u00fcr die Anwender zu bauen, kombiniere ich das Big-Data-System mit dem bestehenden Data Warehouse.<\/p>\n<p>Der Data Scientist bekommt das Data Lake, einen Datenbereich, in dem alle Rohdaten vorliegen, und dazu passend ein m\u00e4chtiges Werkzeug, mit dem er diese Rohdaten auch aufbereiten kann. Das Ergebnis seiner T\u00e4tigkeit sind neue Kennzahlen, die ich im Data Warehouse hinzuf\u00fcge. Das hat mehrere Vorteile:<\/p>\n<ul>\n<li>Der Business User verwendet weiter seine gewohnten Werkzeuge zur Analyse, nur hat er jetzt mehr Kennzahlen.<\/li>\n<li>Der Data Scientist hat Zugriff auf alle Daten, Big Data und ERP-Daten.<\/li>\n<li>F\u00fcr die IT ist der Aufwand \u00fcberschaubar.<\/li>\n<\/ul>\n<p>Auch im Spannungsbogen aus Kosten vs. Nutzen vs. Erfolgswahrscheinlichkeiten ist diese L\u00f6sung attraktiv: Indem ich an Bestehendes andocke, habe ich einen reduzierten Projektumfang, damit ein minimiertes Projektrisiko und eine billigere Umsetzung, aber sch\u00f6pfe dennoch den potenziellen Nutzen voll aus.<\/p>\n<p>Somit besteht eine Big-Data-L\u00f6sung nur noch aus zwei Komponenten: dem Data Lake mit den Rohdaten und einem Server-Cluster, in dem die Datenaufbereitung geschieht.<\/p>\n<h3>Data Lake oder SAP Vora<\/h3>\n<p>SAP hat in der Vergangenheit SAP Vora als Data Lake angeboten und vertreibt unter dem Namen Big Data Services die Altiscale-L\u00f6sung. Im Grunde genommen ist das Data Lake aber nur ein gro\u00dfes Filesystem. Wird trotzdem vom SAP-Vertrieb Vora, Altiscale oder DataHub vorgeschlagen, sollte man Preis und Leistung sehr kritisch hinterfragen.<\/p>\n<p>Warum nicht einfach in der ersten Projektphase mit einer lokalen Festplatte oder dem zentralen Fileserver anfangen? Solange genug Platz da ist und die Kosten f\u00fcr den Speicherplatz nicht zu hoch werden, ist das durchwegs valide. Die Files zu kopieren geht jederzeit und problemlos, daher verbaue ich nichts f\u00fcr die Zukunft.<\/p>\n<h3>Aufbereitung mit Apache Spark<\/h3>\n<p>F\u00fcr die Verarbeitung dieser Daten wird heute bei den meisten Projekten das Open Source Framework Apache Spark verwendet. Es erlaubt mit wenigen Zeilen Code Programme f\u00fcr die Datenaufbereitung zu schreiben und in einem Server-Cluster parallelisiert auszuf\u00fchren.<\/p>\n<p>Es gibt f\u00fcr mich keinen Grund, hier das Rad neu zu erfinden, noch dazu, wo so eine Installation denkbar einfach geht und in zehn Minuten erledigt ist: Das Paket auf einem kleinen Linux-Rechner herunterladen, extrahieren und \u00fcber den Befehl start-all einen Master sowie einen ersten Worker starten.<\/p>\n<h3>Herausforderung: Algorithmus<\/h3>\n<p>Die Technik ist mit obigem Ansatz handhabbar. Das Entwickeln der Algorithmen f\u00fcr die neuen Kennzahlen ist der schwierige Teil: Wie k\u00f6nnen aus den Massendaten Informationen gewonnen werden, die sich schlussendlich im Gewinn der Firma niederschlagen?<\/p>\n<p>Genau hier entscheidet sich der Erfolg eines Big-Data-Projekts. Genau hier finde ich daher auch Investition sinnvoll, etwa in die Ausbildung eines Data Scientist.<\/p>\n<p>In den folgenden Kolumnen werde ich unter anderem folgende Fragen beantworten: Warum Apache Spark verwenden und nicht ein ETL Tool? Wozu ben\u00f6tigt man das Data Lake, wenn die Daten doch schon im Data Warehouse liegen? Etc.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Big Data ist ein gro\u00dfes Thema, doch die Vielzahl an M\u00f6glichkeiten erschl\u00e4gt. Jeder SW-Anbieter kommt mit verschiedenen Produkten und unterschiedlichen Zielen. In diesen Dschungel m\u00f6chte ich etwas Struktur bringen und den Einstieg erleichtern.<\/p>\n","protected":false},"author":1891,"featured_media":62136,"comment_status":"open","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"_acf_changed":false,"pmpro_default_level":"","footnotes":""},"categories":[7,35911,36004],"tags":[937,210,927,67],"coauthors":[36006],"class_list":["post-62135","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-meinung","category-mag-1909","category-smart-big-data-integration","tag-analytics","tag-big-data","tag-data-warehouse","tag-linux","pmpro-has-access"],"acf":[],"featured_image_urls_v2":{"full":["https:\/\/e3mag.com\/wp-content\/uploads\/2019\/08\/Smart-and-Big-Data-Integration.jpg",1000,450,false],"thumbnail":["https:\/\/e3mag.com\/wp-content\/uploads\/2019\/08\/Smart-and-Big-Data-Integration-150x150.jpg",150,150,true],"medium":["https:\/\/e3mag.com\/wp-content\/uploads\/2019\/08\/Smart-and-Big-Data-Integration.jpg",400,180,false],"medium_large":["https:\/\/e3mag.com\/wp-content\/uploads\/2019\/08\/Smart-and-Big-Data-Integration-768x346.jpg",768,346,true],"large":["https:\/\/e3mag.com\/wp-content\/uploads\/2019\/08\/Smart-and-Big-Data-Integration.jpg",1000,450,false],"image-100":["https:\/\/e3mag.com\/wp-content\/uploads\/2019\/08\/Smart-and-Big-Data-Integration-100x45.jpg",100,45,true],"image-480":["https:\/\/e3mag.com\/wp-content\/uploads\/2019\/08\/Smart-and-Big-Data-Integration-480x216.jpg",480,216,true],"image-640":["https:\/\/e3mag.com\/wp-content\/uploads\/2019\/08\/Smart-and-Big-Data-Integration-640x288.jpg",640,288,true],"image-720":["https:\/\/e3mag.com\/wp-content\/uploads\/2019\/08\/Smart-and-Big-Data-Integration-720x324.jpg",720,324,true],"image-960":["https:\/\/e3mag.com\/wp-content\/uploads\/2019\/08\/Smart-and-Big-Data-Integration-960x432.jpg",960,432,true],"image-1168":["https:\/\/e3mag.com\/wp-content\/uploads\/2019\/08\/Smart-and-Big-Data-Integration.jpg",1000,450,false],"image-1440":["https:\/\/e3mag.com\/wp-content\/uploads\/2019\/08\/Smart-and-Big-Data-Integration.jpg",1000,450,false],"image-1920":["https:\/\/e3mag.com\/wp-content\/uploads\/2019\/08\/Smart-and-Big-Data-Integration.jpg",1000,450,false],"1536x1536":["https:\/\/e3mag.com\/wp-content\/uploads\/2019\/08\/Smart-and-Big-Data-Integration.jpg",1000,450,false],"2048x2048":["https:\/\/e3mag.com\/wp-content\/uploads\/2019\/08\/Smart-and-Big-Data-Integration.jpg",1000,450,false],"trp-custom-language-flag":["https:\/\/e3mag.com\/wp-content\/uploads\/2019\/08\/Smart-and-Big-Data-Integration.jpg",18,8,false],"bricks_large_16x9":["https:\/\/e3mag.com\/wp-content\/uploads\/2019\/08\/Smart-and-Big-Data-Integration.jpg",1000,450,false],"bricks_large":["https:\/\/e3mag.com\/wp-content\/uploads\/2019\/08\/Smart-and-Big-Data-Integration.jpg",1000,450,false],"bricks_large_square":["https:\/\/e3mag.com\/wp-content\/uploads\/2019\/08\/Smart-and-Big-Data-Integration.jpg",1000,450,false],"bricks_medium":["https:\/\/e3mag.com\/wp-content\/uploads\/2019\/08\/Smart-and-Big-Data-Integration.jpg",600,270,false],"bricks_medium_square":["https:\/\/e3mag.com\/wp-content\/uploads\/2019\/08\/Smart-and-Big-Data-Integration.jpg",600,270,false],"profile_24":["https:\/\/e3mag.com\/wp-content\/uploads\/2019\/08\/Smart-and-Big-Data-Integration-24x24.jpg",24,24,true],"profile_48":["https:\/\/e3mag.com\/wp-content\/uploads\/2019\/08\/Smart-and-Big-Data-Integration-48x48.jpg",48,48,true],"profile_96":["https:\/\/e3mag.com\/wp-content\/uploads\/2019\/08\/Smart-and-Big-Data-Integration-96x96.jpg",96,96,true],"profile_150":["https:\/\/e3mag.com\/wp-content\/uploads\/2019\/08\/Smart-and-Big-Data-Integration-150x150.jpg",150,150,true],"profile_300":["https:\/\/e3mag.com\/wp-content\/uploads\/2019\/08\/Smart-and-Big-Data-Integration-300x300.jpg",300,300,true]},"post_excerpt_stackable_v2":"<p>Big Data ist ein gro\u00dfes Thema, doch die Vielzahl an M\u00f6glichkeiten erschl\u00e4gt. Jeder SW-Anbieter kommt mit verschiedenen Produkten und unterschiedlichen Zielen. In diesen Dschungel m\u00f6chte ich etwas Struktur bringen und den Einstieg erleichtern.<\/p>\n","category_list_v2":"<a href=\"https:\/\/e3mag.com\/de\/category\/meinung\/\" rel=\"category tag\">Die Meinung der SAP-Community<\/a>, <a href=\"https:\/\/e3mag.com\/de\/category\/mag-1909\/\" rel=\"category tag\">MAG 19-09<\/a>, <a href=\"https:\/\/e3mag.com\/de\/category\/meinung\/smart-big-data-integration\/\" rel=\"category tag\">Smart &amp; Big Data Integration<\/a>","author_info_v2":{"name":"Werner D\u00e4hn, rtdi.io","url":"https:\/\/e3mag.com\/de\/author\/werner-daehn\/"},"comments_num_v2":"0 comments","_links":{"self":[{"href":"https:\/\/e3mag.com\/de\/wp-json\/wp\/v2\/posts\/62135","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/e3mag.com\/de\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/e3mag.com\/de\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/e3mag.com\/de\/wp-json\/wp\/v2\/users\/1891"}],"replies":[{"embeddable":true,"href":"https:\/\/e3mag.com\/de\/wp-json\/wp\/v2\/comments?post=62135"}],"version-history":[{"count":0,"href":"https:\/\/e3mag.com\/de\/wp-json\/wp\/v2\/posts\/62135\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/e3mag.com\/de\/wp-json\/wp\/v2\/media\/62136"}],"wp:attachment":[{"href":"https:\/\/e3mag.com\/de\/wp-json\/wp\/v2\/media?parent=62135"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/e3mag.com\/de\/wp-json\/wp\/v2\/categories?post=62135"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/e3mag.com\/de\/wp-json\/wp\/v2\/tags?post=62135"},{"taxonomy":"author","embeddable":true,"href":"https:\/\/e3mag.com\/de\/wp-json\/wp\/v2\/coauthors?post=62135"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}