Information et éducation par et pour la communauté SAP

Big-Data-Architektur

Big Data ist ein großes Thema, doch die Vielzahl an Möglichkeiten erschlägt. Jeder SW-Anbieter kommt mit verschiedenen Produkten und unterschiedlichen Zielen. In diesen Dschungel möchte ich etwas Struktur bringen und den Einstieg erleichtern.
Werner Dähn, rtdi.io
2 octobre 2019
Intégration de données intelligentes et big data
avatar
Ce texte a été automatiquement traduit en français de l'allemand

Als Software-Architekt habe ich das Ziel, komplizierte Aufgaben über einfache Lösungen zu erreichen. Die einzelnen Bestandteile einer Lösung haben jeweils Vor- und Nachteile, die Kunst ist, sie so zu kombinieren, dass in Summe die Vorteile erhalten bleiben und die Nachteile sich gegenseitig aufheben.

Für viele SAP-Anwender wird es im ersten Schritt darum gehen, Analytics mit Big Data zu ermöglichen, also in diesen riesigen Datenmengen interessante Informationen zu finden.

Anstatt aber eine komplett neue Infrastruktur für die Anwender zu bauen, kombiniere ich das Big-Data-System mit dem bestehenden Data Warehouse.

Der Data Scientist bekommt das Data Lake, einen Datenbereich, in dem alle Rohdaten vorliegen, und dazu passend ein mächtiges Werkzeug, mit dem er diese Rohdaten auch aufbereiten kann. Das Ergebnis seiner Tätigkeit sind neue Kennzahlen, die ich im Data Warehouse hinzufüge. Das hat mehrere Vorteile:

  • Der Business User verwendet weiter seine gewohnten Werkzeuge zur Analyse, nur hat er jetzt mehr Kennzahlen.
  • Der Data Scientist hat Zugriff auf alle Daten, Big Data und ERP-Daten.
  • Für die IT ist der Aufwand überschaubar.

Auch im Spannungsbogen aus Kosten vs. Nutzen vs. Erfolgswahrscheinlichkeiten ist diese Lösung attraktiv: Indem ich an Bestehendes andocke, habe ich einen reduzierten Projektumfang, damit ein minimiertes Projektrisiko und eine billigere Umsetzung, aber schöpfe dennoch den potenziellen Nutzen voll aus.

Somit besteht eine Big-Data-Lösung nur noch aus zwei Komponenten: dem Data Lake mit den Rohdaten und einem Server-Cluster, in dem die Datenaufbereitung geschieht.

Data Lake oder SAP Vora

SAP hat in der Vergangenheit SAP Vora als Data Lake angeboten und vertreibt unter dem Namen Big Data Services die Altiscale-Lösung. Im Grunde genommen ist das Data Lake aber nur ein großes Filesystem. Wird trotzdem vom SAP-Vertrieb Vora, Altiscale oder DataHub vorgeschlagen, sollte man Preis und Leistung sehr kritisch hinterfragen.

Warum nicht einfach in der ersten Projektphase mit einer lokalen Festplatte oder dem zentralen Fileserver anfangen? Solange genug Platz da ist und die Kosten für den Speicherplatz nicht zu hoch werden, ist das durchwegs valide. Die Files zu kopieren geht jederzeit und problemlos, daher verbaue ich nichts für die Zukunft.

Aufbereitung mit Apache Spark

Für die Verarbeitung dieser Daten wird heute bei den meisten Projekten das Open Source Framework Apache Spark verwendet. Es erlaubt mit wenigen Zeilen Code Programme für die Datenaufbereitung zu schreiben und in einem Server-Cluster parallelisiert auszuführen.

Es gibt für mich keinen Grund, hier das Rad neu zu erfinden, noch dazu, wo so eine Installation denkbar einfach geht und in zehn Minuten erledigt ist: Das Paket auf einem kleinen Linux-Rechner herunterladen, extrahieren und über den Befehl start-all einen Master sowie einen ersten Worker starten.

Herausforderung: Algorithmus

Die Technik ist mit obigem Ansatz handhabbar. Das Entwickeln der Algorithmen für die neuen Kennzahlen ist der schwierige Teil: Wie können aus den Massendaten Informationen gewonnen werden, die sich schlussendlich im Gewinn der Firma niederschlagen?

Genau hier entscheidet sich der Erfolg eines Big-Data-Projekts. Genau hier finde ich daher auch Investition sinnvoll, etwa in die Ausbildung eines Data Scientist.

In den folgenden Kolumnen werde ich unter anderem folgende Fragen beantworten: Warum Apache Spark verwenden und nicht ein ETL Tool? Wozu benötigt man das Data Lake, wenn die Daten doch schon im Data Warehouse liegen? Etc.

avatar
Werner Dähn, rtdi.io

Werner Dähn est spécialiste de l'intégration des données et directeur de rtdi.io.


Écrire un commentaire

Le travail sur la base SAP est essentiel pour réussir la conversion S/4. 

Ce que l'on appelle le centre de compétences prend ainsi une importance stratégique chez les clients existants de SAP. Indépendamment du modèle d'exploitation d'un S/4 Hana, les thèmes tels que Automatisation, Suivi, Sécurité, Gestion du cycle de vie des applications et Gestion des données la base de l'exploitation opérationnelle de S/4.

Pour la deuxième fois déjà, le magazine E3 organise à Salzbourg un sommet pour la communauté SAP afin de s'informer en détail sur tous les aspects du travail de base de S/4-Hana.

Lieu de la manifestation

FourSide Hôtel Salzbourg,
Trademark Collection by Wyndham
Am Messezentrum 2, 5020 Salzbourg, Autriche
+43-66-24355460

Date de l'événement

mercredi 10 juin, et
Jeudi 11 juin 2026

Billet d'entrée anticipé

Billet régulier

EUR 390 hors TVA
disponible jusqu'au 1.10.2025
EUR 590 hors TVA

Lieu de la manifestation

Hôtel Hilton Heidelberg
Kurfürstenanlage 1
D-69115 Heidelberg

Date de l'événement

mercredi 22 avril et
Jeudi 23 avril 2026

Billets

Billet régulier
EUR 590 hors TVA
Abonnés au magazine E3
à prix réduit avec le Promocode STAbo26
EUR 390 hors TVA
Étudiants*
à prix réduit avec le Promocode STStud26.
Veuillez envoyer votre certificat d'études par e-mail à office@b4bmedia.net.
EUR 290 hors TVA
*Les 10 premiers billets sont gratuits pour les étudiants. Tentez votre chance ! 🍀
L'organisateur est le magazine E3 de la maison d'édition B4Bmedia.net AG. Les conférences seront accompagnées d'une exposition de partenaires SAP sélectionnés. Le prix du billet comprend la participation à toutes les conférences du Steampunk and BTP Summit 2026, la visite de l'espace d'exposition, la participation à la soirée et les repas pendant le programme officiel. Le programme des conférences et la liste des exposants et des sponsors (partenaires SAP) seront publiés en temps utile sur ce site.