Information et éducation par et pour la communauté SAP

SAP Big Data – was ist Big Data?

Was genau ist mit dem Begriff Big Data eigentlich gemeint? Bedeutet Big Data einfach Massendaten, also „viele Daten“ im Data Warehouse? Oder ist Big Data ein Ersatz für das Data Warehouse?
Werner Dähn, rtdi.io
28 novembre 2019
Intégration de données intelligentes et big data
avatar
Ce texte a été automatiquement traduit en français de l'allemand

Mit der direkten Übersetzung Massendaten trifft man nur einen Aspekt. Alle normalen Daten aus dem ERP-System und anderen Datenbanken sind auch Massendaten.

Bezüglich des Volumens an Daten muss von Mengen gesprochen werden, die zu groß für Datenbanken sind – zu groß im absoluten Sinn oder im Sinn von Kosten/Nutzen.

Der interessantere Aspekt ist der Grad an Struktur in den Daten. Das ERP-System beinhaltet zu 99 Prozent gut strukturierte Daten, etwa das Feld MATART (Material Typ) in der Tabelle MARA (Materialstamm).

Das eine Prozent sind Freitexte wie eine Liefernotiz. Bei Big Data ist es das andere Extrem und die spannenden Informationen stecken in den unstrukturierten Datenbereichen. Wann und wo ein Foto aufgenommen wurde, ist interessant, aber was das Bild zeigt ungleich wichtiger.

Damit einher geht auch die Art der Datenaufbereitung. Ist es bei Datenbanken eine Abfrage wie „Summe Umsatz pro Monat“, redet man bei obigem Beispiel plötzlich von Bildanalyse.

Selbst bei nicht so extremen Fällen, etwa Logfiles, werden nicht einfache Summierungen und Zählungen vorgenommen. Datenbanken sind somit die schlechteste Wahl für solche Daten.

Die wichtigste Definition von Big Data ist allerdings „alle Daten, die man heute nicht zur Steigerung des Unternehmensgewinnes heranzieht“. Hier ist Kreativität angesagt. Eines meiner letzten Projekte hat die Auslastung der Server im Rechenzentrum mitgeschrieben – mit dem Ziel, die Anzahl der Server zu reduzieren.

Ein Beispiel: Es sollen die Verkäufe mit der Information verknüpft werden, wie intensiv sich Kunden das jeweilige Produkt auf der Webseite angesehen haben. Beispielsweise wird ein Produkt in den Medien beworben.

Wird diese Werbung wahrgenommen? Wenn ja, müssten erhöhte Zugriffszahlen auf den zugehörigen Produktseiten zu sehen sein. Lesen Interessenten die Produktseite kurz, sind sofort überzeugt und kaufen danach?

Der Webserver schreibt schon alle Seitenzugriffe in Logfiles, aber nach einer Woche werden sie gelöscht. Die Daten dafür wären also vorhanden, sie werden nur noch nicht verwendet.

Das Ziele ist maximale Effektivität und Flexibilität. Vor ein paar Jahren war Map Reduce auf Hadoop das Nonplusultra, dann kam Apache Spark. Es konnte mehr, bei besserer Performance und größerer Mächtigkeit.

Lange Zeit war Apache Hive der Weg, heute sind es Parquet Files. In so einem dynamischen Umfeld möchte ich nicht viele Ressourcen für eine potenziell kurzfristig verwendete Lösung ausgeben und auch die Offenheit haben, jederzeit auf etwas Neues umschwenken zu können.

Aktuell ist Apache Spark so eine mächtige, aber gleichzeitig offene Lösung. Damit werden mit einer Code-Zeile die Logfiles des Webservers in Zeilen und Spalten zerlegt. Aufwändiger ist, die Logik zu entwickeln, wie aus dem Verlauf der Seitenaufrufe die Lesedauer pro Seite abgeleitet werden kann.

Füge ich diese und weitere Kennzahlen schlussendlich zum Data Warehouse hinzu, ermöglicht es kombinierte Analysen – etwa für ein Produkt die Kennzahlen Umsatz, Lesedauer und Seitenzugriffe über den zeitlichen Verlauf zu visualisieren.

Bis vor Kurzem war die Speicherung und die Verarbeitung von sekundären Daten preislich nicht attraktiv. Das Volumen der Daten war zu groß, die Informationsdichte zu gering und der einzige Weg, Daten effektiv zu verarbeiten, war mit datenbanknahen Werkzeugen.

Mit dem Apache Hadoop Filesystem (HDFS) können aus billigen PC-Komponenten große Filesysteme geformt werden, anstatt ein teures Disk-Array zu kaufen. Apache Spark kann diese großen Datenmengen verarbeiten, mit den zugehörigen komplexen Algorithmen inklusive statistischer Methoden und Machine Learning.

Die Werkzeuge aus dem Data-Warehouse-Bereich, inklusive die von SAP, haben sich an diese Situation angepasst und bieten direkten Zugriff auf Hadoop Files oder schicken Transformationsaufgaben an einen angeschlossenen Spark Cluster. Eine sehr einfache Möglichkeit, um von Hana aus Daten zu lesen, ist über den SAP Hana Spark Connector.

avatar
Werner Dähn, rtdi.io

Werner Dähn est spécialiste de l'intégration des données et directeur de rtdi.io.


Écrire un commentaire

Le travail sur la base SAP est essentiel pour réussir la conversion S/4. 

Ce que l'on appelle le centre de compétences prend ainsi une importance stratégique chez les clients existants de SAP. Indépendamment du modèle d'exploitation d'un S/4 Hana, les thèmes tels que Automatisation, Suivi, Sécurité, Gestion du cycle de vie des applications et Gestion des données la base de l'exploitation opérationnelle de S/4.

Pour la deuxième fois déjà, le magazine E3 organise à Salzbourg un sommet pour la communauté SAP afin de s'informer en détail sur tous les aspects du travail de base de S/4-Hana.

Lieu de la manifestation

FourSide Hôtel Salzbourg,
Trademark Collection by Wyndham
Am Messezentrum 2, 5020 Salzbourg, Autriche
+43-66-24355460

Date de l'événement

mercredi 10 juin, et
Jeudi 11 juin 2026

Billet d'entrée anticipé

Billet régulier

EUR 390 hors TVA
disponible jusqu'au 1.10.2025
EUR 590 hors TVA

Lieu de la manifestation

Hôtel Hilton Heidelberg
Kurfürstenanlage 1
D-69115 Heidelberg

Date de l'événement

mercredi 22 avril et
Jeudi 23 avril 2026

Billets

Billet régulier
EUR 590 hors TVA
Abonnés au magazine E3
à prix réduit avec le Promocode STAbo26
EUR 390 hors TVA
Étudiants*
à prix réduit avec le Promocode STStud26.
Veuillez envoyer votre certificat d'études par e-mail à office@b4bmedia.net.
EUR 290 hors TVA
*Les 10 premiers billets sont gratuits pour les étudiants. Tentez votre chance ! 🍀
L'organisateur est le magazine E3 de la maison d'édition B4Bmedia.net AG. Les conférences seront accompagnées d'une exposition de partenaires SAP sélectionnés. Le prix du billet comprend la participation à toutes les conférences du Steampunk and BTP Summit 2026, la visite de l'espace d'exposition, la participation à la soirée et les repas pendant le programme officiel. Le programme des conférences et la liste des exposants et des sponsors (partenaires SAP) seront publiés en temps utile sur ce site.