Information und Bildungsarbeit von und für die SAP-Community

Was ist Big Data?

Viele Firmen stehen in Bezug auf Big Data am Anfang. Man hat erste Ideen. Das Potenzial wird ausgelotet. Auch SAP hat unterschiedliche Herangehensweisen an das Thema, je nachdem mit welcher Abteilung man spricht.
Werner Dähn, rtdi.io
31. Oktober 2019
Smart-and-Big-Data-Integration
avatar

Die größte Hürde zu Beginn ist der Begriff Big Data selbst. Die direkte Übersetzung Massendaten trifft leider nur einen Aspekt. Alle normalen Daten aus dem ERP-System und anderen Datenbanken sind auch Massendaten.

Bezüglich des Volumens muss also von Mengen gesprochen werden, die zu groß für Datenbanken sind – zu groß im absoluten Sinn oder im Sinn von Kosten und Nutzen. Ein anderer Aspekt ist der Grad an Struktur in den Daten.

Das ERP-System beinhaltet zu 99 Prozent gut strukturierte Daten. Die ein Prozent sind Freitexte wie eine Liefernotiz. Bei Big Data ist es das andere Extrem und die spannenden Informationen stecken in den unstrukturierten Datenbereichen. Wann und wo ein Foto aufgenommen wurde, ist interessant, aber was das Bild zeigt, ungleich wichtiger.

Damit einher geht auch die Art der Datenaufbereitung. Ist es bei Datenbanken eine Abfrage wie „Summe Umsatz pro Monat“, redet man bei obigen Beispielen plötzlich von Bildanalyse und Textanalyse.

Die wichtigste Definition von Big Data ist allerdings „alle Daten, die man heute nicht zur Steigerung des Unternehmensgewinnes heranzieht“. Hier ist Kreativität angesagt.

Eines meiner vergangenen Projekte hat die Auslastung der Server im Rechenzentrum mitgeschrieben – mit dem Ziel, die Anzahl der Server zu reduzieren. Um das zu verdeutlichen, möchte ich ein Beispiel bringen.

Es sollen die Verkäufe mit der Information verknüpft werden, wie intensiv sich Kunden das jeweilige Produkt auf der Webseite angesehen haben. Beispielsweise wird ein Produkt in den Medien beworben. Wird diese Werbung wahrgenommen?

Wenn ja, müssten erhöhte Zugriffszahlen auf den zugehörigen Produktseiten zu sehen sein. Lesen Interessenten die Produktseite kurz, sind sofort überzeugt und kaufen danach? Oder lesen sie die technischen Daten sehr genau und kaufen dann doch nicht?

Hat man eine Idee, welche Daten mit Big Data analysiert werden sollen, stellt sich die Frage nach einer zukunftsträchtigen Architektur. Gerade im Big-Data-Bereich werden ständig neue Produkte entwickelt, die Altes ersetzen. Vor ein paar Jahren war Map Reduce auf Hadoop das Nonplusultra, dann kam Apache Spark, das bessere Performance und größere Mächtigkeit hat.

Lange Zeit war Apache Hive der Weg, heute sind es Parquet Files. In so einem dynamischen Umfeld möchte ich nicht viel Geld für eine potenziell kurzfristig verwendete Lösung ausgeben und auch die Offenheit haben, jederzeit auf etwas Neues umschwenken zu können.

Apache Spark passt zu diesem Wunsch nach einer mächtigen, aber gleichzeitig offenen Lösung und wird deswegen in fast jedem Projekt weltweit eingesetzt.

Die Installation ist einfach, komplexe Transformationen sind mit weniger Codezeilen möglich und die Software kostet nichts. Die großen Kosten würden beim Aufbau eines BI-Systems dafür entstehen.

Daher füge ich die mit Spark berechneten Kennzahlen stattdessen zum existierenden Data Warehouse hinzu und ermögliche den Benutzern, mit den altbekannten Werkzeugen neue Analysen durchzuführen – etwa für ein Produkt jetzt den Umsatz zusätzlich mit Lesedauer und Seitenzugriffen zu korrelieren.

Fazit und Zukunft: Bis vor Kurzem waren die Speicherung und die Verarbeitung von so sekundären Daten preislich nicht attraktiv. Das Volumen der Daten war zu groß, die Informationsdichte zu gering und der einzige Weg, Daten effektiv zu verarbeiten, war mit DB-nahen Werkzeugen.

Diese Argumente gelten heute nicht mehr. Mit dem Apache Hadoop Filesystem (HDFS) können aus billigen PC-Komponenten große Filesysteme geformt werden, anstatt ein teures Disk-Array zu kaufen.

Apache Spark kann diese großen Datenmengen verarbeiten, mit den zugehörigen komplexen Algorithmen inklusive statistischer Methoden und Machine Learning.

Und die Lösung: Die Werkzeuge aus dem Data-­Warehouse-Bereich, inklusive die von SAP, haben sich an diese Situation angepasst und bieten direkten Zugriff auf Hadoop-Files oder schicken Transformationsaufgaben an einen angeschlossenen Spark Cluster. Eine dieser verkannten Perlen ist der SAP Hana Spark Connector.

avatar
Werner Dähn, rtdi.io

Werner Dähn ist Data Integration Specialist und Geschäftsführer von rtdi.io.


Schreibe einen Kommentar

Die Arbeit an der SAP-Basis ist entscheidend für die erfolgreiche S/4-Conversion. 

Damit bekommt das sogenannte Competence Center bei den SAP-Bestandskunden strategische Bedeutung. Unhabhängig vom Betriebsmodell eines S/4 Hana sind Themen wie Automatisierung, Monitoring, Security, Application Lifecycle Management und Datenmanagement die Basis für den operativen S/4-Betrieb.

Zum zweiten Mal bereits veranstaltet das E3-Magazin in Salzburg einen Summit für die SAP-Community, um sich über alle Aspekte der S/4-Hana-Basisarbeit umfassend zu informieren.

Veranstaltungsort

Mehr Informationen folgen in Kürze.

Veranstaltungsdatum

Mittwoch, 21. Mai, und
Donnerstag, 22. Mai 2025

Early-Bird-Ticket

Verfügbar bis Freitag, 24. Januar 2025
EUR 390 exkl. USt.

Reguläres Ticket

EUR 590 exkl. USt.

Veranstaltungsort

Hotel Hilton Heidelberg
Kurfürstenanlage 1
D-69115 Heidelberg

Veranstaltungsdatum

Mittwoch, 5. März, und
Donnerstag, 6. März 2025

Tickets

Reguläres Ticket
EUR 590 exkl. USt
Early-Bird-Ticket

Verfügbar bis 24. Dezember 2024

EUR 390 exkl. USt
Veranstalter ist das E3-Magazin des Verlags B4Bmedia.net AG. Die Vorträge werden von einer Ausstellung ausgewählter SAP-Partner begleitet. Der Ticketpreis beinhaltet den Besuch aller Vorträge des Steampunk und BTP Summit 2025, den Besuch des Ausstellungsbereichs, die Teilnahme an der Abendveranstaltung sowie die Verpflegung während des offiziellen Programms. Das Vortragsprogramm und die Liste der Aussteller und Sponsoren (SAP-Partner) wird zeitnah auf dieser Website veröffentlicht.