V² für Big Data
Zugegeben, der Begriff „V2“ stammt von mir und mein Mathelehrer würde mich dafür rügen. Das erste V in V2 steht für die römische Ziffer 5 und das zweite V jeweils für die fünf Begriffe, auf die wir jetzt eingehen und die als Basis für Big Data dienen. Der Begriff ist nicht geschützt und wird als Etikett gerne im Marketing benutzt.
Als Erstes „V“ wie Volume. Hier sind tatsächlich die großen bis riesigen Datenmengen gemeint, die heute bei jedem von uns und in Unternehmen auftreten können.
Nach verschiedenen Quellen lag 2018 die weltweit gespeicherte Datenmenge bei 33 ZB (Zettabyte). 1 ZB entspricht 1000 EB (Exabyte) oder 1 Mrd. TB (Terabyte).
Da man von einem jährlichen Wachstum von circa 27 Prozent ausgeht, entspricht das einer Verdoppelung alle 3 Jahre (!). Der größte Datenproduzent ist interessanterweise das produzierende Gewerbe, gefolgt von Handel, Finanzdienstleistungen, Infrastruktur sowie Medien und Unterhaltung.
Erst dann folgen Gesundheit und Transport, bei denen ich allerdings einen starken Trend nach oben sehe. Vor allem, wenn sich die Geschwindigkeit der Datenübertragung (zum Beispiel 5G) erhöht.
Auch geht es um die Geschwindigkeit, die großen Datenmengen und teils komplexen Algorithmen durchzuführen. Diese Geschwindigkeit „Velocity“ ist das zweite „V“.
Der Wert von Daten ist umso größer, je aktueller sie sind. Ein Beispiel ist, wenn Sie eine Webseite mit Werbung aufrufen und Sie anhand der Cookies die passende Werbung zugeschaltet bekommen, die ein Anbieter in diesem Moment passend für Sie gekauft hat.
Das leitet über zum dritten „V“ wie Variety: erhobene Daten kommen nicht nur in sehr unterschiedlichen Dateiformaten daher, die meisten (circa 80 Prozent) sind dazu noch unstrukturiert, wie Texte, Audio, Video, Chats, Bewegungsprofile usw.
Eine der Erwartungen in Big Data ist es, diese Daten auswertbar und damit verwendbar zu machen. Beispiele sind Vorhersagen über Verhalten, bei denen die unstrukturierten Daten heute schon eingesetzt werden für Vorhersagen über kommende Katastrophen aus der Kommunikation in den betroffenen Gebieten verknüpft mit Wetter-, historischen Daten und Geodaten.
Unabhängig von der Datenmenge müssen Daten valide sein. Daher das vierte „V“ für Validity. Ist das, was ich messe, repräsentativ und wie ist die Korrelation zu dem Verhalten, welches ich vorhersagen möchte?
So korrelieren zwar Geburtenrate bei Menschen und Population der Störche, aber es gibt keinen kausalen Zusammenhang. Umgekehrt soll schon Walmart vor 20 Jahren herausgefunden haben, dass sich (vor allem freitags) Windeln und Bier gut zusammen verkaufen.
Hintergrund ist, dass (angeblich) junge Väter zum Windelnkaufen geschickt wurden und dann für sich noch Bier mitgenommen haben. Aufgrund der Kostenstruktur und Geschwindigkeit von SAP-Systemen werden die Erhebung und Verarbeitung nach den o. a. „V“ eher in Systemen außerhalb von SAP durchgeführt und die Ergebnisse dann übertragen.
Das fünfte „V“ steht für „Value“, also welchen Wert die durch Big Data gewonnenen Daten haben. Dies reicht von zielgerichtetem Marketing über die Optimierung von Geschäftsprozessen oder Wertschöpfungsketten bis hin zu neuen Geschäftsmodellen. Auch wenn Big Data viele Möglichkeiten bietet, es ist nicht zum Nulltarif zu bekommen und der Nutzen muss entsprechend hoch sein.
Ich möchte Ihnen nicht vorenthalten, dass es in der aktuellen Diskussion weitere „V“ gibt, die auch Beachtung verdienen. Da gibt es zum Beispiel „V“ wie „Veracity“ (Richtigkeit): Je höher die Qualität, desto größer der informative Nutzen. Oder „Volatility“, also Flüchtigkeit, bezogen auf die Verfügbarkeit von Daten.
Oder „Viability“ als die richtige Auswahl der zur Verfügung stehenden Daten. Wie Sie sehen, gibt es viele Stellschrauben, welche den Nutzen von Big Data ausmachen. Wenn Sie diese Kolumne bis zum Ende gelesen haben und Ihnen noch nicht der Kopf von all diesen „V“-Wörtern brummt, können Sie getrost ein „V“ wie „Victory“ machen.