Verteilte Hybrid Clouds verlangen ein modernes Datenmanagement
Ein graues Telefon mit Wählscheibe steht auf einem Schreibtisch. Dieses Bild formte sich plötzlich in meinem Kopf, während ich vor einigen Wochen in einer Diskussionsrunde saß. Beleuchtet wurde das Thema Datenmanagement.
Es ging um die Entwicklungen, die sich in der Datennutzung gerade vollziehen. Was mich erstaunte: Der Fokus der meisten Diskussionsteilnehmer lag eindeutig auf der betriebsinternen Nutzung der Daten. Obwohl doch der Gedanke naheliegt, Daten auch für das Geschäft mit externen Interessengruppen zu verwenden.
Der richtige Ansatz dafür kam auch in der Runde zur Sprache: Daten müssen einfach konsumierbar gemacht werden. So soll die Logistikabteilung Erkenntnisse aus Bewegungsdaten von Paketen oder Lkw gewinnen und schnell reagieren.
Ein Teilnehmer in der Runde regte an, dass ein Mitarbeiter den Kunden ja über Verzögerungen informieren könnte. In diesem Augenblick griff vor meinem geistigen Auge dieser Mitarbeiter nach dem grauen Telefon. Ich konnte förmlich hören, wie sich die Wählscheibe drehte.
Es geht jedoch nicht nur darum, einer schlecht zu skalierenden Gruppe von Mitarbeitern Daten zur Verfügung zu stellen – und darauf zu vertrauen, dass sie das Richtige damit anstellen. Ein möglichst einfacher Konsum von Daten bedeutet auch, Kunden, Händler und Partner direkt mittels Web-Services und mobiler Dienste zu informieren.
Für solche Anwendungen bietet sich eine Cloud-Infrastruktur an, die allerdings beim Datenmanagement herausfordert: Sowohl interne Systeme im lokalen Rechenzentrum als auch Web-Anwendungen in der Cloud greifen auf dieselben Daten zu, diese müssen folglich synchron gehalten werden.
Wer dafür eine klassische relationale Datenbank einsetzen will, kann dieser Herausforderung nicht begegnen. Denn für die Web- oder Mobile-App müsste das Unternehmen eine weitere Datenbank in der Cloud hinzunehmen. So entsteht jedoch ein Datensilo, das permanent nahezu in Echtzeit mit den On-premises-Daten abgeglichen werden muss. Ansonsten sind Fehlinformationen die Folge.
Die Open-Source-Datenbank Apache Cassandra eignet sich dafür besser. Cassandra verwendet selbst eine verteilte Architektur, weshalb die Java-basierte, nicht relationale Datenbank verteilte Anwendungen und hybride Systeme optimal unterstützt.
Ein Anwender setzt einen Datenbank-Cluster auf, der verschiedene Clouds und interne Rechenzentren miteinander verbindet. So stehen dieselben Daten sowohl den internen Systemen als auch beliebigen Apps in diversen Clouds zur Verfügung.
Außerdem können Unternehmen mit Cassandra jederzeit logische Datenzentren in einer weiteren Cloud oder in ihren internen Rechenzentren zum Cluster hinzufügen oder wieder entfernen – im laufenden Betrieb. Um die Synchronisierung der Daten zwischen internen und Cloud-Plattformen kümmert sich Cassandra automatisch – quasi in Echtzeit.
Daher verbinden viele Cassandra mit enormer Leistung und Skalierbarkeit. Diese Kriterien sind aber nicht für jede Anwendung relevant. Hohe Verfügbarkeit hingegen verlangt jede Applikation. Denn schon beim Umstellen auf eine neue App-Version muss oftmals eine Spalte in eine Tabelle eingefügt werden.
Bei einer relationalen Datenbank kann nicht auf diese Tabelle zugegriffen werden, um die benötigte Spalte hinzuzufügen. Bei Cassandra dagegen geht das ohne Downtime.
In der Praxis entwickeln sich verteilte Hybrid Clouds. Diese erfordern ein leicht konsumierbares Datenmanagement. Die großen digitalen Konzerne standen zuerst vor dieser Herausforderung.
Mittlerweile haben Cassandra und seine kommerzielle Version, DataStax Enterprise, viele Top-Tech-Player implementiert – darunter Apple, Netflix, Twitter oder FedEx. Sie optimieren ihre Geschäftsprozesse, den Umgang mit Stakeholdern sowie die Erfahrung ihrer Kunden mithilfe von Right-Now-Anwendungen.
Die Nutzung der Enterprise-Variante sichert ihnen zudem Support, Trainings und Services für eine leichte Administration, ein einfaches Operating oder Monitoring der Datenbanken.