Best Practice

Datenströme: Zur richtigen Zeit am richtigen Ort

Eine Cloud-Streaming-Plattform für die Telekommunikationsbranche.

Ausgangslage

Die Datenmengen, die einem Telekommunikationsunternehmen täglich zur Verfügung stehen und die es in jeder Minute generiert, sind zum einen enorm groß, zum anderen aber auch höchst nützlich.

Dazu gehören Informationen zu Kundenverträgen, interne Datenlogs und viele weitere. Damit es allen Abteilungen eines großen Telekommunikationsanbieters möglich wurde, die Fülle an Daten, die das Unternehmen täglich erreichen, durchlaufen oder verlassen, effizient zu nutzen, setzt das Unternehmen seit einiger Zeit auf den Ansatz des Data Streamings.

Wichtig war es für das Unternehmen, dass verschiedene Abteilungen gleichermaßen mit Datensätzen versorgt werden können um sie für ihre jeweiligen Anliegen nutzen zu können. Während es in der Business Intelligence eines Unternehmens darum geht, Daten zu analysieren und daraus möglichst präzise neue Use Cases abzuleiten, nutzen technische Abteilungen sie für die Entwicklung neuer Applikationen. Insgesamt ermöglichen es die Informationen, die aus den Datenanalysen gewonnen werden, einem Unternehmen, Einblicke in viele Aspekte seiner Organisation und die Kundenaktivitäten zu erhalten, wie beispielsweise Serveraktivitäten oder die Nutzung von Services durch Kunden und somit eine schnelle Reaktion auf sich ändernde Situationen.

Lösung

Um auf alle Herausforderungen der Verarbeitung von Data Lakes reagieren zu können, entschied sich der Telekommunikationsdienstleister zusammen mit den Experten von Data Reply für die Einführung einer Cloud-basierten Lösung innerhalb der Business Units.

Damit die hierfür eingesetzte Data-Streaming-Plattform effizient umgesetzt werden kann, entschied man sich für Kubernetes auf AWS mit mehreren Accounts. Mit dieser Lösung können die eingehenden Daten in Echtzeit gelesen werden.

Anforderungen

1. Die Anforderung des Kunden war es, dass die verschiedenen Kafka-Cluster-Umgebungen so aufgesetzt werden, dass sie die Möglichkeit bieten, Daten aus ihren tatsächlichen Quellen aufzunehmen.

Zusätzlich zu dieser skalierbaren Infrastruktur können nun neue Big Data Use Cases erstellt werden.

2. Eine weitere Anforderung war es, dass die Lösung automatisiert, skalierbar und fehlertolerant sein sollte. Dabei bestand die Herausforderung für die Spezialisten von Data Reply darin, ihr aktuelles Wissen über den Aufbau von Data-Lake-Plattformen beim Kunden in die Cloud zu übertragen. Diese Anforderung bedeutete ein Mehr an Entwicklungsarbeit in Sachen Sicherheit und die geeignete Skalierung der Kafka-Cluster.

Technische Umsetzung

Die erarbeitete Lösung ist – um die geforderte Sicherheit zu gewährleisten – vollständig verschlüsselt und hat die Autorisierung und Authentifizierung auf Datenebene aktiviert. Data Reply hat die gesamte Kafka-Infrastruktur auf einem Kubernetes-Cluster neugestaltet, dadurch konnte ein Teil der Probleme bewältigte werden, die sonst nur schwer zu lösen gewesen wären. Einer der Vorteile von Kafka ist der automatisierte Nachweis der Datenkonsistenz. Wird beispielsweise eine Spalte eines Datensatzes versehentlich gelöscht, bedeutet das keine Störung für den Prozess: Kafka erkennt Inkonsistenzen automatisch und stoppt das System, bevor der Datensatz zerstört werden kann.

Um eine agile und schnelle Entwicklung der Lösung gewährleisten zu können und gleichzeitig die Zusammenarbeit zwischen den Data-Lake-Spezialisten von Data Reply und den Kollegen des Tekekommunikationsunternehmens zu erleichtern wurde für das Projekt der DevOps-Ansatz gewählt.

Die Vorteile der Lösung

- Flexibles Open-Source-Produkt
- Einfache Infrastruktur
- Sehr gut geeignet für Data Streaming und das Antriggern von Aktionen
- Autoskalierbar
- Automatisierte Prüfung der Datenkonsistenz

Extrem schnelle Verfügbarkeit

Die Lösung hat die Geschwindigkeit, mit der die Plattformen bereitgestellt werden können, deutlich erhöht. Die Bereitstellung eines Clusters, das bereits alle angeforderten Daten enthält, dauert nun weniger als 30 Minuten. Durch die Automatisierung und Skalierbarkeit der Lösung ist alles für die einzelnen Abteilungen des Unternehmens replizierbar geworden und es dauert nicht mehr mehrere Monate, die das Unternehmen zuvor ohne die Infrastruktur für die Bereitstellung benötigt hätte. Darüber hinaus wurde die Vielfalt der Anwendungsfälle, die auf der Plattform des Unternehmens bereitgestellt werden können, erweitert. Das Projekt befindet sich aktuell in der Weiterentwicklung um weitere interne Aufgaben beispielsweise im Hinblick auf die GDPR-Implementierung umsetzen zu können. Durch die Richtlinie werden neue Tools benötigt, um Anforderungen wie die Löschung von Kundendate auf dessen Wunsch hin schnell gewährleisten zu können.