Flussi di dati: nel posto giusto al momento giusto

Una piattaforma cloud per i flussi di dati al servizio del settore delle telecomunicazioni

Scenario

La quantità di dati a disposizione di una società di telecomunicazioni, così come la quantità di dati che essa genera ogni giorno, è enorme ma anche estremamente utile. Questi includono le informazioni sui contratti dei clienti, log di dati interni e molto altro. Per fare in modo che tutti i reparti di un importante provider di telecomunicazioni potessero usare in maniera efficiente la moltitudine di dati che ogni giorno raggiunge, attraversa o abbandona l'organizzazione, la società utilizza da tempo l'approccio del flusso dei dati.

Per la società era importante che i vari reparti ricevessero gli stessi set di dati in modo da poterli usare per le rispettive esigenze. Mentre la business intelligence di una società si concentra sull'analisi dei dati e sulla derivazione da essi di nuovi casi d'uso nella maniera più precisa possibile, i reparti tecnici li utilizzano per sviluppare nuove applicazioni. Nel complesso, le informazioni ottenute dall'analisi dei dati permettono a una società di conoscere meglio numerosi aspetti della propria organizzazione e delle attività dei clienti, come l'attività dei server o l'utilizzo dei servizi da parte dei clienti, nonché di rispondere rapidamente al mutare delle situazioni.

Soluzione

Per poter reagire a tutte le sfide derivanti dall'elaborazione di grandi quantità di dati, il provider dei servizi di telecomunicazione ha deciso di implementare una soluzione cloud-based all'interno delle unità aziendali insieme agli esperti di Data Reply.

Al fine di implementare in maniera efficiente la piattaforma per i flussi di dati utilizzata a tale scopo, è stato scelto il sistema Kubernetes su AWS con account multipli. Questa soluzione permette di leggere i dati in ingresso in tempo reale.

I requisiti


1. Tra le esigenze del cliente vi era quella di impostare i vari ambienti dei cluster Kafka in modo tale che i dati venissero acquisiti dalle proprie sorgenti effettive. Oltre a questa infrastruttura scalabile, ora possono essere creati nuovi casi d'uso relativamente ai big data.

2. Un altro requisito consisteva nel fatto che la soluzione dovesse essere automatizzata, scalabile e tollerante ai guasti. La sfida per gli specialisti di Data Reply è stata quella di trasferire su cloud le proprie attuali conoscenze in merito alla costruzione di piattaforme data-lake on premise. Questo requisito implicava uno sviluppo maggiore in termini di sicurezza e di scalabilità adeguata dei cluster Kafka.

L'implementazione tecnica

La soluzione sviluppata è completamente crittografata, per assicurare la sicurezza necessaria, e permette l'autorizzazione e l'autenticazione a livello dei dati. Data Reply ha riprogettato l'intera infrastruttura Kafka su un cluster Kubernetes per gestire alcuni dei problemi che altrimenti sarebbe stato difficile risolvere. Uno dei vantaggi di Kafka è la verifica automatizzata della coerenza dei dati. Se, ad esempio, viene cancellata per errore una colonna di un set di dati, ciò non implica l'insuccesso del processo: Kafka rileva automaticamente le incoerenze e interrompe il sistema prima che il set di dati venga distrutto.

Inoltre, per il progetto è stato scelto l'approccio DevOps per garantire uno sviluppo flessibile e rapido della soluzione e facilitare al tempo stesso la collaborazione tra gli specialisti di data-lake di Data Reply e i colleghi della società di telecomunicazioni.

Disponibilità in pochi minuti

La soluzione ha aumentato significativamente la velocità con cui è possibile utilizzare le piattaforme. La distribuzione di un cluster che contenga già tutti i dati necessari ora richiede meno di 30 minuti. Grazie all'automazione e alla scalabilità della soluzione, tutto è diventato replicabile per ciascun reparto dell'organizzazione, la quale non impiega più diversi mesi per effettuare una distribuzione senza l'infrastruttura. Inoltre, la varietà di casi d'uso che possono essere utilizzati nella piattaforma aziendale si è ampliata.

Il progetto è attualmente in fase di sviluppo ulteriore per poter implementare nuovi task interni, come ad esempio l'implementazione del GDPR. Tale direttiva richiede nuovi strumenti per poter garantire determinati requisiti in maniera rapida, come la cancellazione dei dati dei clienti su richiesta.

Vantaggi della soluzione

  • Prodotto open source flessibile
  • Infrastruttura semplice
  • Particolarmente adatto per i flussi di dati e le azioni trigger
  • Autoscalabile
  • Controllo automatizzato della coerenza dei dati