Agency Health Check

Technology Reply ha progettato ed implementato un'architettura su cloud per un'importante compagnia assicurativa italiana in risposta al bisogno di disporre di un sistema in grado di riconoscere, categorizzare e visualizzare eventi IT critici

Scenario

Nell'ambito delle iniziative per il monitoraggio dei disservizi, una importante compagnia assicurativa italiana aveva mostrato interesse nel disporre di un sistema in grado di riconoscere, categorizzare e visualizzare eventi IT critici che generassero un impatto sulla operatività delle oltre 1000 agenzie dislocate nei vari comuni italiani. Technology Reply ha preso in carico questa richiesta e ha progettato e implementato un'architettura su cloud che rispondesse a questo bisogno, fornendo un sistema in grado di analizzare un elevato flusso di eventi in tempo reale, rilevare tra di essi eventuali criticità o anomalie e segnalare geograficamente su una mappa web i disservizi ritenuti critici.

Vantaggi

  • Infrastruttura basata su cloud, flessibile e scalabile in base alle necessità e alla quantità di dati da elaborare
  • Servizi su cloud autogestiti che permettono di ridurre i tempi e i costi della messa in produzione dell'applicazione
  • Sistema di monitoraggio in near real-time per consentire rapidi tempi di reazione ai disservizi
  • Portale web per la visione dettagliata dello stato di tutte le agenzie sul territorio nazionale

Soluzione

La soluzione realizzata è costituita da un sistema back-end per l’analisi e la classificazione degli eventi, e da una parte front-end per rappresentare su una mappa geografica web interattiva i disservizi subìti dalle agenzie. Per soddisfare le esigenze del cliente e poter gestire uno streaming di dati in tempi ragionevoli sono state progettate differenti architetture, utilizzando sia servizi Oracle che servizi in Cloud, con lo scopo di individuare e implementare la soluzione migliore in termini di efficacia, efficienza e costi. Dopo aver analizzato e testato vantaggi e svantaggi di ogni alternativa proposta, si è scelto di utilizzare un'architettura ibrida supportata da alcuni servizi di Google Cloud Platform, quali Google Cloud Composer per l'orchestrazione dei flussi di dati e BigQuery per la creazione di un data warehouse serverless a scalabilità elevata, oltre che ad alcune tecnologie come Node.js e React per la realizzazione dell'applicazione web in grado di visualizzare i disservizi geograficamente.


Back-end

L'architettura è stata progettata per gestire, analizzare e processare in near real-time grandi quantità di eventi generati dalle agenzie. In particolare, i dati Beacon utilizzati per monitorare l'availability delle agenzie vengono estratti da un database Oracle On-premise e caricati sul data warehouse in cloud per essere analizzati in maniera profonda ed efficiente al fine di ricavare informazioni utili relative a eventuali disservizi.

Successivamente avvengono le fasi di ingestion ed elaborazione dei dati tramite un servizio cloud di workflow orchestration, che consente di progettare, implementare e monitorare pipeline su cloud e in data center on-premise. Tramite alcune pipeline implementate in Python, l’orchestrator sfrutta il data warehouse per orchestrare l’esecuzione di query di aggregazione sui dati in tempo reale, e successivamente calcolare le metriche per il rilevamento dei possibili disservizi. Sulla base di queste metriche e di specifiche soglie gli eventi rilevanti vengono infine visualizzati sull'applicazione web, progettata per mostrare in near real-time le informazioni sui disservizi, mentre lo storico di dati ed eventi viene reso accessibile tramite una apposita dashboard. Attraverso una operazione di system integration è stato possibile permettere la comunicazione tra i differenti sistemi, sia in cloud che on-premise.


Front-end

Attraverso la soluzione back-end implementata ogni disservizio viene categorizzato in near real time come grave, moderato o lieve e viene mostrato sulla mappa geografica dell’Italia illuminando con tre colori diversi (rispettivamente rosso, giallo o bianco) le agenzie che stanno subendo impatti nella loro operatività. Sulla cartina è costantemente monitorabile il numero di agenzie senza disservizi e quelle che stanno subendo disservizi per ciascun livello di gravità. Nel caso in cui un'agenzia stesse subendo contemporaneamente più disservizi, verrebbe categorizzata sulla mappa considerando il più grave tra di essi. È inoltre possibile filtrare i dati in modo da visualizzare criticità su specifiche applicazioni o su singole agenzie. La mappa è liberamente zoomabile e navigabile per consentire analisi puntuali agli utenti, mostrando informazioni dettagliate sui disservizi in corso per ogni singola agenzia tramite pop-up, che evidenziano nome dell’agenzia, comune di appartenenza, applicazione impattata dal disservizio e dati statistici sui suoi tempi di risposta. È stata inoltre prevista una sezione di overview per mantenere sempre sotto controllo i disservizi considerati dal sistema più rilevanti, che vengono quindi mostrati in primo piano all'interno di alcuni banner, con l'obiettivo di evidenziare le agenzie che presentano le criticità maggiori.