Ottimizzazione geospaziale e benchmarking con i big data

Geospatial

Scenario

Il Defence Science and Technology Laboratory, Dstl, è un'agenzia esecutiva del Ministero della Difesa del Regno Unito. Cooperando con il mondo accademico e i settori industriali, Dstl assicura che le tecnologie più innovative contribuiscano alla difesa e alla sicurezza del Regno Unito.

Data Reply ha supportato Dstl nel valutare le varie opzioni per l'elaborazione di estesi dataset geospaziali fornendo una valutazione basata su evidenze di sei tecnologie Big Data. Questo ha incluso l'ingestione, l'indicizzazione e l'interrogazione di benchmarking, e la latenza è stata la principale metrica obiettivo dello studio.

DSTL

Il Defence Science and Technology Laboratory (Dstl) è un'agenzia esecutiva del Ministero della Difesa del Regno Unito. Lavorando con il mondo accademico e le aziende più innovative, Dstl sviluppa tecnologie vincenti che supportano le operazioni di difesa del Regno Unito, ora e nel futuro. Inoltre, Dstl offre al Governo del Regno Unito ricerca, consulenza e analisi tecnologica e scienza specialistica, aspetti che possono risultare critici nel corso delle operazioni e che offrono potenziale per innovazioni tecnologiche.

L'OBIETTIVO

Dstl ha incaricato Data Reply di effettuare i benchmark di sei importanti tecnologie Big Data con capacità di elaborazione geospaziale, con l'obiettivo di assisterla nella selezione della tecnologia appropriata considerato il carico di lavoro, oltre che consigliarla sulla rifinitura delle prestazioni.

In molti domini, soprattutto per quel che concerne i servizi di intelligence, il valore delle informazioni si riduce nel tempo. Di conseguenza, il tempo necessario alle analisi è una metrica chiave. Le funzionalità inerenti nell'analisi dei dati geospaziali, con le quali Dstl spesso opera, fanno sì che l'elaborazione di dati su grande scala divenga una sfida e, spesso, sia costosa dal punto di vista computazionale.

Sono stati fatti molti sforzi per ridurre la complessità dei dati geospaziali con specifiche standardizzate (ad esempio, formato dati GeoJson) e numerose promettenti tecnologie che eliminano dettagli superflui per l'utente finale. A ogni modo, i dati comparativi disponibili per comprendere le prestazioni relative di molte di queste tecnologie sono insufficienti. In particolare, i tempi di ingestione e interrogazione non sono ancora compresi a fondo.

Riflettendo sul proprio desiderio di prendere decisioni basandosi sulle evidenze in quest’area, Dstl ha incaricato Data Reply di effettuare i benchmark di sei importanti tecnologie Big Data con capacità di elaborazione geospaziale, pcon l'obiettivo di assisterla nella selezione della tecnologia appropriata considerato il carico di lavoro, oltre che consigliarla sulla rifinitura delle prestazioni.

La soluzione

Data Reply ha generato un dataset di test che emulano la struttura dei dati geospaziali reali, includendo punti parametrizzati ed ellissi.

Lavorando con dati generati casualmente, il progetto può essere pubblicamente condiviso, un obiettivo importante per Dstl.

Utilizzando la tecnologia Google Cloud, Data Reply ha testato sei diverse tecnologie Big Data (GeoSpark, GeoMesa, Hive, MongoDB, ElasticSearch e Postgres-XL) e ha eseguito benchmark dell'ingestione dei dati e delle velocità delle interrogazioni. Tutte e sei le tecnologie sono state impostate e configurate seguendo le impostazioni raccomandate, con le rifiniture posteriori ritenute necessarie pensando all'obiettivo di un campo di applicazione di ampia portata. Per alcune delle tecnologie, Data Reply ha anche sviluppato utility personalizzate per l'ingestione dei dati al fine di offrire la scalabilità necessaria, supportando nello stesso tempo la corretta struttura dei dati, e per assicurare la conformità con lo standard GeoJson e le specifiche date da Dstl.

Per eseguire le interrogazioni, Data Reply ha affidato le descrizioni delle interrogazioni SQL nelle DSL di ciascuna tecnologia, in alcuni casi applicando le approssimazioni necessarie quando la sintassi DSL non poteva essere mappata direttamente sulle interrogazioni. Inoltre, Data Reply ha impostato l'infrastruttura per consentire la replica intra-cluster della disponibilità e la tolleranza agli errori. Questo ha consentito a 20 miliardi di punti di dati di esistere su più macchine contemporaneamente con una singola richiesta scritta, nel caso un nodo del cluster si interrompa o non sia disponibile a causa di inconvenienti come il partizionamento della rete.

A conclusione del lavoro, Data Reply ha pubblicato un rapporto completo per Dstl (disponibile ad uso pubblico) che illustra in dettaglio lo studio e i suoi risultati. Ciò ha fornito a Dstl un'analisi affidabile delle capacità e delle prestazioni di differenti tecnologie Big Data.

Data Reply è la società del gruppo Reply specializzata nella gestione del dato con metodologie Big Data & Advanced Analytics e supporta il cliente nel disegno e nell’implementazione delle piattaforme dati che permettono di valorizzare il patrimonio informativo aziendale. Data Reply è un team di Big Data Engineer e Data Scientist di consolidata esperienza e vanta un’elevato numero di sistemi Big Data in produzione.