Un nuovo paradigma per il Data Management: Data Mesh

Progetta una moderna piattaforma di dati su scala basata sulla decentralizzazione della Data Governance

Le caratteristiche chiave

Perché applicare il Data Mesh

Il data mesh può aiutare le organizzazioni le cui aree interne aziendali sono altamente decentralizzate, in quanto la struttura data mesh consente ai diversi team di gestire i propri dati e di mettere a disposizione del resto dell'organizzazione solo dati di qualità come prodotto.

L'implementazione di un approccio Data Mesh consente ai team di dominio di avere maggior indipendenza nel modellare e nel governare i dati aderendo comunque a policy applicate a livello globale.

Avendo team e domini dati indipendenti è possibile creare prodotti dati più velocemente da offrire al business.

Con il data mesh i dati sono di competenza di un singolo nodo ed è possibile proteggerne il contenuto e monitorarne l'uso.

Aumento della Data Ownership

In molte organizzazioni, stabilire una "singola fonte di verità" o "fonte di dati autorevole" è difficile a causa della ripetuta estrazione e trasformazione di dati all'interno dell'organizzazione senza chiare responsabilità di proprietà sui nuovi dati creati.
Adottando un approccio data mesh, la fonte di dati autorevole è il Data Product pubblicato dal dominio di origine, con un data owner chiaramente assegnato responsabile di tali dati.

Maggior scalabilità

Uno dei vantaggi principali del data mesh è offrire una soluzione a tutto campo suddividendo il team centrale dei dati e le conoscenze circostanti in team di dominio, ciascuno con le proprie competenze. Ciò consente ai team di dominio di fornire un valore aziendale ottimale all'interno delle proprie aree di competenza.

Il ciclo di vita di un data product aderisce ai principi agile di essere breve e iterativo, per fornire un valore rapido e incrementale ai consumatori di dati.

Il nostro approccio

1 - Rendere i dati indirizzabili e facilmente individuabili

In una soluzione data mesh l’accesso ai dati deve essere standardizzato con regole comuni ai vari domini in modo tale che i dati siano facilmente accessibili.​ Nel caso di dati memorizzati in un data lake è consigliato che questi siano accessibili in modalità REST API che devono avere tutti lo stesso formato.​ Nel caso di dati memorizzati all’interno di un database si possono prevedere schema e viste secondo convenzioni di denominazione standardizzate. ​Il team della piattaforma dati si occuperà di questa fase, utilizzando ancora un approccio centralizzato.

2 - Utilizzare metadati e catalogo dei dati (scopribilità)

Migliorare i metadati e aggiungere un catalogo dei dati per la loro scoperta, in modo che chiunque possa acquistare qualsiasi prodotto dell'organizzazione. È necessario un punto in cui cercare, scoprire e "acquistare" i dati all'interno dell'azienda. È inoltre necessario un modo per richiedere l'accesso e concedere l'accesso ai prodotti di dati in un modo che sia utilizzabile dai proprietari e dai consumatori di dati senza il coinvolgimento di un team centrale. In questa fase si lavora sulle caratteristiche dei prodotti di dati, aggiungendo test per la qualità dei dati, il lineage, il monitoraggio, ecc. ​

3 - Implementare il domain driven design abbattendo l'approccio monolitico

È necessario cercare di attribuire la proprietà al team di dominio che crea i dati, passando a un'architettura de-centralizzata. Ogni team deve essere proprietario delle proprie risorse di dati, delle pipeline ETL, della qualità, dei test, ecc. ​È comunque necessario basarsi su una governance federata per la standardizzazione, la sicurezza e l'interoperabilità dei dati. Se tutto ciò è già stato è opportuno costruire queste funzionalità come servizi per creare una piattaforma self-service. In questa fase si possono introdurre pratiche di DataOps e migliorare l'osservabilità e le capacità di self service. ​​

Fattori fondamentali da prendere in considerazione prima di puntare sul Data Mesh

Quali componenti usare

Il modo più comune per archiviare i dati in una Data Mesh è il Data Lake, dove i data product sono indirizzabili tramite URL ed è possibile gestire controllo degli accessi, versioning, crittografia, metadati e osservabilità. 
La Databricks Data Intelligence Platform offre un approccio moderno allo storage attraverso il paradigma Lakehouse, che combina le prestazioni e le funzionalità di un data warehouse con la flessibilità e la scalabilità di un data lake. Grazie a Delta Lake, i dati possono essere gestiti in modo transazionale, garantendo coerenza, affidabilità e performance elevate per i diversi domini. 
In alternativa o in combinazione, si possono utilizzare data warehouse moderni e soluzioni serverless, che consentono di eseguire query e analisi senza preoccuparsi dell’infrastruttura sottostante, semplificando la gestione operativa. 

In una Data Mesh, l’elaborazione dei dati è incapsulata all’interno dei prodotti di dati e gestita autonomamente dai singoli domini. Non esistono pipeline ETL centralizzate, ma flussi di trasformazione indipendenti e governati in modo federato. 
Con Databricks, il processamento dei dati, sia batch che streaming, è completamente integrato nella piattaforma. Gli strumenti come Databricks Workflows e Delta Live Tables consentono ai team di dominio di sviluppare, schedulare e monitorare pipeline dati affidabili, scalabili e facilmente manutenibili. 
Questo approccio consente una gestione distribuita, ma coerente, della qualità, della pulizia e della trasformazione dei dati, garantendo al tempo stesso un controllo centralizzato della governance e delle policy di sicurezza. 

Un catalogo dati rappresenta l’inventario organizzato delle risorse di dati presenti nell’organizzazione e ne consente la scoperta, la gestione e la governance. 
In Databricks, Unity Catalog costituisce l’unica soluzione di governance unificata per dati e AI, permettendo la gestione centralizzata di metadati, autorizzazioni e lineage attraverso tutti i domini e workspace. 
Unity Catalog semplifica la scoperta e la tracciabilità dei data product, applica controlli di accesso granulari e garantisce una visione coerente delle informazioni a livello enterprise, supportando il modello di Data Mesh con una governance realmente federata. 

I dati archiviati nei diversi domini devono essere interrogabili e combinabili per creare prodotti aggregati, indipendentemente dalle tecnologie di storage. 
Con Databricks, le query possono essere eseguite in modo uniforme su dati strutturati e non strutturati grazie a Databricks SQL e alle funzionalità di Serverless Compute, che eliminano la necessità di gestire risorse o configurazioni complesse. 
Inoltre, Delta Sharing abilita la condivisione sicura dei dati tra domini interni ed esterni senza necessità di copie fisiche, favorendo la collaborazione e l’interoperabilità tra ambienti e cloud differenti. 

Gli analisti di dati sono tra i principali consumatori di dati e utilizzano strumenti di Business Intelligence per trarre insight e supportare decisioni informate. 
La piattaforma Databricks si integra perfettamente con i principali strumenti di BI, come Power BI, consentendo l’accesso diretto ai dati presenti nel Lakehouse e garantendo prestazioni elevate anche su grandi volumi di dati. 
In questo modo, gli utenti business possono accedere a informazioni aggiornate e affidabili in modo self-service, mantenendo al contempo il controllo e la sicurezza a livello enterprise.