Technology Reply ha progettato un framework metadata driven, basato sull'uso di YAML configuration file, per guidare il processo di integrazione e orchestrazione dei dati su database cloud-based. L'adozione di un custom framework offre una maggiore flessibilità e scalabilità, consentendo di adattarsi facilmente ai cambiamenti nelle sorgenti dati, nelle trasformazioni richieste e nei requisiti di business.
Il cuore del framework metadata driven è il Catalogo dei Metadati, ottenuto dagli YAML configuration file, consolidati su di un repository centralizzato dove vengono archiviati tutti i metadati relativi alle sorgenti dati, agli schemi, alle trasformazioni e alle destinazioni. Il repository centralizzato funge da archivio completo e aggiornato delle informazioni necessarie per gestire e orchestrare i processi di integrazione dei dati. Offre altresì un modo strutturato per conservare e gestire questi metadati, assicurando che siano facilmente accessibili e gestibili.
Per gestire efficacemente il flusso dei dati, è essenziale implementare pipeline di ingestion robuste. Queste pipeline devono essere in grado di gestire sia il caricamento dei dati in tempo reale sia quello batch. Le pipeline di ingestion assicurano che i dati arrivino in modo tempestivo e ordinato, pronti per essere elaborati ulteriormente. Una volta raccolti, i dati grezzi vengono immessi nel primo livello di storage, noto come Standard Layer. Questo livello funge da deposito temporaneo dove i dati sono organizzati secondo le strutture definite negli YAML file. Le pipeline di ingestion, guidato dagli YAML file, gestiscono sia il caricamento in tempo reale sia i carichi batch, garantendo che i dati siano disponibili tempestivamente per le successive fasi di elaborazione.
Il framework può integrarsi su motori di elaborazione dei dati (database differenti, in cloud/on premise) per eseguire trasformazioni complesse. Questo strato è responsabile della trasformazione dei dati grezzi in informazioni utili, applicando vari processi di pulizia e trasformazione. Inoltre è implementato per garantire che i dati trasformati siano sempre conformi alle specifiche correnti. I modelli SQL descrivono le operazioni di trasformazione da applicare, garantendo che i processi siano eseguiti in modo coerente e conforme agli standard aziendali.
La qualità dei dati è fondamentale per garantire l'affidabilità delle analisi. Pertanto, il framework include moduli di validazione dei dati che esaminano i dati per assicurarsi che soddisfino i criteri di qualità definiti nei file YAML. Le regole di validazione possono includere controlli sui tipi di dato, formati specifici e la rimozione di duplicati e controlli funzionali. Interamente governabili e gestibili nei modelli SQL, assicurando che la validazione sia coerente e accurata. Strumenti di monitoraggio e logging sono integrati per tracciare le operazioni di trasformazione e identificare rapidamente eventuali problemi.
Una volta trasformati, i dati devono essere archiviati in modo organizzato e accessibile. Il framework organizza i dati in diversi livelli (raw data, processed data, analytics-ready data) per facilitare la gestione e l'accesso. I file YAML determinano come i dati devono essere organizzati e archiviati, facilitando l'accesso e la gestione.
Per gestire le dipendenze tra le diverse pipeline di dati e pianificare l'esecuzione dei job, il framework utilizza un orchestratore di workflow in modo da poter gestire la schedulazione, la gestione dei retry in caso di fallimenti e assicurano che tutte le parti del processo funzionino in sincronia.
Per gestire le dipendenze tra le diverse pipeline di dati e pianificare l'esecuzione dei job, il framework utilizza un orchestratore di workflow in modo da poter gestire la schedulazione, la gestione dei retry in caso di fallimenti e assicurano che tutte le parti del processo funzionino in sincronia.
L'automazione è un elemento chiave per garantire l'efficienza e la scalabilità del framework. Una pipeline di Continuous Integration/Continuous Deployment (CI/CD) è integrata per automatizzare la distribuzione e l'aggiornamento delle componenti del framework.
Un unico sistema di validazione ed elaborazione per tutti i paesi, con conseguente riduzione della complessità e facilità di manutenzione.
Ogni paese può configurare nel motore di validazione e nel motore di elaborazione convalide e trasformazioni specifiche.
Il portale di sottomissione permette di risottomettere le procedure senza dover richiedere l'intervento del tecnico.
L'estrazione asincrona dei dati dal SaaS minimizza i tempi di attesa e migliora la reattività delle integrazioni.
Oracle Integration Cloud (OIC) offre una soluzione scalabile per l'integrazione aziendale.
Flessibilità: L'uso dei file YAML permette di adattare facilmente il framework ai cambiamenti nelle sorgenti dati e nei requisiti di business.
Scalabilità: La gestione efficiente di grandi volumi di dati e la capacità di scalare orizzontalmente sono garantite dalle configurazioni basate su file di configurazione YAML di progetto.
Affidabilità: Il monitoraggio continuo e la gestione degli errori basati su tabelle di sistema, assicurano l'affidabilità del processo.
Efficienza: La riduzione dei costi è ottenuta grazie all'ottimizzazione delle risorse cloud e all'automazione dei processi, con configurazioni guidate.
Governance dei dati: Un miglior controllo e tracciabilità dei dati sono ottenuti grazie a un process lineage centralizzato.