L’adattabilità della piattaforma di integrazione in un modello Data Fabric

Giulio Scotti
Quantyca
Published in
7 min readMay 25, 2022
Photo by Ricardo Gomez Angel on Unsplash

Abstract

Questo è il quarto articolo di una serie di blog post finalizzata a trasmettere i punti salienti della visione delle architetture IT enterprise e del Data Management che, come Quantyca, proponiamo ai nostri clienti.

Per chi non li avesse letti, consiglio di leggere gli articoli precedenti della serie, dai titoli:

  • I principi di un moderno Data Management: descrive le sfide dell’IT nella nuova era di digitalizzazione e i driver che spingono verso la ricerca di un cambio di paradigma nella progettazione delle architetture dati
  • “L’approccio data-centrico che cambia l’IT”: descrive i principi e i vantaggi di un orientamento di progettazione delle architetture IT che considera i dati come asset centrale e riusabile e le applicazioni come elementi effimeri che producono o consumano dati di interesse per l’intera azienda
  • “L’esigenza di governo nella gestione dei dati”: descrive i principali aspetti di governance da considerare per abilitare architetture IT data centriche e distribuite e mantenere il controllo dei dati a riposo e in movimento

Negli articoli successivi tratteremo diversi aspetti che riteniamo interessanti per costruire piattaforme dati in grado di rispondere alle esigenze pressanti di un business che sta diventando sempre più data-driven.

Questo l’elenco dei prossimi articoli:

Verso un‘architettura metadata-driven: il modello Data Fabric

Le tipologie di metadati collezionate nei processi di Data Governance costituiscono una base importante di conoscenza sul landscape dei dati aziendali, finalizzata al controllo e alla sostenibilità di un’architettura distribuita. Si tratta tuttavia di metadati che possiamo definire passivi: sono informazioni raccolte e aggiornate periodicamente, alcune in modalità manuale e altre in modalità automatica, che però si limitano a descrivere e fornire insight sullo stato dell’arte dei data asset.

Gartner presenta il concetto di Data Fabric come un modello di design delle piattaforme di data management che si fonda sull’utilizzo intelligente di una base ricca di metadati per supportare la realizzazione di servizi di integrazione e di delivery dei dati automatizzati e dinamici. L’obiettivo auspicato è quello di ridurre i task manuali di data integration e data preparation, in particolare le attività a basso valore aggiunto, e di migliorare la flessibilità, l’efficacia e la rapidità di adeguamento delle pipeline dati al variare delle condizioni esterne.

L’implementazione di una Data Fabric non è basata obbligatoriamente su un unico prodotto, al contrario solitamente è costituita da un insieme di tecnologie che collaborano tra di loro per mettere a disposizione le funzionalità peculiari del modello.

I pillar che costituiscono il design di una Data Fabric. Fonte: Gartner

In aggiunta ai metadati statici descritti nella sezione relativa alla Data Governance, il modello Data Fabric si pone l’obiettivo di collezionare una serie di metadati, dinamici per natura, da ciascun sistema facente parte dell’architettura aziendale: alcuni esempi possono essere statistiche operazionali e di runtime dei flussi dati (metadati di performance e durata dei job, frequenza di accesso ai dataset per utente, distribuzione giornaliera degli accessi per fascia oraria, utilizzo medio risorse…) e metadati social generati dagli utenti tramite funzionalità di collaborazione (commenti, note, assegnazione di task, metadati di interazione con partner…). Sfruttando la rappresentazione integrata della base di metadati messa a disposizione dal knowledge graph, la Data Fabric permette di “attivare” i metadati, rendendo possibili delle analisi su di essi e la generazione dinamica di KPI.

I KPI così ottenuti possono essere forniti come parametri in input ad algoritmi di AI/ML che consentono al motore decisionale della Data Fabric di fare previsioni ed attuare azioni intelligenti e automatiche per adeguare e ottimizzare i processi di integrazione e distribuzione dei dati in base alle variabili del contesto. Ad esempio, gli algoritmi possono stimare il sizing di risorse ottimale e valutare il tipo di infrastruttura più adatto per un determinato flusso di replicazione dati tra due sistemi in modo dinamico, basandosi sui feedback derivati dalle analisi in tempo reale sui metadati di volumi e utilizzo delle risorse raccolti: di conseguenza, la Data Fabric può azionare in automatico delle procedure di provisioning e configuration management che vanno ad effettuare il deploy di un’infrastruttura con il nuovo setup desiderato.

Inoltre la Data Fabric, tramite le insight messe a disposizione dal knowledge graph, intende abilitare la creazione di modelli dati flessibili, facilmente integrabili con valore semantico da parte del team business ed esposti ad un livello di astrazione dagli dettagli tecnici che permette un consumo self-service.

Il concetto di Data Fabric prevede di avere alla base dei processi di integrazione e delivery intelligente dei dati un‘infrastruttura costituita da tecnologie moderne, poliglotta ed eventualmente distribuita su diversi ambienti, in cloud e on-premises o in una configurazione ibrida, che supporti molteplici modalità di consegna dei dati, per adattarsi in modo flessibile alle esigenze di consumo dei vari casi d’uso. La piattaforma di una Data Fabric può essere dotata di componenti per supportare flussi ETL/ELT standard, integrazione tramite API, stream processing e distribuzione dati in real time, elaborazioni big data e accessi al dato di vario tipo. L’intelligenza di cui è dotata, derivata dalle funzionalità di AI/ML, può consentire anche di adattare in automatico la scelta dello stile di integrazione: ad esempio, si può pensare che, in caso di arrivo in ingresso di grosse moli di dati storici, la piattaforma metta in opera on-demand un’integrazione via flussi batch o export di file su un object store, mentre, in risposta alla produzione in ingresso di uno stream di eventi a bassa latenza da parte delle sorgenti, avvii un flusso di consegna dati in real-time ai sistemi consumatori.

La piattaforma della Data Fabric favorisce un approccio data & metadata centrico al design dell’architettura: il modello prevede infatti la presenza di uno o più sistemi di storage in grado di salvare in modo durevole un qualsiasi volume di dati, in formati diversi e tali da consentire ai consumatori di usare il pattern di accesso più adatto alle proprie esigenze. Un’architettura che ha alla base una piattaforma Data Fabric consente di ridurre i costi di integrazione, razionalizzando l’effort di offloading dei dati dalle sorgenti e abilitando il riuso dei data asset core aziendali per molteplici finalità, sia di tipo operazionale sia di tipo analitico. Infatti, il modello Data Fabric va nella direzione di una piattaforma di integrazione ibrida e convergente, adatta a supportare sia l’integrazione real-time di applicazioni per rispondere ai processi digitali core dell’azienda, sia tutte le fasi che compongono il ciclo di vita del dato per abilitare servizi avanzati data-driven.

La piattaforma mette a disposizione anche le componenti tecnologiche per offrire funzionalità avanzate di orchestrazione dei vari step delle pipeline dati, dando la possibilità di implementare e schedulare workflow complessi a piacere.

Il modello Data Fabric rappresenta una direzione da percorrere, ma può essere implementato con un approccio graduale, realizzando inizialmente alcuni servizi di base che arricchiscono le funzionalità della piattaforma e semplificano le attività di sviluppo dei data engineer, garantendo economia di velocità, per poi aggiungere in un secondo momento le feature avanzate che si basano sul machine learning e sullo sfruttamento attivo dei metadati. Alcuni esempi di funzionalità di base che possono essere di grande beneficio sono:

  • il deploy semplificato di flussi di replicazione dati da una sorgente al layer di storage offerto dalla piattaforma di integrazione;
  • il deploy di un’applicazione che effettua la traduzione di formato e di schema dati tra un tracciato sorgente e un tracciato standardizzato, arricchito di metadati, adatto per pubblicare i dati nella piattaforma;
  • l’implementazione di procedure automatizzate e parametriche di svecchiamento dei dati storici;
  • la generazione automatica di certificati SSL e l’assegnazione di permessi di accesso per soggetti autorizzati all’accesso ai dati;
  • provisioning automatico di dataset di test;
  • applicazione automatica delle tecniche di anonimizzazione o pseudo-anonimizzazione dei campi sensibili.

Per riassumere, le funzionalità di una Data Fabric vanno ad estendere e potenziare le feature base delle tecnologie che compongono l‘infrastruttura di integrazione, offrendo servizi intelligenti di piattaforma, ad un livello di astrazione superiore, per automatizzare buona parte dell’effort di integrazione, elaborazione e orchestrazione delle pipeline dati, in direzione di un‘architettura metadata-driven: è un modello che si prevede raccolga sempre maggior interesse nei prossimi anni. In quest’ottica, figure professionali come il DataOps e il Platform Engineer sono in via di espansione.

Il modello Data Fabric consente di ottenere scalabilità ed efficienza a livello tecnologico e di piattaforma: per raggiungere questi obiettivi anche a livello organizzativo e di gestione è interessante considerare gli approcci Domain Driven Design e Data Mesh, che tratteremo nei prossimi tre articoli.

--

--