Microsoft Purview per una moderna Data Governance

Nell’IT il dato è sempre stato l’elemento centrale. I servizi nascono e si evolvono sulla base delle necessità contingenti di salvataggio, manipolazione e lettura di dati. Ma solo negli ultimi anni ci si è resi conto di quanto poco governati essi siano all’interno delle aziende, nonostante la loro centralità.

Nasce quindi meno di dieci anni fa il concetto di Data Governance che, nella nostra accezione, è “un concetto di gestione dei dati che consente a un’organizzazione di garantire che esista un’elevata qualità dei dati durante l’intero loro ciclo di vita e che vengano implementati controlli dei dati che supportano gli obiettivi aziendali. Le principali aree di interesse della governance dei dati includono disponibilità, usabilità, coerenza, integrità e sicurezza, conformità agli standard e include la definizione di processi per garantire un’efficace gestione dei dati in tutta l’azienda, come la responsabilità per gli effetti negativi della scarsa qualità dei dati e la garanzia che i dati di cui dispone un’azienda possano essere utilizzati dall’intera organizzazione”.

Dati questi obiettivi, occorre poi dotarsi non solo dei processi, ma anche di strumenti in grado di misurare il posizionamento dell’azienda rispetto a questi obiettivi. Ed ecco quindi che si arriva a Microsoft Purview.

Panoramica generale

Verso la fine di Aprile del 2022 Microsoft annunciò la fusione di due prodotti (Azure Purview e Microsoft 365 compliance) in un’unica suite dedicata alla Data Governance a 360°.

Figura 1 – Panoramica di Microsoft Purview

Anche se dal punto di vista del marketing poteva sembrare una mossa vincente, in realtà ha generato una certa confusione. Lo strumento infatti ha portato alla sovrapposizione di aree di competenza che nell’ambito aziendale sono tipicamente slegate tra loro (un CISO non si occuperà mai di Data Governance, come un CIO o un CEO non si occuperanno di Risk & Compliance), complicando di fatto l’adozione per i suoi impatti su scelte aziendali potenzialmente divergenti.

In questa sede vogliamo provare a trasmettere i vantaggi di una piattaforma unificata, e come l’adozione di Microsoft Purview possa supportare efficacemente la Data Governance di un’azienda.

Lo strumento mette a disposizione un portale (Microsoft Purview governance portal) attraverso cui è possibile fare due attività principali:

  1. costruire una Data Map, cioè una gerarchia di ambiti nei quale registrare dati forniti da diverse Data Sources;
  2. fruire di un Data Catalog e di Data Estate Insights tramite cui un Data Analyst può trovare le fonti dati giuste per le proprie attività.

Ovviamente Microsoft Purview non è solo questo, ma pensate al nostro concetto di Data Governance: tramite questo strumento è possibile immaginare un processo relativamente semplice (aggiunta della Data Source e revisione della Data Map), per mantenere un catalogo sempre aggiornato di contenuti, e disponibile per tutti gli analisti senza che questi debbano andare a connettersi direttamente alle fonti, o senza che questi facciano richieste di dati magari già presenti a catalogo in duplice o triplice copia.

Inoltre, se avete adottato strumenti come le pipeline Azure Data Factory o Azure Synapse Analytics, potete agganciarle a Purview per fare automaticamente confluire nel Data Map anche le informazioni di lineage delle attività supportate (Copy Data, Data Flow ed Execute SSIS Package).

Insomma, usabilità, integrità e coerenza sono alla portata di qualunque azienda senza richiedere complesse infrastrutture (come anche la sicurezza, ma questo tema verrà trattato in un’altra sede).

Casi d’uso

Ora, proviamo a fare qualche esercizio di simulazione.

Caso 1 – Consolidamento

L’azienda TalDeiTali sta consolidando i propri silos di dati di business in un Data Warehouse unificato, da cui gli analisti potranno derivare i dati per i propri report.

L’azienda ha molti silos, nati nel corso dei suoi vent’anni di vita. Per alcuni è ancora possibile avere il supporto del fornitore, ma per molti l’unica cosa che c’è a disposizione è un set di credenziali amministrative per il database.

Come fare ad evitare che il consolidamento generi ridondanza? Come dare al business visibilità delle caratteristiche dei dati consolidati? Ed infine, come dare agli analisti un modo semplice per modificare la propria reportistica usando l’ambiente consolidato?

Microsoft Purview può aiutare la TalDeiTali a rispondere alle sfide del consolidamento in maniera efficace:

  1. tramite mappatura e catalogazione dei silos esistenti, è possibile identificare i dati presenti, filtrare quelli utili, rimuovere le duplicazioni ed ottimizzare i processi di consolidamento, di modo che il nuovo Data Warehouse risponda a tutte le caratteristiche di un sistema ben governato;
  2. tramite mappatura e catalogazione del nuovo Data Warehouse, è possibile fornire agli analisti uno strumento per riorganizzare efficacemente i propri report, evitando perdite di informazioni.

Caso 2 – Organizzazione

L’azienda TalDeiTali da tempo ha capito l’importanza della governance, ma ha deciso di basare i suoi processi su file Excel posizionati in SharePoint, condivisi con il business e mantenuti manualmente.

Nel tempo, il data warehouse è cresciuto esponenzialmente, portando ad enormi perdite di energie tra infrastruttura e business per mantenere le decine di file excel andatisi a creare, sempre aggiornati e fruibili.

In questo caso Microsoft Purview può aiutare l’azienda sostituendo Excel e SharePoint con un servizio di piattaforma unificato, dove il layer semantico ed il catalogo dei dati sono mantenuti in maniera pressoché automatica, in maniera sicura e segregata.

Costi

Quanto può costare un’implementazione di Microsoft Purview? Per quanto riguarda la Data Gorvenance, un Proof of Concept (PoC) di Purview può cubare tra i €500 ed i €1000 al mese, a seconda di cosa si desideri attivare.

  • Inizialmente, si creeranno 1-2 connettori verso le fonti dati nel perimetro del PoC, e si creerà una Data Map. Il costo della Data Map è calcolato in Capacity Unit (CU).
  • Il numero di CU viene scalato automaticamente sulla base di fattori come la dimensione dei metadati letti dalle fonti dati ed immagazzinati dal Purview Account, o il volume di transazioni eseguite durante le scansioni, o le integrazioni con servizi come Data Factory o Synapse.
  • Ai costi del data map, che potrebbero aggirarsi tra €500 e €600, vanno aggiunti alcuni costi indiretti laddove si utilizzino determinate caratteristiche:
    • il costo dello storage account gestito da Purview dove vengono raccolte le attività di scansione,
    • la VM su cui eseguire un Self-hosted integration runtime, in caso il PoC riguardi fonti dati private come un SQL Server in datacenter,
    • il Private Endpoint per rendere l’accesso al Data Estate completamente privato.

Conclusioni

I casi d’uso citati rappresentano solo una parte delle possibilità di Microsoft Purview. Non abbiamo neanche accennato, tra le molte cose, alle sue capacità legate al mondo Risk & Compliance (più inserite nel mondo Microsoft 365 in quanto derivate direttamente dal vecchio Microsoft 365 Compliance), o alla possibilità di classificare i dati sulla base di tag predefiniti (ce ne sono oltre 200 già pronti) o personalizzati.

In un mondo che sta prendendo sempre più coscienza del valore oggettivo dei dati, Microsoft Purview rappresenta un eccellente strumento per mettere in opera quegli strumenti e quei processi necessari ad una data governance di qualità.

Riferimenti

Data governance – Wikipedia

The future of compliance and data governance is here: Introducing Microsoft Purview

Introduction to Azure Data Factory

What is Azure Synapse Analytics?

Pricing guidelines for the Microsoft Purview elastic data map