Le aziende IT producono e gestiscono ogni secondo una mole impressionante di dati: le aziende più virtuose hanno compreso che estrarre valore da essi non è un’operazione immediata ma che porta numerosi benefici.
Questo è dovuto principalmente al fatto che i dati hanno formati disomogenei e sono archiviati in repository diverse e scollegate tra loro, spesso a causa dei silos tra i vari reparti aziendali.
Inoltre, spesso si fa affidamento sui database di tipo tradizionale e questo fatto espone le organizzazioni a possibili furti di dati e a rischi di perdita dello stesso, oltre alla necessità di aderire alle policy aziendali in materia di protezione dei dati come la GDPR o alle pratiche di data governance, al quale abbiamo dedicato un articolo.
Estrarre valore dai dati: open data lake house
La soluzione è utilizzare un sistema evoluto di gestione dei big data, al fine di gestirli in modo flessibile, migliorando l’efficienza nel loro accesso e permettendo una scalabilità della piattaforma semplificata nel momento in cui i dati aumentano di volume, come è nel caso degli algoritmi di Intelligenza Artificiale e Machine Learning che sono “avidi” di dati.
Il sistema di gestione dei big data più evoluto è denominato open data lakehouse e per comprendere le potenzialità di questo sistema è necessario approfondire i concetti ciò su cui si basa: il data lake ed il data warehouse.
Data Lake
Il data lake è il repository di dati più semplice ed ha il fine di archiviare quantità elevate di dati nel loro formato originale, senza operare su essi una trasformazione per renderli omogenei. ù
In un data lake, infatti, possono essere contenuti tabelle strutturate per database, pagine web (file cosiddetti “semistrutturati) e dati non strutturati come i semplici file multimediali o documentali.
Questo approccio alla conservazione e gestione del dato è comunque utile per conservare l’integrità del file originale, facilita la riduzione dei costi e la scalabilità.
DATA WAREHOUSE
Con questo termine, invece, si identifica il sistema di data management su cui sono basate le principali attività di Business Intelligence (BI) di un’impresa come gli Analytics e l’estrazione di report.
Il data warehouse ha una struttura di tipo relazionale perché combina i dati tra di loro evidenziando le relazioni tra essi e contenendoli all’interno di tabelle statiche: questo sistema è ottimizzato per garantire le performance migliori nell’accesso ai dati e permette di facilitare le operazioni di ricerca nei dati come le query.
WATSONX.DATA ED IL DATA LAKEHOUSE
IBM ha combinato i pregi di entrambi i sistemi in un sistema unificato, denominato data lakehouse e ha sviluppato watsonx.data: un sistema di data management unificato che combina i principi del data lake quali l’efficienza derivante dalla riduzione dei costi, la scalabilità in presenza di una quantità di dati importante, insieme ai principi del data warehouse, come la relazione tra i dati e la gestione semplificata delle query.
IBM, nella sua nuova soluzione watsonx.data, combina le capacità dei data lake e dei data lakehouse all’interno di un data lakehouse che offre una grande capacità di scaling per i workload dedicati all’Intelligenza Artificiale.
UN APPROCCIO OPEN: OPEN DATA LAKEHOUSE
Essendo i dati conservati in formati molteplici, il data lakehouse può utilizzare un approccio “open” anche in questo caso, favorendo un’archiviazione basata su più formati: tutti gli utenti avranno così possibilità di accedere alle informazioni più aggiornate, in tempo reale.
watsonx.data, “grazie all’approccio open”, permette di accedere a tutti i dati tramite una serie di policy che garantiscono sicurezza al dato e direttamente da un single point, grazie a un metadata condiviso tra i livelli on-premise e l’hybrid cloud.
CONCLUSIONI: I BENEFICI
Un open data lakehouse porta diversi benefici, il primo tra tutti è essere open, ovvero riduce la ridondanza dei dati perché essi vengono conservati al suo interno nel loro formato originale e non è necessario duplicarli per poterli organizzare in tabelle relazionali.
Il secondo beneficio è una riduzione dei costi complessivi perché elimina la necessità di conservare i dati in sistemi di storage multipli come in origine.
L’open data lakehouse, inoltre, offre una maggiore tutela della governance dei dati perché garantisce che i dati inseriti siano in linea con i prerequisiti richiesti ed evita che i dati di bassa qualità vengano introdotti nel sistema.
Questo sistema, infine, facilita la scalabilità perché permette l’accesso simultaneo da parte di una moltitudine di utenti, ha un motore di query da parte di più utenti insieme e riduce i carichi.
L’esempio più semplice per apprendere le sue potenzialità è il suo utilizzo da parte delle piattaforme di streaming per la distribuzione dei contenuti audiovisivi e dell’estrazione di successivi report per la valutazione dei risultati di visione.
Comments are closed.