In un’azienda i dati vengono archiviati in diverse modalità e su diversi supporti, che si possono suddividere in due grandi macroinsiemi: cloud e on-premise.
Con il termine cloud si identificano tutti quei sistemi che archiviano i dati su server tramite Internet e possono essere di tipo privato, pubblico o ibrido; con il termine on-premise, invece, si fa riferimento all’archiviazione su un supporto locale presso la sede della società stessa.
Per entrare più nel dettaglio, è utile distinguere i dati che compongono i cosidetti “dataset” rispetto a quelli che sono denominati “metadata”.
Queste due tipologie, infatti, hanno caratteristiche e peculiarità che li rendono più efficaci in alcune situazioni rispetto che altre.
I Dataset
I dataset sono insiemi di dati strutturati, conservati all’interno di una tabella (denominata base dati) e collegati tra di loro con una forma relazionale.
Oltre ad una tabella, si possono avere dataset costituiti da matrici di dati che contengono variabili collegate sempre in relazione tra loro.
L’esempio più importante di dataset è Codenet (visto anche nell’articolo dedicato ai Foundation Models di IBM).
Sviluppato da IBM, questo dataset è uno dei più estesi ed ha la capacità di fornire dati pre-addestrati ai processi di Intellligenza Artificiale, per utilizzare anche algoritmi complessi come quelli necessari per la traduzione dei codici nei linguaggi di programmazione, classificazione del codice e ricerca delle similarità nei codici stessi.
I metadata
Con il termine metadata, invece, si identifica una serie di dati utilizzata per descrivere le proprietà di un altro dato: in altre parole, i metadata contengono informazioni più dettagliate relative ai dati a cui sono correlati.
L’esempio più semplice per capire i benefici di un metadata è usare l’esempio di una “scheda del libro”: la scheda del libro è il “metadata” che contiene le informazioni sul libro (il “dato correlato”).
I metadata si possono suddividere, a loro volta, in metadata descrittivi (come ad es. il titolo del libro), metadata strutturali (riprendendo sempre il nostro esempio, la versione del libro oppure le caratteristiche e l’edizione), metadata amministrativi (se ad es. il libro è un ebook il tipo di file e la protezione alla copia) e metadata statistici (sull’esempio, l’esempio migliore è un’estrazione dei dati relativi alla percentuale di lettura dell’ebook e le recensioni positive).
Le differenze
La prima differenza è che i dataset sono molto più impegnativi da archiviare e gestire perché per loro natura tendono ad aumentare quantitativamente con il passare del tempo: perciò, necessitano di sistemi di gestione del dato evoluti come l’open lakehouse.
I metadata, invece, contengono informazioni puremente descrittive e si possono interrogare tramite delle query.
La seconda differenza è relativa all’elaborazione dei dati: i metadati vengono sempre elaborati per essere organizzati, mentre con i dataset è possibile anche insieme di dati non elaborati (come ad esempio in un data lake), semistrutturati (file multimediali) o non strutturati.
Per concludere, i dataset sono adatti all’archiviazione dei dati a livello quantitativo e nelle situazioni in cui si richiede un’alta velocità di accesso ed una grande capacità di governance (come nell’Intelligenza Artificiale).
I metadata, invece, sono utili per comprendere al meglio quali sono le caratteristiche e le peculiarità dei dati.
Comments are closed.