Pillole di AI: Dataset vs. Metadata

In un’azienda i dati vengono archiviati in diverse modalità e su diversi supporti, che si possono suddividere in due grandi macroinsiemi: cloud e on-premise.

Con il termine cloud si identificano tutti quei sistemi che archiviano i dati su server tramite Internet e possono essere di tipo privato, pubblico o ibrido; con il termine on-premise, invece, si fa riferimento all’archiviazione su un supporto locale presso la sede della società stessa.

Per entrare più nel dettaglio, è utile distinguere i dati che compongono i cosidetti “dataset” rispetto a quelli che sono denominati “metadata”.

Queste due tipologie, infatti, hanno caratteristiche e peculiarità che li rendono più efficaci in alcune situazioni rispetto che altre.

I Dataset

I dataset sono insiemi di dati strutturati, conservati all’interno di una tabella (denominata base dati) e collegati tra di loro con una forma relazionale.

Oltre ad una tabella, si possono avere dataset costituiti da matrici di dati che contengono variabili collegate sempre in relazione tra loro.

L’esempio più importante di dataset è Codenet (visto anche nell’articolo dedicato ai Foundation Models di IBM).

Sviluppato da IBM, questo dataset è uno dei più estesi ed ha la capacità di fornire dati pre-addestrati ai processi di Intellligenza Artificiale, per utilizzare anche algoritmi complessi come quelli necessari per la traduzione dei codici nei linguaggi di programmazione, classificazione del codice e ricerca delle similarità nei codici stessi.

I metadata

Con il termine metadata, invece, si identifica una serie di dati utilizzata per descrivere le proprietà di un altro dato: in altre parole, i metadata contengono informazioni più dettagliate relative ai dati a cui sono correlati.

L’esempio più semplice per capire i benefici di un metadata è usare l’esempio di una “scheda del libro”: la scheda del libro è il “metadata” che contiene le informazioni sul libro (il “dato correlato”).

I metadata si possono suddividere, a loro volta, in metadata descrittivi (come ad es. il titolo del libro), metadata strutturali (riprendendo sempre il nostro esempio, la versione del libro oppure le caratteristiche e l’edizione), metadata amministrativi (se ad es. il libro è un ebook il tipo di file e la protezione alla copia) e metadata statistici (sull’esempio, l’esempio migliore è un’estrazione dei dati relativi alla percentuale di lettura dell’ebook e le recensioni positive).

Le differenze

La prima differenza è che i dataset sono molto più impegnativi da archiviare e gestire perché per loro natura tendono ad aumentare quantitativamente con il passare del tempo: perciò, necessitano di sistemi di gestione del dato evoluti come l’open lakehouse.

I metadata, invece, contengono informazioni puremente descrittive e si possono interrogare tramite delle query.

La seconda differenza è relativa all’elaborazione dei dati: i metadati vengono sempre elaborati per essere organizzati, mentre con i dataset è possibile anche insieme di dati non elaborati (come ad esempio in un data lake), semistrutturati (file multimediali) o non strutturati.

Per concludere, i dataset sono adatti all’archiviazione dei dati a livello quantitativo e nelle situazioni in cui si richiede un’alta velocità di accesso ed una grande capacità di governance (come nell’Intelligenza Artificiale).

I metadata, invece, sono utili per comprendere al meglio quali sono le caratteristiche e le peculiarità dei dati.

Pillole di AI: Dataset vs. Metadata

Robotica innovativa: AI e tecnologia modellano i robot

PowerStore Elite: storage enterprise ad alte prestazioni per ambienti AI-ready

HP ZBook G2: la nuova generazione di mobile workstation tra AI e produttività

Space economy: i legami con l’IT e la sua crescita, grazie all’AI

Oltre il digital signage: come Samsung Spatial Signage ridefinisce l’engagement nel retail

Cloud e AI: L’Europa mette al centro la sovranità tecnologica

Gaming in Italia: presente e futuro, tra mercato e AI

I Dataset

I metadata

Le differenze

ENTRA ANCHE TU NELLA COMMUNITY AINLAB: VISITA IL SITO UFFICIALE

Related Posts

ENTRA ANCHE TU NELLA COMMUNITY AINLAB: VI SITA IL SITO UFFICIALE