Si chiama AI multimodale ed è un tipo di intelligenza artificiale in grado di comprendere ed elaborare contemporaneamente diversi tipi di informazioni, come testo, immagini, audio e video.

È parte integrante della Generative AI e sta suscitando un interesse crescente, tanto che il mercato globale dell’intelligenza artificiale multimodale si prevede raggiungerà quest’anno i 2,5 miliardi di dollari. Ma è la stima sul prossimo futuro a lasciare a bocca aperta: secondo Precedence Research potrebbe superare i 42 miliardi di dollari entro il 2034. A trainare questa forte crescita del valore di mercato saranno i progressi tecnologici e la progressiva adozione in settori come sanità, automotive e retail.

Sono diversi gli ambiti applicativi che verranno influenzati, ottenendo importanti miglioramenti. Ma l’aspetto forse più interessante è che l’intelligenza artificiale multimodale potrebbe trasformare in meglio il modo in cui le persone interagiscono con la tecnologia.

Cos’è l’AI multimodale

L’AI multimodale (detta Multimodal Generative AI) si riferisce a sistemi di intelligenza artificiale in grado di elaborare e integrare diversi tipi di informazioni, come testo, immagini, audio e video per produrre output più completi e articolati. Come sottolinea McKinsey, i modelli di AI multimodale simulano la capacità del cervello di combinare input sensoriali per una comprensione olistica del mondo, proprio come gli esseri umani usano i loro vari sensi per percepire la realtà. La capacità di questi modelli di GenAI di percepire senza soluzione di continuità molteplici input e di generare simultaneamente output consente loro di interagire con il mondo in modi innovativi e trasformativi e rappresenta un progresso significativo nell’IA.

Dalla raccolta dati alla loro fusione

Come avviene il processo di elaborazione dei dati? In più fasi. Nella prima, i dati, provenienti da diversi formati, vengono raccolti e pre-elaborati. Successivamente, gli strumenti di codifica all’interno delle singole reti neurali trasferiscono i dati a vettori o incorporamenti (rappresentazioni numeriche di parole, entità, documenti, immagini o video). Ogni modalità viene generalmente elaborata in modo diverso.

I dati così codificati vengono mappati in uno spazio condiviso utilizzando vari meccanismi di fusione, che uniscono il testo incorporato da diverse modalità in un unico livello. La fase generativa converte i dati fusi nella fase precedente in output utilizzabili.

Intelligenza artificiale multimodale e le differenze con l’AI tradizionale

La differenza tra l’AI multimodale e i modelli di IA tradizionali sono evidenti. Questi ultimi si concentrano in genere su una singola modalità, come l’elaborazione del linguaggio naturale (NLP) basata sul testo o il riconoscimento delle immagini. Al contrario, i sistemi di intelligenza artificiale multimodali combinano diversi tipi di dati per consentire interazioni più sofisticate e versatili.

Questo apre a opportunità di grande interesse in molti ambiti. Pensiamo ai dispositivi IoT: essi raccolgono più tipi e volumi di dati. I fruitori possono utilizzare modelli di AI multimodale per elaborare e integrare informazioni multisensoriali, offrendo quindi esperienze quanto più personalizzate.

Le potenzialità offerte

L’AI multimodale attrae un crescente interesse per le potenzialità che offre. Per esempio, nell’intrattenimento domestico e nell’istruzione, si prevede che la realtà aumentata e virtuale si combineranno con questa branca di intelligenza artificiale per creare ambienti immersivi. In robotica, invece, potrà consentire si svolgere compiti più complessi con maggiore autonomia.

L’integrazione di dati provenienti da satelliti, sensori e social media potrebbe migliorare il monitoraggio e la gestione di problematiche ambientali quali l’inquinamento e i disastri naturali.

In medicina, sono diversi i campi applicativi interessati dalle possibilità offerte. Secondo un nuovo studio condotto dal Translational Genomics Research Institute, l’unione dell’analisi genetica e cellulare dei tumori con il loro aspetto nelle immagini mediche potrebbe offrire ai medici e ad altri specialisti nella terapia del cancro nuove intuizioni su come curare al meglio i pazienti, in particolare quelli affetti da tumore al cervello.

Un altro campo di impiego promettente è quello del marketing. I modelli di intelligenza artificiale multimodale possono aiutare a progettare campagne di marketing personalizzate che combinano perfettamente testo, immagini e video. Dal punto di vista del prodotto, è possibile adottarla per generare prototipi di prodotto.

Le sfide ancora aperte

Nonostante il suo promettente potenziale, l’intelligenza artificiale multimodale si trova ad affrontare sfide significative. Come specifica il Garante europeo della protezione dei dati, questi modelli sono in genere più complessi dei modelli unimodali, richiedendo risorse computazionali significative e tempi di addestramento più lunghi.

“Integrare e sincronizzare diverse tipologie di dati è intrinsecamente complesso, poiché ogni modalità ha una propria struttura, un formato e requisiti di elaborazione, rendendo difficile una combinazione efficace. Inoltre, i set di dati etichettati di alta qualità che includono più modalità sono spesso scarsi, e la raccolta e l’annotazione dei dati multimodali sono dispendiose in termini di tempo e denaro. Anche la qualità incoerente dei dati tra le diverse modalità può influire sulle prestazioni dei sistemi multimodali”.

Comments are closed.