Abbiamo sentito parlare di Intelligenza Artificiale che produce testo, immagini e video e ora è il turno della musica.

Ci sono molti video, grafiche e testi realizzati quasi alla perfezione da persone che ammettono volentieri di non essere né registi, artisti o scrittori. Ma la musica è diversa e il prodotto finale potrebbe non impressionare tanto quanto le altre attività creative.

Per carità, si tratta comunque di un ambito apprezzato della gen-AI: la maggior parte dei fornitori di text-to-music, infatti, considera l’AI nella musica come un passo avanti rispetto ai sintetizzatori o ai mixing desk, non uno strumento per appiattire il settore musicale.

Tra gli strumenti di AI generativa per la musica più famosi ci sono sicuramente AudioCraft di Meta e MusicLM di Google.

AudioCraft: cosa c’è da sapere sull’intelligenza artificiale di meta

intelligenza artificiale

Meta ha rilasciato un nuovo codice AI open-source chiamato AudioCraft, che consente agli utenti di creare musica e suoni interamente attraverso l’AI generativa. 

Si compone di tre modelli di intelligenza artificiale, che affrontano tutti aree diverse della generazione sonora: MusicGen, AudioGen ed EnCodec.

MusicGen accetta input testuali per generare musica ed è stato addestrato su 20.000 ore di musica di proprietà di Meta o concessa in licenza appositamente per questo scopo.

AudioGen crea audio a partire da richieste scritte, è stato addestrato su effetti sonori pubblici e può simulare suoni specifici come ad esempio l’abbaiare di un cane, il suono di un clacson o i passi su un pavimento di legno.

Una versione migliorata del decodificatore EnCodec, infine, consente di generare musica di qualità superiore con meno artefatti.

AudioCraft, quindi funziona per generare e comprimere musica e suoni, tutto nello stesso posto: chi vuole costruire generatori di suoni, algoritmi di compressione o generatori di musica migliori può fare tutto con la stessa base di codice e basarsi su ciò che altri hanno fatto.

MusicLM di Google: cosa c’è da sapere

MusicLM è il modello di AI generativa di Google che genera musica a 24 kHz fedele a descrizioni testuali come, ad esempio “una melodia rilassante di violino sostenuta da un riff di chitarra distorto“.

MusicLM ha superato i sistemi precedenti sia in termini di qualità audio che di aderenza alla descrizione testuale e può essere condizionato sia dal testo che da una melodia, in quanto è in grado di trasformare melodie fischiettate e canticchiate in base allo stile descritto in una didascalia testuale.

Per supportare la ricerca, Google ha rilasciato anche MusicCaps, ossia un set di dati composto da 5,5k coppie musica-testo, con ricche descrizioni testuali fornite da esperti umani.

MusicLM è al momento in fase beta nella Google AI Test Kitchen – un’app in cui le persone possono conoscere, sperimentare e dare un feedback sulle tecnologie AI emergenti.

Basta che gli utenti digitino un testo come “soulful jazz for a dinner party” e MusicLM creerà due versioni del brano, e si può assegnare un trofeo al brano che piace di più, contribuendo così a migliorare il modello.

Di recente è uscito un esperimento di Google con l’intelligenza artificiale: TextFX. Si tratta di una collaborazione tra il rapper Lupe Fiasco e Google, in cui viene usato un LLM per “esplorare le possibilità creative del testo e del linguaggio“.

L’underdog (ma neanche tanto) dell’AI nella musica: Boomy

Boomy compete con le due big da molto prima che l’IA generativa diventasse un concetto mainstream: l’azienda, infatti, offre l’opportunità di far guadagnare gli utenti che la scelgono, incoraggiandoli a inviare le loro canzoni alle piattaforme di streaming e venire pagati quando le persone le ascoltano.

Guadagnare con la musica non è così facile, in particolare con i pagamenti in streaming, ma ciò che le persone acquistano da Boomy è la prospettiva che l’intelligenza artificiale possa essere una porta d’accesso a guadagni immediati.

Il video qui sopra è stato realizzato in meno di 30 minuti dall’autore della newsletter Expl.AI.nable. L’audio proviene da Boomy e non ha richiesto alcuna scintilla creativa da parte sua, ma solo un clic su due pulsanti, uno etichettato come “lo-fi” e l’altro come “morning sun“.

È stato poi passato attraverso MusicGen di Meta e messo in loop in iMovie. Il video è tratto da Gen 2 di Runway ed è stato costruito a partire da un’immagine generata in Midjourney. La richiesta era: “Un robot che suona dei mazzi di carte nello stile dell’artwork di un singolo eurodance degli anni Novanta”.

ENTRA ANCHE TU NELLA COMMUNITY AINLAB: VISITA IL SITO UFFICIALE

Comments are closed.