Abbiamo sentito parlare di Intelligenza Artificiale che produce testo, immagini e video e ora è il turno della musica.
Ci sono molti video, grafiche e testi realizzati quasi alla perfezione da persone che ammettono volentieri di non essere né registi, artisti o scrittori. Ma la musica è diversa e il prodotto finale potrebbe non impressionare tanto quanto le altre attività creative.
Per carità, si tratta comunque di un ambito apprezzato della gen-AI: la maggior parte dei fornitori di text-to-music, infatti, considera l’AI nella musica come un passo avanti rispetto ai sintetizzatori o ai mixing desk, non uno strumento per appiattire il settore musicale.
Tra gli strumenti di AI generativa per la musica più famosi ci sono sicuramente AudioCraft di Meta e MusicLM di Google.
AudioCraft: cosa c’è da sapere sull’intelligenza artificiale di meta
Meta ha rilasciato un nuovo codice AI open-source chiamato AudioCraft, che consente agli utenti di creare musica e suoni interamente attraverso l’AI generativa.
Si compone di tre modelli di intelligenza artificiale, che affrontano tutti aree diverse della generazione sonora: MusicGen, AudioGen ed EnCodec.
MusicGen accetta input testuali per generare musica ed è stato addestrato su 20.000 ore di musica di proprietà di Meta o concessa in licenza appositamente per questo scopo.
AudioGen crea audio a partire da richieste scritte, è stato addestrato su effetti sonori pubblici e può simulare suoni specifici come ad esempio l’abbaiare di un cane, il suono di un clacson o i passi su un pavimento di legno.
Una versione migliorata del decodificatore EnCodec, infine, consente di generare musica di qualità superiore con meno artefatti.
AudioCraft, quindi funziona per generare e comprimere musica e suoni, tutto nello stesso posto: chi vuole costruire generatori di suoni, algoritmi di compressione o generatori di musica migliori può fare tutto con la stessa base di codice e basarsi su ciò che altri hanno fatto.
MusicLM di Google: cosa c’è da sapere
MusicLM è il modello di AI generativa di Google che genera musica a 24 kHz fedele a descrizioni testuali come, ad esempio “una melodia rilassante di violino sostenuta da un riff di chitarra distorto“.
MusicLM ha superato i sistemi precedenti sia in termini di qualità audio che di aderenza alla descrizione testuale e può essere condizionato sia dal testo che da una melodia, in quanto è in grado di trasformare melodie fischiettate e canticchiate in base allo stile descritto in una didascalia testuale.
Per supportare la ricerca, Google ha rilasciato anche MusicCaps, ossia un set di dati composto da 5,5k coppie musica-testo, con ricche descrizioni testuali fornite da esperti umani.
MusicLM è al momento in fase beta nella Google AI Test Kitchen – un’app in cui le persone possono conoscere, sperimentare e dare un feedback sulle tecnologie AI emergenti.
Basta che gli utenti digitino un testo come “soulful jazz for a dinner party” e MusicLM creerà due versioni del brano, e si può assegnare un trofeo al brano che piace di più, contribuendo così a migliorare il modello.
Di recente è uscito un esperimento di Google con l’intelligenza artificiale: TextFX. Si tratta di una collaborazione tra il rapper Lupe Fiasco e Google, in cui viene usato un LLM per “esplorare le possibilità creative del testo e del linguaggio“.
L’underdog (ma neanche tanto) dell’AI nella musica: Boomy
Boomy compete con le due big da molto prima che l’IA generativa diventasse un concetto mainstream: l’azienda, infatti, offre l’opportunità di far guadagnare gli utenti che la scelgono, incoraggiandoli a inviare le loro canzoni alle piattaforme di streaming e venire pagati quando le persone le ascoltano.
Guadagnare con la musica non è così facile, in particolare con i pagamenti in streaming, ma ciò che le persone acquistano da Boomy è la prospettiva che l’intelligenza artificiale possa essere una porta d’accesso a guadagni immediati.
Il video qui sopra è stato realizzato in meno di 30 minuti dall’autore della newsletter Expl.AI.nable. L’audio proviene da Boomy e non ha richiesto alcuna scintilla creativa da parte sua, ma solo un clic su due pulsanti, uno etichettato come “lo-fi” e l’altro come “morning sun“.
È stato poi passato attraverso MusicGen di Meta e messo in loop in iMovie. Il video è tratto da Gen 2 di Runway ed è stato costruito a partire da un’immagine generata in Midjourney. La richiesta era: “Un robot che suona dei mazzi di carte nello stile dell’artwork di un singolo eurodance degli anni Novanta”.
Comments are closed.