YuE: innovare la generazione musicale attraverso la tecnologia testo-in-canzone | Llm cosa e | Ai generativa gratis | App intelligenza artificiale italiano gratis | Turtles AI
YuE è una serie innovativa di modelli open-source progettati per trasformare i testi in canzoni complete, con struttura coerente, tracce vocali coinvolgenti e accompagnamento strumentale adeguato, supportando diversi generi e lingue.
Punti Chiave:
- Tecnologia avanzata per il testo-in-canzone: YuE affronta la sfida di creare canzoni complete, comprese voci e strumenti, partendo dai testi, mantenendo coerenza musicale e fedeltà linguistica.
- Metodologie innovative: Funzionalità come il tokenizzatore audio semantico, la sincronizzazione a doppio token e la generazione progressiva guidata dai testi garantiscono risultati di alta qualità.
- Versatilità in generi e lingue: YuE supporta più lingue, tra cui inglese, mandarino, cantonese, giapponese e coreano, con capacità di alternare tra lingue diverse e adattarsi a vari stili musicali.
- Ottimizzazione nella formazione e scalabilità: Una strategia di formazione in tre fasi migliora scalabilità, qualità musicale e controllo guidato dai testi, per generare composizioni lunghe fino a cinque minuti.
YuE (乐), il cui nome in cinese simboleggia "musica" e "felicità", sta modificando il panorama della generazione musicale basata sull’AI. Questa innovativa suite di modelli open-source è stata progettata specificamente per trasformare i testi in composizioni musicali complete (denominato Lyrics2Song). A differenza dei sistemi attuali, che eccellono nella creazione di brevi frammenti musicali non vocali, YuE raggiunge l’impresa straordinaria di generare canzoni complete, spesso della durata di diversi minuti, includendo sia tracce vocali accattivanti che arrangiamenti strumentali complementari. Mantiene una coerenza lirica e musicale lungo tutto il brano, adattandosi con facilità a generi e stili differenti. Le dimostrazioni attualmente disponibili includono i generi pop e metal, con l’intenzione di espandersi ad altri stili come l’Opera di Pechino.
L’innovazione chiave di YuE risiede nell’affrontare le importanti sfide tecniche dei compiti Lyrics2Song. Queste comprendono la natura contestualmente estesa della musica, la complessità dei segnali audio rispetto ad altre forme (come il parlato o gli effetti sonori), le distorsioni linguistiche nei contenuti generati e la scarsità di dataset paralleli (coppie testo-audio). Grazie a tecniche avanzate, YuE supera questi ostacoli stabilendo un nuovo standard nel settore. Tra queste tecniche, spicca un tokenizzatore audio migliorato semanticamente, che riduce i costi computazionali e accelera la convergenza durante l’addestramento. Un’altra caratteristica fondamentale è il metodo a doppio token, che sincronizza la modellazione vocale e strumentale all’interno di un’unica architettura solo-decoder. Questo design sfrutta un’infrastruttura consolidata per garantire scalabilità e semplicità di implementazione senza necessità di modifiche architetturali. Inoltre, YuE utilizza un approccio di generazione progressiva, noto come "catena di pensieri" per i testi, che gli consente di creare intere canzoni in modo fluido seguendo le indicazioni testuali.
Un programma di addestramento in tre fasi garantisce che YuE non solo si espanda efficacemente, ma mantenga anche alti livelli di musicalità e controllo guidato dai testi. La prima fase ottimizza la modellazione audio generale, mentre le fasi successive perfezionano il sistema per la strutturazione musicale e la generazione condizionata dai testi. Questa strategia consente al modello di produrre tracce audio coerenti della durata di fino a cinque minuti, con melodie vocali accattivanti e accompagnamenti strumentali ben calibrati.
Le capacità multilingue di YuE rappresentano un ulteriore elemento distintivo. Il modello supporta un’ampia gamma di lingue, includendo sistemi linguistici occidentali e orientali. Le dimostrazioni attuali coprono inglese, mandarino (sia nella versione standard che cantonese), giapponese e coreano. YuE facilita anche il passaggio da una lingua all’altra all’interno dello stesso brano, migliorando la sua adattabilità a contesti musicali e linguistici diversi. I piani futuri prevedono l’espansione del repertorio a stili musicali globali, come l’Opera di Pechino, e l’ampliamento delle lingue supportate. È interessante notare che i testi utilizzati per l’addestramento derivano da playlist curate, riscritte con GPT per migliorarne la qualità e l’allineamento con gli obiettivi musicali.
YuE rappresenta un enorme passo avanti nella generazione musicale con l’AI, offrendo prestazioni senza precedenti nella trasformazione testo-in-canzone e gettando le basi per future innovazioni nel settore.
