Un articolo scientifico di Google, per la generazione della musica dal testo | Immagini Buonanotte Simpatiche e Gentili | Crea Immagini ai | Buonanotte Divertentissime per Whatsapp | Turtles AI

Un articolo scientifico di Google, per la generazione della musica dal testo
DukeRem
Google ha appena presentato un documento scientifico che tratta il tema della generazione di musica dal testo. Qualcosa di molto simile a quanto già avviene con sistemi come Dall-E, Stable Diffusion e Midjourney per le immagini. Tuttavia, Google ha deciso, almeno per il momento, di non rendere pubblico il sistema generativo, in quanto potrebbe verificarsi un plagio involontario di canzoni esistenti (o parti di esse) che hanno costituito il set di addestramento. Ciò non toglie che il risultato sia incredibile e che, probabilmente in un prossimo futuro, si possa produrre musica anche dal testo. L’articolo completo può essere consultato e scaricato al seguente indirizzo: https://arxiv.org/pdf/2301.11325.pdf Di seguito ne riportiamo, in sintesi, il contenuto. La generazione audio neurale condizionata è un campo in rapida crescita che comprende un’ampia gamma di applicazioni, dal text-to-speech e dalla generazione di musica condizionata dai testi alla sintesi audio da sequenze MIDI. Questi compiti si basano su un certo livello di allineamento temporale tra il segnale di condizionamento e l’uscita audio corrispondente. Tuttavia, di recente si è iniziato a esplorare la generazione di audio a partire da didascalie di alto livello a livello di sequenza, come "fischio con vento". Sebbene questi modelli rappresentino un passo avanti, al momento sono limitati a scene acustiche semplici e hanno difficoltà a generare sequenze audio ricche con una struttura a lungo termine e con più staminali, come ad esempio un clip musicale. Un approccio promettente per affrontare queste limitazioni è il framework AudioLM, che trasforma la sintesi audio in un compito di modellazione linguistica in uno spazio di rappresentazione discreto e sfrutta una gerarchia di unità discrete audio da grossolane a fini (o token) per ottenere un’alta fedeltà e una coerenza a lungo termine per decine di secondi. Inoltre, non facendo ipotesi sul contenuto del segnale audio, AudioLM può essere addestrato su corpora solo audio senza alcuna annotazione, rendendolo adatto a un’ampia gamma di segnali audio. Tuttavia, una delle principali sfide che questo approccio deve affrontare è la scarsità di dati audio-testuali accoppiati, in netto contrasto con il dominio delle immagini, dove la disponibilità di enormi set di dati ha contribuito in modo significativo ai recenti progressi nella generazione di immagini. Per affrontare questa sfida, Google presenta MusicLM, un modello per generare musica ad alta fedeltà da descrizioni testuali. MusicLM sfrutta la modellazione autoregressiva multistadio di AudioLM come componente generativa, ma la estende per incorporare il condizionamento del testo. Per ovviare alla mancanza di dati accoppiati, si affida a MuLan, un modello congiunto musica-testo che viene addestrato per proiettare la musica e la corrispondente descrizione testuale in rappresentazioni vicine tra loro in uno spazio di incorporamento. Questo spazio di incorporamento condiviso elimina del tutto la necessità di didascalie al momento dell’addestramento e consente l’addestramento su massicci corpora di solo audio. Quando viene addestrato su un grande set di dati di musica non etichettata, MusicLM impara a generare musica lunga e coerente a 24 kHz, per descrizioni testuali di notevole complessità, come "incantevole canzone jazz con un memorabile assolo di sassofono e un cantante solista" o "techno berlinese anni ’90 con un basso e un forte kick". Per valutare MusicLM, Google presenta MusicCaps, un nuovo dataset di didascalie musicali di alta qualità con 5.5k esempi preparati da musicisti esperti, che rilascia pubblicamente per supportare la ricerca futura. I nostri esperimenti dimostrano che MusicLM supera i sistemi precedenti in termini di qualità e aderenza alla didascalia. Inoltre, dimostrano che MusicLM può essere esteso per accettare una melodia aggiuntiva sotto forma di audio come condizionamento per generare un clip musicale che segua la melodia desiderata e sia reso nello stile descritto dalla richiesta di testo. Se da un lato la generazione di musica ha il potenziale per essere uno strumento potente, dall’altro presenta anche dei rischi, soprattutto in termini di potenziale appropriazione indebita di contenuti creativi. Per affrontare questi rischi, Google conduce uno studio approfondito sulla memorizzazione, adattando ed estendendo la metodologia di altri ricercatori, utilizzata per i modelli linguistici di grandi dimensioni basati sul testo. I nostri risultati dimostrano che, quando si somministrano le incorporazioni MuLan a MusicLM, le sequenze di token generate differiscono significativamente dalle sequenze corrispondenti nel set di addestramento, indicando che MusicLM non memorizza semplicemente i dati di addestramento.