Generazione di video con LDM | Chat gpt Traduzione | Come Impostare Chat gpt in Italiano | Chatgpt Gratis | Turtles AI
Generazione di video con LDM
DukeRem23 aprile 2023
Un team di ricercatori, ovvero Andreas Blattmann, Robin Rombach, Huan Ling, Tim Dockhorn, Seung Wook Kim, Sanja Fidler, Karsten Kreis (la maggior parte dei quali provenienti da #NVIDIA) ha sviluppato un nuovo approccio alla #generazione di #video ad alta risoluzione che promette di rivoluzionare il modo in cui creiamo e simuliamo scenari di guida, nonché di generare contenuti creativi con la modellazione text-to-video. L’approccio, chiamato #Latent #Diffusion #Models (#LDM), consente di sintetizzare immagini di alta qualità evitando un’eccessiva richiesta di calcolo.
L’approccio LDM funziona addestrando un modello di diffusione in uno spazio latente compresso a bassa dimensione. Il team ha dapprima pre-addestrato un LDM solo su immagini, quindi ha trasformato il generatore di immagini in un generatore di video introducendo una dimensione temporale al modello di diffusione nello spazio latente e effettuando una messa a punto su sequenze di immagini codificate o video. Hanno inoltre allineato temporalmente gli upsampler del modello di diffusione, trasformandoli in modelli di super-risoluzione video temporalmente coerenti.
Il team si è concentrato su due applicazioni rilevanti del mondo reale: la simulazione di dati di guida in-the-wild e la creazione di contenuti creativi con la modellazione da testo a video. Hanno convalidato il loro Video LDM su video reali di guida con risoluzione 512 × 1024, ottenendo prestazioni all’avanguardia. Inoltre, il loro approccio può facilmente sfruttare LDM di immagini pre-addestrati, poiché in questo caso è sufficiente addestrare un modello di allineamento temporale. In questo modo, hanno trasformato il modello LDM Stable Diffusion, disponibile pubblicamente e allo stato dell’arte, da testo a immagine in un modello efficiente ed espressivo da testo a video con una risoluzione fino a 1280 × 2048.
Il team ha dimostrato che gli strati temporali addestrati in questo modo sono generalizzabili a diversi LDM testo-immagine con regolazione fine. Utilizzando questa proprietà, hanno dimostrato i primi risultati per la generazione personalizzata di testo-video, aprendo interessanti direzioni per la creazione di contenuti futuri.
In sintesi, i modelli di diffusione latente video sviluppati dal team offrono un modo efficiente ed efficace per generare video ad alta risoluzione, in particolare nel contesto degli scenari di guida e della creazione di contenuti creativi. La scelta progettuale principale del team è stata quella di basarsi su modelli di diffusione di immagini pre-addestrati e di trasformarli in generatori di video attraverso una messa a punto temporale dei video con livelli di allineamento temporale. Sperano che il loro lavoro possa giovare ai simulatori nel contesto della ricerca sulla guida autonoma e contribuire a democratizzare la creazione di contenuti video di alta qualità.