MotionGPT: da testo a movimento | Reti Neurali Cosa Sono | Intelligenza Artificiale Generativa Google | Intelligenza Artificiale Immagini | Turtles AI

MotionGPT: da testo a movimento
DukeRem26 luglio 2023
#I ricercatori hanno realizzato #MotionGPT, un modello linguistico di grandi dimensioni (LLM) in grado di gestire anche i #dati di movimento umano. Rappresentando il movimento come "motion #tokens", MotionGPT è in grado di #generare movimenti umani a partire da descrizioni testuali e di svolgere compiti come il motion captioning e la predizione a livelli all’avanguardia. Clicca qui per il documento originale e clicca qui per il repository GitHub. Sebbene gli attuali LLM (vedi le nostre guide cliccando qui) abbiano ottenuto risultati impressionanti, non sono in grado di modellare dati multimodali come il movimento umano. I ricercatori propongono MotionGPT, un modello unificato di linguaggio del movimento in grado di gestire compiti relativi al movimento umano. Utilizzano la quantizzazione vettoriale per rappresentare il movimento umano come "gettoni di movimento" discreti, simili a gettoni di parole. Esegue poi una modellazione linguistica sia sui token di movimento che su quelli di testo, trattando il movimento umano come una "lingua straniera". MotionGPT viene pre-addestrato su una miscela di dati relativi al movimento e al linguaggio e messo a punto utilizzando compiti di risposta a domande basate su prompt. I loro esperimenti dimostrano che MotionGPT raggiunge prestazioni all’avanguardia in vari compiti di movimento, come la generazione di movimenti guidati dal testo, la didascalia del movimento, la previsione del movimento e l’interpolazione del movimento. Pur essendo ancora nelle fasi iniziali, MotionGPT si dimostra promettente come primo passo verso l’incorporazione del movimento umano in modelli linguistici di grandi dimensioni.