Meta rivela CM3leon, un modello avanzato di intelligenza artificiale da testo a immagine | Chatgpt Login | Cosa Sono i Large Language Models | Nlp e llm | Turtles AI

Meta rivela CM3leon, un modello avanzato di intelligenza artificiale da testo a immagine
DukeRem24 luglio 2023
I ricercatori di Meta hanno fatto una presentazione di grande impatto, svelando CM3leon, un modello avanzato di intelligenza artificiale generativa in grado di generare testo da immagini e di creare immagini da richieste di testo. Alcuni punti chiave del loro lavoro: - CM3leon raggiunge risultati all’avanguardia nella generazione di testi da immagini, superando il modello Parti di Google nel benchmark COCO con un punteggio FID di 4,88. - Il singolo modello CM3leon è in grado di eseguire un’ampia gamma di compiti di visione e linguaggio, come l’editing di immagini guidato dal testo, la sintesi segmentazione-immagine, la risposta a domande visive e la didascalia di immagini. Questa versatilità lo rende molto utile. - Sebbene sia stato addestrato su soli 3 miliardi di token di testo, CM3leon è in grado di eguagliare le prestazioni di modelli linguistici molto più grandi su compiti come la didascalia di immagini e la VQA, dimostrando l’efficacia della sua ricetta di addestramento. - I ricercatori di Meta riconoscono le sfide legate alle potenziali distorsioni dei dati e intendono affrontarle attraverso la trasparenza e la collaborazione con la comunità dei ricercatori. Esplorano inoltre tecniche di super-risoluzione per migliorare la fedeltà delle immagini. - CM3leon mostra il potenziale di sistemi di intelligenza artificiale multimodale più simili a quelli umani, in grado di comprendere e generare contenuti visivi e testuali. Il progetto apre la strada a modelli generativi più capaci in futuro.