V-JEPA 2, un nuovo modello che vuole capire il mondo, di Meta | Meta AI chatbot | Meta AI WhatsApp number | Meta AI WhatsApp Italia | Turtles AI

V-JEPA 2, un nuovo modello che vuole capire il mondo, di Meta
Un nuovo modello auto-supervisionato basato su video integra comprensione visiva, previsione e pianificazione robotica zero-shot, sfruttando enormi dataset internet e poche ore di dati robotici per operare in ambienti sconosciuti senza addestramenti
Isabella V16 giugno 2025

 

Meta AI presenta V‑JEPA 2, un modello globale video‑based auto‑supervisionato, capace di comprendere, anticipare e pianificare. Pre‑addestrato su vasta scala, esteso poi a capacità robotiche zero‑shot, dimostra prestazioni all’avanguardia in comprensione visiva e controllo robotico.

Punti chiave:

  • V‑JEPA 2 è un world model video‑based da 1,2 miliardi di parametri, auto‑supervisionato tramite oltre 1 M ore di video internet.
  • Mostra risultati top‑1 su Something‑Something v2 (77,3 %) e recall‑at‑5 su Epic‑Kitchens‑100 (39,7 %) senza supervisione linguistica.
  • Tramite un’estensione action‑conditioned (V‑JEPA 2‑AC) addestrata con sole 62 h di video robotici, pianifica task zero‑shot su bracci Franka in ambienti nuovi.
  • L’esecuzione robotica include reaching, grasping e pick‑and‑place con obiettivi immagine, senza ricompense o training specifico.


 

Il nuovo V‑JEPA 2 (Video Joint Embedding Predictive Architecture 2) è un modello di world learning estremamente scalabile e auto‑supervisionato, sviluppato da Meta AI su un encoder ViT da 1,2 miliardi di parametri. L’addestramento primario sfrutta oltre un milione di ore di video e un milione di immagini internet, con obiettivi di predizione latente per rappresentazioni visuali, evitando il pixel‑level e privilegiando strutture semantiche predicibili. Tale approccio ha raggiunto primeggi su benchmark di comprensione del movimento (77,3 % top‑1 su Something‑Something v2) e anticipazione di azioni umane (39,7 % recall‑at‑5 su Epic‑Kitchens‑100), superando modelli task‑specifici. Inoltre, dopo l’allineamento con un grande modello linguistico da 8 miliardi di parametri, V‑JEPA 2 ottiene risultati di eccellenza su interrogazioni video‑QA: 84,0 % su PerceptionTest e 76,9 % su TempCompass.

Nel passo successivo, il modello è stato esteso in versione action‑conditioned (V‑JEPA 2‑AC) tramite un secondo training su soli 62 h di video robotici non etichettati dal dataset Droid, congelando l’encoder e addestrando un predittore autoregressivo (~300 M parametri) per codificare stati futuri in funzione di azione e stato corrente. V‑JEPA 2‑AC è stato quindi implementato zero‑shot su bracci Franka in due laboratori, eseguendo reaching, grasping e pick‑and‑place con obiettivi immagine, usando un MPC con ottimizzazione CEM, senza alcun dato né ricompensa specifica per l’ambiente. In test comparativi, supera metodi come Octo e Cosmos, raggiungendo tassi di successo medi del 65 % su grasping di tazze e fino all’80 % nel pick‑and‑place, con tempi di pianificazione più rapidi rispetto a Cosmos.

Le prestazioni tecniche derivano da una formazione progressiva per risoluzione spaziale/temporale, con encoder ViT‑g fino a 252 K iterazioni su 64 frame a risoluzione crescente, e un predittore causale con attenzione multi‑blocco, capace di pianificare sequenze di azioni ottimizzate rispetto alla rappresentazione dell’obiettivo. Le architetture sono rilasciate open‑source su GitHub e HuggingFace, con checkpoint da ViT‑L, H, G.

In aggiunta, la comunità scientifica riconosce V‑JEPA 2 come un significativo passo verso world model video‑based, capace di uso concreto in robotica embodied e altre applicazioni come veicoli autonomi, senza necessità di annotazioni estese o training specifici. Il modello è ora disponibile per ricerca e sperimentazione, con benchmark pubblici per valutare la comprensione del mondo fisico da video.  V‑JEPA 2 illustra come l’unione tra pre‑training su larga scala e un modesto training azione‑condizionato possa generare modelli capaci di comprendere, predire e agire nell’ambiente reale.

In chiusura, V‑JEPA 2 apre la strada a modelli video‑fondazio ne capaci di apprendere il mondo attraverso l’osservazione e poi agire con competenza tecnica ed efficienza, con minimi dati specifici come leva per capacità robotiche zero‑shot avanzate.

Video