Wan 2.2: nuova frontiera open source per la generazione video controllabile ed efficiente | Generatore di immagini bing | Midjourney | Generatore di immagini ai gratis | Turtles AI
Wan 2.2 è l’ultima versione open source del sistema di generazione video di Wan AI di Alibaba. Integra un’architettura Mixture‑of‑Experts (MoE), dati estetici curati, motion avanzato e un modello compatto 5 B efficiente per GPU consumer.
Punti chiave:
- Modello MoE due‑esperti: alta qualità con costo inferenza stabile.
- Dati estetici etichettati per controllo cinematografico.
- Espansione dati: +65,6% immagini e +83,2% video rispetto a Wan 2.1.
- Variante 5 B (TI2V) in grado di generare video 720p 24 fps su GPU tipo RTX 4090.
Wan 2.2 rappresenta un’evoluzione significativa rispetto al predecessore Wan 2.1, mantenendo i concetti fondanti ma ridefinendo la struttura interna con una pipeline MoE e ottimizzazioni per efficienza e qualità. La nuova architettura prevede due modelli esperti distinti (14 B ciascuno): uno dedicato alle fasi iniziali ad alto rumore focalizzato sul layout, l’altro alle fasi successive a basso rumore per rifinire i dettagli; solo un esperto è attivo alla volta, mantenendo costante il carico di inferenza pur sfruttando una capacità complessiva di 27 B parametri. Il punto di commutazione è definito su soglia SNR nel processo di denoising, garantendo la migliore convergenza rispetto sia a Wan 2.1 sia alle varianti MoE ibride.
Il dataset di addestramento è stato ampliato sensibilmente: rispetto a Wan 2.1, include il 65,6 % in più di immagini e l’83,2 % in più di video, contribuendo a rafforzare la generalizzazione sui movimenti complessi, la semantica e lo stile visivo; i risultati su Wan‑Bench 2.0 indicano prestazioni superiori anche rispetto a modelli commerciali closed‑source. L’integrazione di etichette estetiche dettagliate (come illuminazione, composizione, contrasto, tonalità colore) consente controlli stilistici precisi e autorizza output dall’estetica cinematografica personalizzata.
Sul fronte dell’efficienza, viene distribuito anche un modello denso da 5 B parametri, TI2V‑5B, accompagnato dal VAE Wan 2.2‑VAE ad alta compressione con rapporto T×H×W fino a 4×32×32 (compressione totale 64×) mantenendo ricostruzione video di alta qualità; esso consente generazione di video da 5 s a 720 p 24 fps in meno di 9 minuti su GPU consumer (es. 4090) ed è unico nel suo genere tra i modelli open source.
Wan 2.2 supporta generazione sia da testo a video (T2V) sia da immagine a video (I2V) in un unico framework compatto, con supporto completo per strumenti come DiffSynth‑Studio che consente quantizzazione FP8, parallelismo sequenziale, low‑GPU loading, LoRA training e addestramento completo su GPU limitate. Il codice di inferenza e i pesi del modello sono disponibili pubblicamente dal 28 luglio 2025.
Il modello è apprezzato nella comunità anche per la sua accessibilità, poiché può girare su hardware consumer con prestazioni notevoli; il metodo MoE “essenziale” con due esperti garantisce benefici reali senza complicazioni inutili. Forum e comunità come ComfyUI hanno integrato flussi di lavoro ufficiali che sfruttano l’architettura MoE e il controllo estetico avanzato per uso pratico su progetti creativi.
Wan 2.2 conserva la solidità di Wan 2.1 e apporta miglioramenti tecnici rilevanti: doppia modalità MoE, dataset esteso e annotato, compressione efficiente, supporto multimodale e utilizzo su GPU consumer.
Una validazione tecnica affidabile e un supporto open‑source aggiornato lo rendono uno strumento avanzato per generazione video controllabile ed efficiente.


