Qwen‑Image, una nuova proposta sul panorama dell’image generation locale di qualità | Generatore di immagini bing | Stable diffusion ai video | | Turtles AI

Qwen‑Image, una nuova proposta sul panorama dell’image generation locale di qualità
Con 20 miliardi di parametri, supporto multilingue e editing avanzato, il modello open‑source di Alibaba ridefinisce la generazione visiva integrando layout, stile e comprensione semantica
Editorial Team5 agosto 2025

 


Il modello Qwen‑Image di Alibaba, un modello multimodale da 20 miliardi di parametri basato su architettura MMDiT, offre avanzate capacità di generazione ed editing immagini con testo integrato, supporto multilingue, editing semantico e strumenti aperti per benchmarking.

Punti chiave:

  •  Estrazione e rendering di testo complesso, supporto efficace per cinese e inglese
  •  Editing visivo avanzato: stile, testo, oggetti, pose mantenendo coerenza semantica
  •  Accesso open‑source: licenza Apache 2.0, pesi su Hugging Face e Qwen Chat
  •  Valutazione tramite AI Arena: confronti umani anonimi e ranking Elo imparziale

Il Qwen‑Image, annunciato ufficialmente il 4 agosto 2025, è un modello di base per immagini dotato di 20 miliardi di parametri che utilizza l’architettura MMDiT, capace di produrre immagini da descrizioni testuali e di modificare immagini esistenti con grande accuratezza. Il suo punto di forza è il rendering nativo del testo; il modello non si limita a sovrapporre caratteri ma li integra nel layout con fedeltà tipografica e coerenza contestuale sia in lingue alfabetiche che logografiche (inglese e cinese). Questo risultato è ottenuto grazie a una pipeline di addestramento controllata: oltre a dati reali, sono generate immagini sintetiche testuali attraverso rendering composizionali e template complessi, utilizzando una curata procedura di curriculum learning che evolve da scenari non testuali a paragrafi multilinea.

Il modello eredita le capacità multimodali del suo encoder condizionale Qwen 2.5‑VL, combinato con un VAE ricostruttivo, consentendo un meccanismo a doppia codifica che unisce coerenza semantica e fedeltà visuale anche durante operazioni di editing. In queste fasi il modello eccelle in editing avanzati: trasferimento di stile, inserimento o rimozione di oggetti, modifica del testo presente nelle immagini e persino manipolazione di pose umane mantenendo il resto dell’immagine intatto e coerente.

Le prestazioni di Qwen‑Image sono state misurate su numerosi benchmark pubblici: primeggia su GenEval, DPG, OneIG‑Bench e su test di testo lungo come LongText‑Bench e il nuovo ChineseWord benchmark, ottenendo risultati superiori a modelli chiusi come GPT Image 1, Seedream 3.0 e FLUX.1 Kontext, soprattutto per il rendering di caratteri cinesi complessi. Inoltre, nella piattaforma AI Arena, dove gli utenti votano confrontando due immagini anonime generate dallo stesso prompt, Qwen‑Image è il miglior modello open source e si colloca fra i primi in assoluto sulla classifica Elo aggiornata su oltre 10.000 valutazioni.

Qwen‑Image è distribuito con licenza Apache 2.0, con pesi disponibili su Hugging Face, ModelScope e accessibile tramite interfaccia web su qwen‑chat.ai selezionando la modalità “Image Generation”. La natura open‑source lo rende adatto a implementazioni enterprise, casi d’uso personalizzati, fine‑tuning e generazione di dataset sintetici per visione artificiale, senza costi di licenza o vincoli contrattuali.

Come evoluzione del progetto Qwen2‑VL, Qwen‑Image incorpora miglioramenti architetturali come il MSRoPE (Multimodal Scalable RoPE) per evitare che i token testuali vengano confusi con elementi visivi, distribuendo in modo scalare le posizioni nel layout e riducendo errori di interpretazione dei caratteri nel contesto visivo.

In ultima analisi, Qwen‑Image rappresenta una solida alternativa open‑source ai modelli proprietari di punta. La sua efficacia nel rendering testuale, combinata con ampie capacità di editing, lo rende uno strumento immediatamente utilizzabile da creatori, sviluppatori e ricercatori nell’ambito generazione visiva multimodale, senza la necessità di infrastrutture proprietarie. Tenendo presente questa offerta, il settore dell’AI visiva potrà esplorare nuovi scenari di creatività e integrazione tedestra.

 Qwen‑Image testimonia come un modello open‑source da 20 miliardi di parametri possa integrare testo complesso, editing semantico e rigore tecnico attraverso dati, architetture e benchmarking aperti.