DeepSeek lancia Janus-Pro: un nuovo standard per l’AI generativa | Creare immagini con ai | Immagini gratis | Stable diffusion ai github | Turtles AI

DeepSeek lancia Janus-Pro: un nuovo standard per l’AI generativa
Il modello combina innovazione architettonica e prestazioni avanzate, superando i principali concorrenti nella generazione multimodale


Editorial Team27 gennaio 2025

 

 DeepSeek innova nel campo dell’AI con il modello Janus-Pro, superando i rivali grazie a miglioramenti nel training, capacità multimodali e generazione di immagini avanzata. Prestazioni superiori a Stable Diffusion e DALL-E 3.

Punti chiave:

  • Janus-Pro migliora la generazione multimodale: Incorporando strategie di addestramento ottimizzate, set di dati ampliati e modelli di scala maggiore, il nuovo framework eccelle nella generazione di immagini e nella comprensione testuale.
  • Architettura innovativa: Janus utilizza un design autoregressivo che separa i percorsi visivi, migliorando flessibilità e prestazioni rispetto ai precedenti modelli multimodali unificati.
  • Innovazione con JanusFlow: L’integrazione del flusso rettificato nel modello riduce la complessità strutturale, raggiungendo risultati di livello superiore nei benchmark standard di AI.
  • Versatilità open source: La disponibilità pubblica di Janus amplia le opportunità di ricerca accademica e commerciale, rispettando specifici termini di licenza.

DeepSeek, nota per il successo della sua AI "ragionante" R1 che ha modificato l’industria tecnologica e il mercato azionario, ha svelato il suo nuovo modello open source di AI, Janus-Pro. Questa piattaforma, basata sul precedente framework Janus, rappresenta un’evoluzione significativa grazie a tre miglioramenti principali: una strategia di addestramento ottimizzata, un dataset più ampio e un incremento delle dimensioni del modello. Questi avanzamenti consentono a Janus-Pro di ottenere prestazioni eccezionali sia nella comprensione multimodale che nella generazione di immagini partendo da comandi testuali, migliorando stabilità e accuratezza.

Janus, alla base di questa tecnologia, si distingue per il suo approccio autoregressivo, che disaccoppia la codifica visiva in percorsi distinti pur mantenendo una singola architettura di trasformatore unificata. Questo disaccoppiamento allevia il conflitto tra il ruolo di comprensione e generazione del codificatore visivo, rendendo il framework più flessibile ed efficace. L’architettura di Janus, minimalista ma potente, supera i modelli precedenti sia unificati sia specializzati, candidandosi come riferimento per i futuri sistemi multimodali unificati.

JanusFlow, parte integrante della tecnologia, integra un metodo avanzato di modellazione generativa, noto come flusso rettificato, all’interno di un grande modello linguistico autoregressivo. Questa integrazione riduce la complessità strutturale, eliminando la necessità di modifiche significative all’architettura, pur mantenendo alte prestazioni in benchmark standard. Gli esperimenti hanno dimostrato che JanusFlow supera gli approcci unificati attualmente in uso, rappresentando un passo in avanti verso modelli linguistici di visione più versatili ed efficienti.

Un limite attuale del modello Janus-Pro riguarda la risoluzione delle immagini prodotte, limitata a 384x384 pixel. Tuttavia, DeepSeek annuncia una versione avanzata, Janus-Pro-7b, che ha già dimostrato di superare modelli comparabili in due test di benchmark di intelligenza artificiale. Questo dimostra il potenziale della piattaforma nonostante le limitazioni tecniche iniziali.

Con il rilascio pubblico di Janus-Pro, DeepSeek si impegna a promuovere la ricerca accademica e commerciale, sottolineando però che l’uso del modello è regolato dai termini specificati nella licenza. L’azienda sottolinea anche come Janus-Pro abbia superato le performance di Stable Diffusion e DALL-E 3, consolidandosi come una delle tecnologie di riferimento nel settore dell’AI generativa.

Janus-Pro, grazie alla sua semplicità e flessibilità, potrebbe rappresentare una pietra miliare nell’evoluzione dei modelli multimodali, integrando efficacemente innovazione tecnologica e prestazioni competitive.