FIBO, l’orologiaio delle immagini: quando l’AI impara la precisione artigianale del controllo visivo | Generatore di immagini gratis | Immagini buon giovedì | Generatore di immagini ai gratis | Turtles AI
Il modello FIBO è un generatore open-source testo→immagine che utilizza didascalie in formato JSON molto lunghe (oltre 1.000 parole) per offrire controllo preciso su illuminazione, composizione, telecamera e colore: pensato per flussi professionali e licenze aziendali.
Punti chiave:
- Utilizzo esclusivo di didascalie JSON strutturate e lunghe, per un controllo puntuale della scena.
- Architettura da 8 miliardi di parametri, basata su DiT + flow-matching, addestrata su dati totalmente concessi in licenza.
- Tre modalità operative: “Genera” (da prompt breve a immagine + JSON), “Affina” (modifica mirata senza stravolgere la scena) e “Ispira” (partendo da un’immagine + prompt).
- Controllabilità professionale: possibilità di modificare un solo attributo (es. angolo telecamera) senza compromettere il resto della composizione.
Quando si osserva FIBO, si scopre un approccio che sfida la prassi predominante nei modelli testo-immagine: questi tendono spesso alla fantasia, all’imprevisto creativo, all’impatto estetico veloce. Ma quando si lavora per produzioni, design, pubblicità o visualizzazione prodotto, la variabile «inaspettato» può essere un problema: bisogna che ciò che si richiede venga effettivamente riprodotto, ripetuto, iterato. FIBO nas-ce proprio per questo tipo di impiego. È infatti addestrato su coppie immagine-didascalia dove ciascuna didascalia è una lunga struttura JSON (tipicamente circa mille parole) che descrive in dettaglio illuminazione, composizione, colore, profondità di campo, angolo della telecamera, lente, atmosfera, componenti visive.
Questo tipo di supervisione consente ciò che gli autori indicano come “disentanglement nativo”: ogni attributo è definito, separato, modificabile senza che l’intera scena venga riscritta. In pratica puoi chiedere “mantieni la scena, cambia solo la lente in 85 mm e riscalda la tonalità della pelle” e ottenere la modifica precisa, anziché un’immagine nuova che vira su un concetto simile ma diverso.
L’architettura tecnica merita un cenno: il modello impiega 8 miliardi di parametri, è basato su struttura DiT (Diffusion Transformer) con flow-matching, utilizza come codificatore testuale SmolLM3-3B e come VAE WAN 2.2; per il condizionamento è adottata la nuova architettura DimFusion elemento utile per trattare didascalie così lunghe in modo efficiente.
Ma ciò che lo distingue davvero è l’input: non un semplice prompt “un gufo nel bosco” ma un JSON che può essere generato da un modello di visione-linguaggio (VLM) a partire da un prompt più breve. Il flusso è questo: l’utente fornisce un’idea breve → il VLM espande in schema JSON dettagliato → FIBO genera l’immagine. Oppure l’utente fornisce un’immagine + eventuale istruzione → VLM estrae un JSON strutturato → FIBO genera varianti → l’utente può iterare modificando solo parti del JSON.
Sul tema della licenza e compliance, va segnalato che tutti i dati di addestramento sono concessi in licenza (100 %) e verificati per uso commerciale, attribuzione, conformità GDPR e al regolamento europeo AI Act. Questo rende FIBO adatto a usi professionali e aziendali in cui la trasparenza e la tracciabilità sono fondamentali.
Dal punto di vista pratico, le modalità operative sono almeno tre:
Genera: si parte da un prompt breve, il VLM lo espande in JSON e si genera l’immagine => si ottengono sia l’immagine sia il JSON.
Affina: partendo da un prompt JSON già generato si fornisce una breve istruzione (“retroilluminato”, “85 mm”, “toni della pelle più caldi”) e il modello modifica solo l’attributo richiesto, mantenendo tutto il resto intatto.
Ispira: si fornisce un’immagine (più eventualmente un prompt) e il VLM estrae un JSON che la descrive, lo fonde con l’intento creativo dell’utente e genera immagini correlate: utile per partire da un riferimento visivo e generare varianti.
Questo tipo di pipeline si rivolge dunque a un pubblico che non vuole solo “una bella immagine” ma “l’immagine come desideravo, oggi e domani, modificabile, ripetibile”. Pensate a un team creatività che deve generare decine di visual per prodotti, ciascuno con modifiche lievi: FIBO consente iterazioni rapide senza dover ricominciare da zero. Inoltre è disponibile tramite diverse modalità operative: è integrato in API (per esempio tramite Bria Platform, Fal.ai, Replicate) e come nodo in framework di interfaccia creativa (ad esempio ComfyUI) oltre che per inferenza locale.
Il risultato è quindi un modello che, pur avendo “solo” 8 miliardi di parametri (che, rispetto ai modelli più massivi, suggerisce un compromesso bene calibrato), dichiara di offrire qualità elevata e aderenza forte al prompt. Nei benchmark proprietari (subset del benchmark PRISM‑Bench basato su dati con licenza) FIBO risulta superiore alle baseline open-source comparabili per allineamento immagine-testo ed estetica.
Un aspetto interessante è il “disentanglement”: la supervisione strutturata delle didascalie JSON lunghe consente che ogni attributo visivo — angolazione della telecamera, profondità di campo, fonte luminosa, materiale, colore sia in qualche modo “etichettato” e separato dagli altri, per cui modificare un elemento non significa rifare tutto. Questa granularità rende il modello molto adatto a workflow professionali, nei quali l’affidabilità, la ripetibilità, la prevedibilità contano più della sorpresa creativa.
Infine va detto che FIBO porta con sé una visione implicita ma chiara : l’idea che nella generazione di immagini tramite AI si stia passando da “posa libera, improvvisata” a “strumento di produzione controllato”. E nel suo campo, il JSON lungo, le licenze curate, l’inferenza modulare sono elementi di maturazione del mezzo.


