FluxSpace: Parliamo con Yusuf Dalva di Editing Semantico nelle Immagini | Festina Lente - Notizie, recensioni e approfondimenti sull’intelligenza artificiale | Turtles AI

FluxSpace: Parliamo con Yusuf Dalva di Editing Semantico nelle Immagini
Con Yusuf Dalva scopriamo come FluxSpace, tecnologia basata su transformer e flusso rettificato, sta ridefinendo l’editing delle immagini con precisione semantica, aprendo nuove possibilità per la creatività e la ricerca.
DukeRem21 gennaio 2025

L’intervista di oggi è molto tecnica, ma anche estremamente affascinante, perché potrebbe rivelare il futuro della generazione di immagini tramite algoritmi di AI. Immagina un mondo in cui sia possibile modificare immagini in modo preciso e realistico semplicemente utilizzando descrizioni testuali, anche minute: questo è esattamente ciò che FluxSpace sta cercando di realizzare.

Abbiamo avuto il piacere di parlare con Yusuf Dalva, dottorando presso la Virginia Tech, che ha condotto una ricerca innovativa su FluxSpace, una tecnologia che combina i transformer con il flusso rettificato per raggiungere risultati all’avanguardia nell’editing semantico delle immagini. Yusuf ci guiderà attraverso i fondamenti di questa tecnologia, spiegando in che modo le caratteristiche dei transformer possono essere sfruttate per modificare immagini con un controllo senza precedenti, senza richiedere ulteriori addestramenti.

Nell’intervista affronteremo argomenti come:

  • Le differenze tra i modelli di flusso rettificato e i tradizionali modelli di diffusione;
  • Come FluxSpace consente modifiche dettagliate e disaccoppiate su immagini reali e sintetiche;
  • Le applicazioni pratiche di questa tecnologia, dai video alla personalizzazione creativa delle immagini;
  • Le implicazioni etiche legate a un editing così avanzato.

Buona lettura e, come sempre, diffondete questo articolo sui vostri network utilizzando i pulsanti sotto! Grazie.

 

Q: Caro Yusuf, potresti presentarti e raccontarci qualcosa sul tuo percorso accademico, i tuoi interessi di ricerca e cosa ti ha portato allo sviluppo di FluxSpace?
A: Sono Yusuf Dalva, uno studente al secondo anno di dottorato presso Virginia Tech. Mi occupo di ricerca sui modelli generativi dall’inizio dei miei studi post-laurea. Ho iniziato studiando le GAN e le loro rappresentazioni nello spazio latente, per poi passare agli approcci basati sulla diffusione. La mia ricerca si concentra principalmente sulle rappresentazioni apprese da questi modelli generativi e su come possano essere utilizzate per applicazioni visive. Nel contesto di FluxSpace, volevamo indagare come poter controllare i risultati dei modelli di transformer basati sul flow-matching (nel nostro caso Flux), il che è stato il fattore motivante per il progetto.

 

Fondamenti Concettuali
Q: Cosa ti ha ispirato a concentrarti sull’editing semantico disaccoppiato nei trasformatori di flusso rettificato, e come FluxSpace affronta le sfide degli altri modelli di editing delle immagini?
A: La motivazione principale era quella di sfruttare le capacità generative dei trasformatori di flusso rettificato. Sviluppando un metodo di editing su modelli all’avanguardia, volevamo consentire un editing delle immagini con prestazioni visive superiori e maggiore realismo. A differenza di altri metodi, che cercano di eseguire l’editing manipolando le previsioni del rumore al livello di output, abbiamo seguito una motivazione diversa, manipolando le caratteristiche di attenzione per modificare il rumore previsto. Utilizzando Flux come modello generativo, abbiamo sfruttato l’architettura puramente transformer del modello, che ci ha permesso di ottenere un controllo preciso sulle immagini generate (come stilizzazione e semantica).

Q: Puoi spiegarci brevemente cosa sono i modelli di flusso rettificato e in cosa differiscono dai modelli di diffusione tipici, come Stable Diffusion o Flux puro?
A: Rispetto agli approcci basati sulla diffusione come Stable Diffusion, i modelli di flusso rettificato generalizzano il processo di diffusione introducendo un obiettivo di ottimizzazione leggermente diverso. Invece di prevedere il rumore a ogni passaggio di generazione, i modelli di flusso rettificato prevedono la velocità che guida il latente rumoroso verso le immagini. Studiando l’addestramento di questi modelli, l’obiettivo di previsione della velocità può essere ora formulato come un obiettivo di previsione del rumore, generalizzando il processo di diffusione. In FluxSpace, utilizziamo Flux come modello generativo, che è addestrato come modello di flusso rettificato.

 

Innovazioni Tecniche
Q: FluxSpace enfatizza l’editing disaccoppiato. Come riesce il tuo metodo a ottenere modifiche dettagliate e di alto livello senza ulteriore addestramento?
A: Abbiamo prestato attenzione alle decisioni architettoniche prese per Flux. La nostra osservazione chiave è stata che, poiché Flux ha un’architettura basata sui transformer piuttosto che un design simile a U-Net, i livelli di attenzione sono i componenti che determinano il contenuto. Inoltre, non essendoci connessioni residue tra i diversi blocchi transformer, abbiamo considerato ogni blocco in isolamento rispetto alla creazione del contenuto. Poiché Flux aveva già una comprensione semantica dell’edit che volevamo fare tramite i prompt testuali, siamo riusciti sia a modificare il contenuto sia a ottenere un disaccoppiamento.

Q: Qual è il ruolo dei livelli di attenzione e dei blocchi transformer congiunti nel consentire manipolazioni semantiche in FluxSpace?
A: L’architettura di Flux si basa su un trasformatore multimodale di diffusione. Esaminando più da vicino il design del modello, si nota che utilizza blocchi transformer a doppio flusso (congiunti) e a flusso singolo, tutti con livelli di attenzione. Come differenza, i blocchi a doppio flusso applicano trasformazioni diverse alle caratteristiche testuali e visive. Abbiamo interpretato i livelli di attenzione in questi blocchi come quelli dove il contenuto semantico viene generato gradualmente mentre le caratteristiche testuali e visive vengono allineate. Per questo motivo, eseguiamo le manipolazioni semantiche in questi blocchi, costruendo gradualmente il contesto semantico.

Q: Potresti approfondire lo schema di editing lineare introdotto in FluxSpace e la sua importanza per modifiche precise e specifiche degli attributi?
A: Consideriamo l’assunzione di linearità come un elemento essenziale per controllare l’intensità dell’edit applicato. Durante il processo di editing, assumiamo che le caratteristiche di attenzione siano aggiunte al latente rumoroso in modo lineare, seguendo il calcolo dell’attenzione. Per sfruttare questa linearità al fine di avere un’intensità di editing controllabile, introduciamo uno schema di editing basato su una direzione lineare nei risultati dei livelli di attenzione. Inoltre, poiché ci basiamo su direzioni lineari nei risultati dei livelli di attenzione, definiamo le direzioni sulla base della proiezione ortogonale delle caratteristiche di attenzione, migliorando così il disaccoppiamento durante l’editing.

Q: In che modo il meccanismo di mascheramento contribuisce al disaccoppiamento delle modifiche in strutture di immagine complesse?
A: Abbiamo progettato l’approccio al mascheramento come un affinamento delle modifiche applicate. Anche se operiamo su un modello di base molto solido (Flux), abbiamo osservato che i risultati dei livelli di attenzione presentano delle "perdite" nelle mappe di attenzione, che influenzano negativamente il disaccoppiamento. Per evitare questo effetto, utilizziamo un approccio di mascheramento auto-supervisionato per eliminare questi pixel di attenzione che perdono, identificabili attraverso valori di attivazione bassi. Ad esempio, se voglio applicare un’edit di sorriso, questo mascheramento può concentrarsi maggiormente sui pixel vicino alla bocca della persona modificata, mentre i restanti pixel vengono soppressi con una soglia di mascheramento.

 

Applicazioni
Q: Quali sono alcune applicazioni pratiche o settori in cui vedi FluxSpace avere il maggiore impatto?
A: Credo che questo approccio possa migliorare ulteriormente la generazione di contenuti personalizzabili e consentire uno spettro più ampio di immagini che possono essere generate. L’applicazione principale su cui ci siamo concentrati in questo studio è stata l’editing delle immagini, quindi credo che la generazione di immagini personalizzate migliorerà ulteriormente. Tuttavia, poiché presentiamo le nostre scoperte sui livelli di attenzione e sui blocchi transformer, credo che FluxSpace possa essere esteso anche ad altri modelli, come quelli per la generazione video. Inoltre, penso che la nostra ricerca possa offrire una nuova prospettiva per studi che indagano le caratteristiche di attenzione nei modelli basati su transformer.

Q: Come gestisce FluxSpace l’editing di immagini reali rispetto a quelle sintetiche? Ci sono limitazioni o sfide specifiche legate ai dati reali?
A: Poiché Flux è un approccio relativamente nuovo, non esiste ancora un metodo robusto di inversione, anche se è un’area di ricerca attiva. Considerando questo, ci siamo concentrati principalmente su immagini generate da Flux piuttosto che su immagini reali. Tuttavia, credo che una volta migliorata la ricerca sull’inversione in modelli di questo tipo, il nostro lavoro sarà più trasferibile al compito di editing di immagini reali. Come esempio di limitazioni per l’editing di immagini reali, presentiamo alcuni esempi con RF-Inversion dove le modifiche semantiche sono trasferibili ma non così efficaci come nelle immagini sintetiche.

 

Confronti con Altri Modelli
Q: Nei tuoi esperimenti, FluxSpace ha superato altri metodi all’avanguardia come LEDITS++ e TurboEdit. Quali sono stati i fattori chiave che hanno contribuito a queste prestazioni superiori?
A: Credo che ci siano due fattori chiave per questo miglioramento delle prestazioni. La ragione iniziale è stata la potenza del modello di base che utilizziamo, ovvero Flux nel nostro caso, SDXL per LEDITS++ e SDXL-Turbo per TurboEdit. Inoltre, ci siamo concentrati su una classe di rappresentazioni un livello inferiore rispetto agli approcci concorrenti: mentre gli altri si concentrano sulle previsioni del rumore in uscita, noi ci siamo focalizzati su come queste previsioni di rumore sono costruite attraverso i livelli di attenzione. Tuttavia, penso che la differenza primaria sia dovuta alla diversità dei modelli utilizzati.

Q: FluxSpace integra embedding testuali poolati e basati su token. Come si confrontano questi con i metodi utilizzati nei sistemi tradizionali basati su CLIP o T5?
A: Posso dire che utilizziamo sia gli embedding CLIP che quelli T5 durante l’editing. Nell’architettura di Flux, l’embedding poolato di CLIP viene utilizzato per la modulazione delle caratteristiche, mentre gli embedding T5 vengono utilizzati direttamente nel calcolo dell’attenzione. Esaminando questi diversi embedding e il loro impatto sull’edit eseguito, abbiamo notato che lavorano insieme, ma CLIP è più coinvolto negli edit grossolani, mentre gli embedding T5 sono più coinvolti negli edit dettagliati grazie al calcolo in cui sono impiegati. Inoltre, posso dire che questa struttura congiunta ci consente anche di distinguere tra edit grossolani e dettagliati.

 

Interazione con gli Utenti
Q: Quanto è intuitiva l’interfaccia utente per individui senza un background tecnico? Gli utenti non esperti possono utilizzare FluxSpace per compiti creativi?
A: Abbiamo progettato il segnale di editing per essere il più semplice possibile, richiedendo solo l’inserimento di un prompt di editing per modificare il risultato generato. Tuttavia, l’aspetto più impegnativo potrebbe essere comprendere gli iperparametri utilizzati nell’approccio. Sebbene questo possa risultare problematico all’inizio, una volta che l’utente si abitua agli effetti di ciascun iperparametro, riteniamo che l’editing dei contenuti sarà semplice anche per gli utenti non tecnici.

Q: Avete ricevuto feedback da artisti, designer o altri utenti non tecnici? In caso affermativo, come ha influenzato la vostra ricerca o sviluppo?
A: Al momento no, non abbiamo consultato tali gruppi per un feedback. Tuttavia, seguendo l’approccio proposto, la nostra intenzione è rendere questo metodo il più robusto possibile e quindi chiedere agli artisti come questo lavoro possa essere incrementato per supportare i loro sforzi creativi. Nel nostro laboratorio, cerchiamo sempre di guardare al progetto da un processo centrato sull’utente, con una priorità nel risolvere in modo efficace un problema reale per un pubblico target. Anche questo lavoro seguirà lo stesso approccio, e siamo entusiasti di iterare su questo progetto per renderlo utile alla comunità creativa.

Considerazioni Etiche
Q: FluxSpace possiede potenti capacità di editing. Come affrontate le preoccupazioni etiche, come il possibile abuso per deepfake o media ingannevoli?
A: In questo studio, lavoriamo per esplorare le capacità di editing di Flux e personalizzare le immagini generate dal modello con concetti definiti dai prompt testuali. Poiché non lavoriamo su immagini al di fuori della distribuzione del modello, non introduciamo nuove preoccupazioni relative alla generazione di media ingannevoli. Inoltre, ci concentriamo su immagini generate piuttosto che su immagini reali. Tuttavia, crediamo che tali considerazioni etiche avranno un ruolo importante in futuro, considerando che il nostro approccio ha il potenziale di essere ampliato a tali applicazioni.

Q: Sono previste misure di salvaguardia o tecniche per prevenire l’uso non autorizzato o non etico di questa tecnologia?
A: Credo che i prompt testuali ci offrano una grande capacità creativa, ma allo stesso tempo creino applicazioni che necessitano di regolamentazioni. In FluxSpace non ci concentriamo su tali misure preventive, ma personalmente credo che queste dovrebbero essere implementate a livello di prodotto.

 

Sviluppi Futuri
Q: Quali sono i prossimi passi per FluxSpace? Avete in programma di estendere le sue capacità oltre l’editing delle immagini, per esempio nel campo dei video o della modellazione 3D?
A: Onestamente, ci sono molte possibilità quando si tratta di estensioni. Ma come priorità, vorremmo migliorare la robustezza dell’approccio, in modo che la sensibilità agli iperparametri introdotti sia minore. A livello di dominio, vorremmo indagare sui modelli di generazione video basati su transformer e vedere come le nostre scoperte si traducano in tali modelli. Credo personalmente che i modelli di generazione video comportino rappresentazioni più complesse rispetto ai modelli di generazione di immagini e che, investigando le strutture interne come i livelli di attenzione, possiamo trovare nuove informazioni. Questo potrebbe eventualmente portare a nuove applicazioni.

Q: Come vedi evolvere FluxSpace con i progressi nell’intelligenza artificiale generativa e nelle architetture transformer?
A: Penso che finché le architetture basate su transformer rimarranno l’approccio dominante, le nostre scoperte avranno valore nella comunità di ricerca. Detto ciò, credo sempre in un’iterazione costante nella ricerca. Certamente mi aspetto iterazioni sul nostro lavoro, che miglioreranno il valore della nostra idea proposta nel lungo termine.

 

Collaborazioni e Open Source
Q: Anche se l’implementazione di FluxSpace non è ancora stata resa pubblica, prevedete di farlo in futuro? Quali fattori state considerando prima di procedere?
A: Durante lo sviluppo del nostro approccio, abbiamo iterato in un contesto chiuso, ma in futuro ci piacerebbe renderlo pubblico. Sebbene non abbiamo ancora avuto l’opportunità di migliorare il nostro approccio con il feedback della comunità open-source, speriamo di poterlo fare nelle future iterazioni.

Q: State perseguendo collaborazioni o partnership per espandere la portata o le capacità di FluxSpace?
A: Abbiamo iniziato questo progetto come un’iniziativa interna al nostro laboratorio (GEMLAB presso Virginia Tech). Tuttavia, credo che ogni nuovo contributore apporti un certo potenziale in termini di iterazione, quindi preferiamo mantenere una mentalità aperta per future collaborazioni e partnership.

 

Riflessioni Finali
Q: Che consiglio daresti ai giovani ricercatori che si avvicinano al campo dell’intelligenza artificiale generativa, in particolare a coloro che sono interessati all’intersezione tra tecnologia e creatività?
A: Il primo consiglio che darei è di mantenere una mente aperta. Tutti questi modelli generativi ci forniscono strumenti molto utili insieme a interessanti domande di ricerca. Credo che le persone dovrebbero motivarsi a perseguire una particolare domanda che hanno e dovrebbero essere pronte a investire tempo ed energia per farlo. Siamo attualmente in un’epoca molto interessante all’intersezione tra intelligenza artificiale generativa e creatività, e anche una persona che è alle prime armi nel settore può fare una domanda significativa se posta correttamente. Quindi consiglierei di mantenere una mente aperta e di non avere paura di seguire la propria curiosità.

Q: Come nota finale, sentiti libero di condividere qualsiasi cosa desideri comunicare alla comunità di Turtle’s AI, siano essi artisti, appassionati di AI o semplici lettori occasionali.
A: Prima di tutto, vorrei ringraziare la comunità per averci dato una piattaforma per parlare della nostra ricerca. Apprezziamo molto ogni individuo coinvolto in questa comunità. Nell’era dell’intelligenza artificiale generativa, abbiamo assistito a miglioramenti in modo molto rapido, tutto grazie a questa comunità. Grazie a questa comunità, noi ricercatori possiamo identificare i bisogni e le debolezze degli approcci attuali e avviare sforzi di sviluppo. Spero che comunità come quella costruita da Turtle’s AI continueranno a esistere, così potremo mantenere questo feedback reciproco anche in futuro.

 

Grazie infinite, Yusuf. Torneremo da te in futuro per analizzare gli sviluppi delle tue ricerche!