Da attività cerebrale ad immagini! | Intelligenza Artificiale Immagini Disney | Immagini Buongiorno | Stable Diffusion ai Video | Turtles AI
Da attività cerebrale ad immagini!
DukeRem8 marzo 2023
I ricercatori hanno proposto un nuovo metodo per ricostruire le immagini visive dall’attività cerebrale umana.
Anche se un po’ spaventoso, questo potrebbe essere il futuro, o almeno una parte di esso, e potrebbe portare a una vera comunicazione "telepatica" delle immagini.
Il metodo utilizza un modello di diffusione (DM) che si basa su un modello di diffusione latente (LDM) chiamato Stable Diffusion, per ridurre il costo computazionale. L’LDM è in grado di ricostruire immagini ad alta risoluzione con un’elevata fedeltà semantica, il che lo rende un metodo promettente per la ricostruzione di immagini dall’attività cerebrale umana. Questa struttura è anche in grado di fornire un nuovo quadro di riferimento per la comprensione dei DM. Lo studio fornisce anche un’interpretazione quantitativa delle diverse componenti delle LDM da una prospettiva neuroscientifica.
La ricostruzione di esperienze visive a partire dall’attività cerebrale umana è un’area di studio interessante perché offre un modo unico di capire come il cervello rappresenta il mondo. I recenti sviluppi nella misurazione dell’attività cerebrale della popolazione hanno permesso di confrontare direttamente le rappresentazioni latenti dei cervelli biologici con le caratteristiche architettoniche delle reti artificiali, fornendo importanti indicazioni sul funzionamento di questi sistemi.
La ricostruzione di immagini visive dall’attività cerebrale è un problema impegnativo, poiché le rappresentazioni cerebrali sottostanti sono in gran parte sconosciute e le dimensioni ridotte dei campioni tipicamente associate ai dati cerebrali. Tuttavia, studi recenti hanno utilizzato modelli e algoritmi di apprendimento profondo per affrontare questo compito, tra cui le reti generative avversarie (GAN) e l’apprendimento auto-supervisionato.
Negli ultimi anni i DM hanno guadagnato attenzione perché hanno raggiunto prestazioni all’avanguardia in diversi compiti di generazione di immagini condizionali. Inoltre, le LDM hanno ridotto ulteriormente i costi computazionali utilizzando lo spazio latente generato dalla loro componente di autocodifica. Gli LDM hanno la capacità di generare immagini ad alta risoluzione con un’elevata fedeltà semantica.
Il metodo proposto utilizza Stable Diffusion per ricostruire immagini ad alta risoluzione con un’elevata fedeltà semantica. I ricercatori sono riusciti a dimostrare che il loro semplice framework è in grado di ricostruire immagini ad alta risoluzione senza alcun addestramento o messa a punto di complessi modelli di deep-learning.
Lo studio ha utilizzato un set di dati chiamato Natural Scenes Dataset (NSD), che comprende scansioni cerebrali di soggetti durante la visione di migliaia di immagini. I ricercatori hanno analizzato i dati delle scansioni cerebrali di quattro soggetti che hanno completato tutte le sessioni di imaging. I ricercatori hanno addestrato i LDM utilizzando i dati NSD e li hanno usati per decodificare i segnali cerebrali dei soggetti durante la visione delle immagini. Hanno inoltre utilizzato modelli di codifica per prevedere i segnali cerebrali dai diversi componenti dell’LDM.
Lo studio mirava a ricostruire le immagini sulla base dell’attività cerebrale e a confrontare l’efficacia delle diverse rappresentazioni latenti.
Esso ha dimostrato che le immagini ad alta risoluzione possono essere ricostruite con notevole accuratezza dall’attività cerebrale umana. A differenza dei precedenti tentativi che richiedevano l’uso di complessi modelli di deep-learning, questo metodo prevede solo semplici mappature lineari dalla risonanza magnetica funzionale alle rappresentazioni latenti all’interno dei LDM. Lo studio fa anche luce sui processi interni dei LDM costruendo modelli di codifica che hanno permesso di interpretare il contenuto semantico durante il processo di diffusione inversa. Inoltre, sono state eseguite la caratterizzazione a livello di strato di U-Net e l’interpretazione quantitativa delle trasformazioni da immagine a immagine con vari livelli di rumore. Questo studio rappresenta un significativo passo avanti nella comprensione dei DM da una prospettiva biologica e potrebbe avere implicazioni di vasta portata nei campi delle neuroscienze e dell’intelligenza artificiale.
L’articolo scientifico completo è disponibile qui.