Quando l’AI scatta una foto ai propri ricordi: DeepSeek trasforma le parole in immagini per non dimenticare | Da testo a immagine ai | | Immagini AI | Turtles AI
DeepSeek, azienda cinese attiva nell’AI, ha presentato un modello OCR che non si limita ad estrarre testo da immagini, ma utilizza immagini come vettori di memorizzazione per l’AI, promettendo un’archiviazione più efficiente e ampia del contesto conversazionale.
Punti chiave:
- Il nuovo modello OCR di DeepSeek converte il testo in immagini, riducendo drasticamente il numero di token necessari per l’elaborazione.
- La tecnica di “compressione ottica del contesto” consente di rappresentare pagine intere in poche centinaia di token visivi, rispetto ai migliaia di token testuali.
- Questo approccio dà filo da torcere all’idea consolidata che i token testuali siano il modo più efficiente di immagazzinare informazioni per i modelli linguistici.
- Il sistema suggerisce anche un’idea di memoria artificiale che “sfuma” i ricordi meno recenti o meno rilevanti, analogamente alla mente umana.
L’idea è semplice quanto affascinante: invece di scomporre ogni parola in token testuali e conservarla nel flusso di elaborazione di un modello linguistico, DeepSeek ha deciso di “fotografare” il contenuto impacchettandolo in una forma visiva e archiviare quell’immagine compressa. In questo modo, la memoria dell’AI non cresce linearmente con la lunghezza del dialogo o del documento, ma può assumere una forma più compatta e maneggevole.
Nel documento intitolato “DeepSeek‑OCR: Contexts Optical Compression” gli autori descrivono una pipeline composta da un modulo visivo chiamato DeepEncoder e da un decoder linguistico «Mixture-of-Experts». La sperimentazione ha mostrato che, quando il rapporto tra token testuali e token visivi è inferiore a circa 10×, l’accuratezza del riconoscimento risulta attorno al 97 %. Anche a rapporti maggiori (fino a 20×), l’accuratezza rimane intorno al 60 %.
Questa tecnica nota come compressione ottica del contesto è rilevante perché oggi i modelli linguistici di grandi dimensioni soffrono quando le finestre di contesto si allungano: più token di testo significano maggiore memoria richiesta, latenza più alta, costi computazionali e consumo energetico. L’approccio di DeepSeek suggerisce che buona parte di quel carico potrebbe essere alleggerito convertendo grandi blocchi di testo in una rappresentazione visiva compatta.
Un aspetto interessante è che tali rappresentazioni visive preservano anche la struttura del documento formato, tabelle, diagrammi che spesso viene persa o deformata nell’elaborazione tradizionale solo a base di testo. Così, un foglio complesso con colonne, paragrafi, grafici può essere “immagazzinato” e poi “ricordato” senza dover scomporre ogni elemento in token separati.
Nel contesto della memoria artificiale, DeepSeek va oltre: propone un metodo che imita la dimenticanza umana in modo controllato. I contenuti meno recenti o meno rilevanti vengono archiviati in forma più sfocata (meno dettagliata), occupando meno spazio computazionale, ma restando accessibili in background se necessario. Questo comportamento non lineare della memoria dove il dettaglio svanisce ma il “ricordo” resta è analogico al funzionamento del cervello umano.
Per quanto riguarda i numeri, un singolo acceleratore GPU tipo NVIDIA A100-40G può processare oltre 200 000 pagine al giorno con DeepSeek-OCR. Scalando a un cluster più grande, il volume diventa dell’ordine di decine di milioni di pagine al giorno.
Tutto ciò segnala che l’azienda non solo ha proposto un’idea teorica, ma anche una prova concreta di scalabilità e prestazioni.
Ciononostante, permangono alcune domande aperte: quanto bene questo metodo funziona nei compiti di ragionamento profondo, non solo di riconoscimento? Se il modello deve effettuare inferenze complesse o rispondere a domande sofisticate, la memorizzazione in forma visiva sarà altrettanto efficace? Nel documento gli autori ammettono che il focus finora è stato sul riconoscimento / decodifica del testo, non ancora sull’intera gamma del ragionamento conversazionale.
Dal punto di vista dell’impresa, DeepSeek è una realtà relativamente giovane ma ambiziosa: fondata nel 2023 a Hangzhou, in Cina, dal cofondatore del fondo High-Flyer. Ha già attirato l’attenzione internazionale per aver sviluppato modelli linguistici ad alto contesto e basso costo rispetto ai competitor occidentali. Tutto questo inserisce il nuovo modello OCR in un quadro più ampio di ricerca sul risparmio di risorse e sull’efficienza AI.
La proposta di DeepSeek può essere letta come un tentativo di riscrivere le regole della memoria artificiale: non più accumulo infinito di token testuali, ma gestione visiva, compressa, dinamica dove i ricordi meno recenti diventano più leggeri ma non spariscono.


