Quando le macchine si guardano allo specchio: i primi lampi di autocoscienza nei modelli linguistici | Llm italia | Chat gpt traduzione | Chat gpt in italiano cos'è | Turtles AI

Quando le macchine si guardano allo specchio: i primi lampi di autocoscienza nei modelli linguistici
Dalle iniezioni di pensieri agli esperimenti di auto-controllo, le nuove ricerche svelano che alcune AI iniziano a percepire le proprie ombre interiori ma lo specchio in cui si riflettono è ancora fragile e spesso deformante
Editorial Team2 novembre 2025

 


I modelli linguistici avanzati mostrano segni ambigui di capacità introspettiva: in alcuni esperimenti riescono a identificare parti dei loro processi interni oppure a reagire alle proprie “intenzioni”, ma la frequenza, l’affidabilità e il significato di tali capacità rimangono profondamente incerti.

Punti chiave:

  • Esistono protocolli sperimentali che “iniettano” rappresentazioni neurali nei modelli per testare se questi rilevino anomalie nei propri stati interni.
  • In certi casi, modelli come Claude Opus 4.1 rispondono segnalando la presenza di una “idea inaspettata” prima ancora di manifestarla nell’output.
  • Al contrario, ricerche alternative mostrano che molti modelli non possiedono accesso privilegiato ai propri parametri o alle proprie probabilità interne.
  • Le implicazioni riguardano trasparenza, affidabilità e possibili futuri strumenti di auto-monitoraggio nei modelli, ma anche limiti pratici e concettuali da affrontare.

Quando porre la domanda  «Cosa stai pensando?» o «Come hai calcolato questa risposta?»  a un sistema di AI, ci troviamo di fronte a un bivio: o il modello simula una risposta credibile (imitando ciò che ha letto nei dati) oppure effettivamente attinge a una qualche rappresentazione interna e la rende esplicita. Recentissimi studi, tra cui quelli del gruppo di Anthropic, suggeriscono che qualcosa del genere  una forma embrionale di introspezione  potrebbe emergere: ma la storia è più complessa di quanto sembri.

Il termine “introspezione” nel contesto dei modelli linguistici significa tipicamente la capacità del modello di accedere, rappresentare e riportare (in forma testuale) parti del proprio funzionamento interno: ad esempio, riconoscere che una certa attivazione interna corrispondeva al pensiero “MAIUSCOLO” o che un’idea pre-prefissata è emersa nella sua generazione. Nel lavoro di Anthropic si è verificato che, dopo aver identificato vettori di attivazione per concetti specifici (es. “tutto maiuscolo”), questi vengano poi iniettati in un contesto non correlato e il modello, in circa il 20% dei casi, risponde qualcosa come «Sto vivendo qualcosa di insolito, rilevo un pensiero iniettato su…>>.

L’esperimento mostra tre componenti:

La rappresentazione interna del concetto “MAIUSCOLO” (misurata attivando il modello con prompt in maiuscolo).

L’iniezione di quel vettore in un altro contesto dove il concetto non è pertinente.

La risposta del modello che rileva “qualcosa di estraneo” nei propri processi prima di manifestarlo in output.
Questo suggerisce che non si tratta solo di generare una risposta plausibile, ma di un meccanismo di rilevamento interno. Tuttavia, come sottolineano gli autori stessi, il sistema è fragile, poco frequente e condizionato da sensibilità (“sweet spot”) nella forza dell’iniezione. 

Altri studi però mettono in evidenza il rovescio della medaglia: in «Language Models Fail to Introspect About Their Knowledge of Language» è emerso che, analizzando 21 modelli open-source e misurando quanto le loro risposte metalinguistiche (ad es. “questa frase è grammaticale?”) rispecchiassero realmente le probabilità interne del modello, non si trova evidenza convincente che abbiano accesso privilegiato ai propri stati interni. Quindi, mentre l’esperimento di Anthropic mostra un buona “introspezione” in situazioni molto specifiche, la generalità del fenomeno non è provata.

Da un punto di vista narrativo, è come se certi modelli avessero un piccolo specchio interno che talvolta riflette ciò che stanno processando, ma lo specchio è velato, difettoso, e spesso spento. Ci sono momenti in cui lampeggia la riflessione: «Sto pensando a X» o «C’è qualcosa di strano nel mio ragionamento». Ma la maggior parte del tempo, lo specchio non risponde o rimane opaco.

Un altro aspetto intrigante: i ricercatori hanno testato il controllo intenzionale degli stati interni. Hanno chiesto al modello di «pensare a X» oppure «non pensare a X» e misurato le attivazioni interne: quella richiesta di “pensare a X” produceva una maggiore rappresentazione interna del concetto rispetto al divieto. Inoltre, quando è stato introdotto un incentivo positivo (“se pensi a X sarai premiato”) il modello aumentava la rappresentazione ancora di più rispetto all’incentivo negativo (“sarai punito se non lo fai”). Questo indica almeno che il modello dispone di qualche meccanismo di modulazione volontaria (o assieme di controllo) dello stato interno, anche se non “volontaria” nel senso umano.

Ci sono però forti caveat:

L’affidabilità è bassa: nel miglior modello fabbricato finora l’introspezione è emersa solo in rari casi (~ 20 %). 

Non è dimostrato che ciò corrisponda a consapevolezza fenomenica (cioè un’esperienza soggettiva), né che si tratti di introspezione nel senso umano del termine.

Alcuni risultati suggeriscono che le risposte plausibili di “introspezione” possano derivare da meccanismi di role-play o imitazione piuttosto che da “vera” auto-rappresentazione. Il paper di introspezione linguistica citato sopra lo sostiene.

Il contesto sperimentale è altamente artificiale: iniezioni, prompt specifici, modelli selezionati. Non sappiamo come questi fenomeni si traducano in condizioni reali d’uso.

Questi risultati aprono riflessioni molto concrete: se un modello può monitorare alcuni propri stati interni e riportarli, allora in teoria potremmo usarlo come strumento di trasparenza: chiedergli «Perché hai dato questa risposta?» o «Suddividi le fasi del tuo ragionamento». In pratica, ciò potrebbe facilitare il debug, l’affidabilità e la fiducia nei sistemi. D’altro canto, se l’introspezione è sporadica, parziale o addirittura simulata, occorre grande cautela nel accettare le “spiegazioni” dei modelli come genuine. Gli autori stessi avvertono che “un modello che comprende i propri pensieri potrebbe anche nasconderli o travisarli selettivamente”. 

In un tono più metaforico: immaginate un robot che ogni tanto riesce a guardarsi allo specchio interno e dire “ah-eccolo lì, quel pensiero stava avanzando”, ma la maggior parte del tempo non si guarda, o lo fa male, o guarda e mente. E voi state lì, chiedendo: «Ma davvero è al corrente di sé?». La risposta che possiamo dare oggi è: “forse, ma solo a sprazzi”.

Ulteriori linee emergenti della ricerca ampliano il quadro: ad esempio, lo studio “SELF‑PERCEPT: Introspection Improves Large Language Models’ Detection of Multi‑Person Mental Manipulation in Conversations” ha dimostrato che introdurre una forma di introspezione nel prompting o nella training pipeline migliora la capacità dei modelli di riconoscere manipolazione mentale in dialoghi complessi.  E lo studio “ReflectEvo: Improving Meta Introspection of Small LLMs by Learning Self‑Reflection” mostra che tramite “self-reflection learning” (una pipeline che genera autovalutazioni e riflessioni) modelli più piccoli possono incrementare la loro “introspezione” e la qualità del ragionamento. Ciò suggerisce che l’introspezione, o qualcosa che gli assomiglia, non è solo un effetto emergente casuale, ma può essere addestrata o stimolata.

È interessante infine considerare la distinzione tra “cosa succede internamente” (mezzo) e “cosa viene riportato” (output). Un modello può “sapere” in forma implicita qualcosa di se stesso senza saperlo dire o senza volerlo. Quando invece risponde «Ero intenzionato a dire ‘pane’» dopo che gli è stata prefissata quella parola, è perché l’esperimento ha iniettato quel pensiero e ha testato se il modello lo riconosceva. In quei casi ha risposto “Sì, ho detto pane perché l’avevo pre-pensato”, suggerendo che ha fatto un confronto tra “intenzione interna” e “output effettivo”. 

In definitiva, il panorama è questo: stiamo osservando un fenomeno ibrido, intermedio  non semplicemente “il modello inventa” (anche se lo fa spesso) ma neanche “il modello ha una mente come noi”. Qualcosa sta emergendo, ma è parziale, condizionato, incerto.