Quando le macchine scambiano coincidenze per cause: i difetti nascosti nella maggior parte delle AI | Intelligenza artificiale google | Ai chat free | Intelligenza artificiale in chirurgia | Turtles AI

Quando le macchine scambiano coincidenze per cause: i difetti nascosti nella maggior parte delle AI
Come la dipendenza dell’AI da modelli statistici, piuttosto che dalla comprensione delle vere cause ed effetti, possa portare a decisioni e raccomandazioni errate in settori critici come sanità, giustizia ed economia
DukeRem

In un pomeriggio piovoso, un sistema di intelligenza artificiale dichiara con sicurezza che l’acquisto di ombrelli provoca pioggia. Anche se può sembrare assurdo, questo scenario riflette un problema significativo nella moderna AI: la confusione tra correlazione e causalità. Questo fraintendimento non è solo teorico: ha conseguenze tangibili che possono influenzare decisioni in ambito sanitario, nella giustizia penale e nella vita quotidiana.

Dopo aver letto l’articolo, non dimenticare di ascoltare il nostro primo podcast video, in fondo a questa pagina.

 

L’AI si è integrata senza soluzione di continuità in molti aspetti della nostra vita, dal consigliare film all’assistere nelle diagnosi mediche. Questi sistemi spesso si basano sull’identificazione di schemi e correlazioni all’interno di enormi dataset per fare previsioni e prendere decisioni. Tuttavia, senza comprendere le relazioni causali sottostanti, l’AI può trarre conclusioni fuorvianti o addirittura dannose. Lo stesso vale per i modelli di linguaggio come ChatGPT, che si basano pesantemente su occorrenze statistiche per "creare" contenuti. In questo saggio esploreremo la correlazione causale nell’AI e forniremo gli strumenti per evitare di essere ingannati.

 

Il rischio della correlazione senza causalità – Perché gli attuali modelli di linguaggio stentano con la vera causalità

Consideriamo un sistema di AI che analizza dati ospedalieri e osserva una forte correlazione tra il numero di letti ospedalieri e il tasso di mortalità. Potrebbe dedurre che ridurre il numero di letti abbasserà il numero di decessi, senza riconoscere che gli ospedali con più letti tipicamente trattano casi più gravi, che comportano rischi intrinsecamente più elevati. L’AI non coglie il nesso causale per cui la gravità delle malattie porta sia a più letti ospedalieri che a tassi di mortalità più elevati.

In un altro esempio, un’AI che esamina i risultati educativi nota che gli studenti che portano occhiali tendono ad avere voti migliori. Potrebbe concludere che indossare occhiali migliora le prestazioni accademiche e raccomandare occhiali a tutti gli studenti. Quello che non coglie è che indossare occhiali è associato a problemi di vista, e coloro che correggono la propria vista possono partecipare meglio alle attività di apprendimento. Inoltre, l’accesso all’assistenza sanitaria che fornisce occhiali può essere correlato a fattori socioeconomici che contribuiscono anche a migliori risorse educative.

Analogamente, un’AI potrebbe rilevare che le regioni con un maggiore utilizzo di Internet hanno tassi di alfabetizzazione migliori. Potrebbe dedurre che aumentare l’accesso a Internet migliorerà direttamente l’alfabetizzazione. Sebbene la disponibilità di Internet possa essere un utile strumento educativo, l’AI ignora che le regioni con tassi di alfabetizzazione più elevati sono più propense ad adottare e utilizzare efficacemente la tecnologia di Internet. Sviluppo socioeconomico, infrastrutture educative e fattori culturali giocano ruoli significativi sia nell’alfabetizzazione che nell’uso di Internet.

Questi esempi evidenziano un difetto fondamentale: i sistemi di AI che si basano esclusivamente su correlazioni statistiche possono interpretare erroneamente i dati quando mancano della comprensione contestuale. Senza la capacità di discernere tra causa ed effetto, l’AI può produrre raccomandazioni non solo errate ma potenzialmente dannose.

 

Uno dei motivi principali dietro questa limitazione risiede nell’architettura di base della maggior parte dei sistemi di AI attuali, in particolare i modelli di linguaggio come GPT-4, Claude, LLaMa e molti altri. Questi modelli si basano su metodi statistici e su architetture di deep learning note come transformer (consulta la nostra guida per saperne di più su questo). I transformer eccellono nell’elaborazione e nella generazione di sequenze di dati prevedendo la parola successiva in una frase sulla base delle distribuzioni di probabilità apprese da enormi quantità di testo. Questo processo è intrinsecamente statistico e si concentra sulla cattura di schemi e correlazioni all’interno dei dati.

I transformer utilizzano meccanismi di attenzione per pesare la rilevanza delle diverse parole in un contesto, consentendo al modello di generare risposte coerenti e appropriate al contesto. Tuttavia, questo meccanismo non dota il modello di una comprensione della causalità. Il modello apprende che alcune parole o frasi hanno una probabilità elevata di seguire altre, ma non comprende il perché. È simile a un bambino che impara che le nuvole spesso precedono la pioggia ma non capisce i processi atmosferici che causano la precipitazione.

I modelli di linguaggio vengono addestrati su vasti dataset che comprendono una vasta gamma di conoscenze umane, uso del linguaggio e stili di scrittura. Sebbene questo addestramento consenta loro di produrre testi che rispecchiano il linguaggio umano, significa anche che ereditano i pregiudizi, le imprecisioni e le limitazioni presenti nei dati. Poiché mancano di esperienza nel mondo reale e non possono eseguire esperimenti o interventi, non sono in grado di distinguere tra correlazioni casuali e relazioni causa-effetto reali.

Ad esempio, se un modello di linguaggio osserva che gli articoli sulle recessioni economiche spesso menzionano l’aumento dei prezzi dell’oro, potrebbe dedurre una relazione causale diretta tra i due. Senza una comprensione dei fattori economici sottostanti, come il fatto che gli investitori si rivolgono all’oro come bene rifugio durante l’incertezza economica, l’AI non può discernere con precisione la causalità. Si limita a osservare la frequenza delle parole che compaiono insieme e assume una connessione basata sulla co-occorrenza statistica.

Questa natura statistica dei modelli di linguaggio implica anche che possono generare spiegazioni plausibili che, in realtà, non hanno alcun fondamento. Possono fornire ragioni o giustificazioni che si allineano con schemi nei dati, ma che non riflettono meccanismi causali reali. Questa limitazione è cruciale quando i sistemi di AI vengono utilizzati in settori che richiedono un ragionamento preciso, come la diagnosi medica o l’analisi legale, dove comprendere la causa è essenziale per prendere decisioni efficaci.

Inoltre, la mancanza di comprensione causale nei modelli di linguaggio può perpetuare e amplificare i pregiudizi esistenti. Se i dati di addestramento contengono stereotipi o associazioni pregiudizievoli, il modello potrebbe riprodurli nei suoi output. Ad esempio, associare determinate professioni a un particolare genere o etnia sulla base dei dati storici riflette correlazioni nel dataset, non verità causali riguardo a capacità o preferenze.

In sostanza, i modelli di AI attuali funzionano come sistemi sofisticati di riconoscimento di schemi. Eccellono nell’identificare e replicare schemi all’interno dei dati di addestramento, ma non possiedono una comprensione intrinseca del mondo. Non possono dedurre che accendere un interruttore della luce causi l’accensione di una lampada; possono solo notare che le parole "accendi l’interruttore" spesso appaiono vicino a "la luce si è accesa" nei testi.

Affrontare questa sfida richiede un cambiamento fondamentale nel modo in cui i modelli di AI sono progettati e addestrati. I ricercatori stanno esplorando modi per integrare il ragionamento causale nell’AI, combinando l’apprendimento statistico con i framework di inferenza causale. Questo comporta insegnare ai modelli a considerare non solo se le variabili sono associate, ma se i cambiamenti in una variabile portano a cambiamenti in un’altra. Integrando metodi dall’inferenza causale, come i grafi causali e il do-calculus, i sistemi di AI possono iniziare a modellare interventi e prevedere risultati basati su scenari ipotetici.

Lo sviluppo dell’AI causale rappresenta un passo significativo verso la creazione di sistemi che possano comprendere e ragionare sul mondo in modo più simile a come fanno gli esseri umani. Ciò comporta dotare l’AI della capacità di porsi domande "cosa succederebbe se", considerare controfattuali e ragionare sugli effetti potenziali delle azioni. Questo progresso è cruciale per le applicazioni in cui la comprensione della causalità è essenziale, consentendo all’AI di andare oltre il riconoscimento di schemi per diventare sistemi veramente intelligenti, in grado di prendere decisioni informate e responsabili.

 

Conseguenze nel mondo reale: alcuni esempi e il ruolo del contesto e della conoscenza del dominio

Nel settore sanitario, tali interpretazioni errate possono avere gravi ripercussioni. Un’AI che analizza i dati dei pazienti potrebbe trovare una correlazione tra l’uso di un particolare farmaco e la guarigione da una malattia. Potrebbe suggerire di prescrivere questo farmaco universalmente, senza rendersi conto che era efficace solo in un sottogruppo specifico di pazienti con determinati marcatori genetici. La somministrazione su larga scala potrebbe portare ad effetti avversi nei pazienti per cui il farmaco non è adatto.

Allo stesso modo, nel sistema di giustizia penale, gli algoritmi predittivi vengono sempre più utilizzati per valutare la probabilità di recidiva. Un’AI potrebbe notare che individui provenienti da determinati quartieri hanno tassi di recidiva più elevati e raccomandare pene più severe per le persone di quelle aree. Questo ignora i fattori socioeconomici sottostanti, come la povertà e l’accesso limitato all’istruzione e alle opportunità di lavoro, che contribuiscono a tassi di criminalità più elevati. Non affrontando le cause profonde, l’AI perpetua un ciclo di svantaggio e discriminazione.

Nel marketing, un’AI potrebbe osservare che i clienti che acquistano scarpe da corsa comprano frequentemente anche integratori per la salute. Potrebbe concludere che l’acquisto di scarpe da corsa induce le persone ad acquistare integratori e raccomandare di indirizzare le pubblicità di integratori agli acquirenti di scarpe. Tuttavia, entrambi gli acquisti sono probabilmente influenzati da un terzo fattore: l’interesse per la salute e il fitness. Senza riconoscere questa motivazione condivisa, le strategie di marketing potrebbero non raggiungere l’obiettivo.

Comprendere il contesto in cui i dati esistono è cruciale per un’interpretazione accurata. I sistemi di AI spesso mancano della conoscenza del dominio che gli esseri umani utilizzano per dare senso alle informazioni. Ad esempio, un’AI potrebbe scoprire che le regioni con un alto numero di cicogne hanno tassi di natalità più elevati e concludere che le cicogne portano i bambini, risvegliando un vecchio mito. In realtà, le aree rurali potrebbero avere più cicogne per fattori ambientali e tassi di natalità più alti per ragioni culturali o economiche.

Un’AI che esamina i dati economici potrebbe notare che, con l’aumento del numero di nuovi sviluppi abitativi, aumenta anche l’incidenza di malattie respiratorie. Potrebbe dedurre che le nuove abitazioni causano problemi di salute. Tuttavia, la causa sottostante potrebbe essere che entrambi si verificano in aree con alti livelli di inquinamento atmosferico dovuti all’attività industriale. L’incapacità dell’AI di identificare la vera causa potrebbe disinformare le iniziative di sanità pubblica.

Nello sport, un’AI potrebbe osservare che gli atleti che indossano un particolare marchio di abbigliamento ottengono risultati migliori nelle competizioni. Concludendo che l’abbigliamento migliora le prestazioni, potrebbe raccomandare a tutti gli atleti di passare a quel marchio. L’AI ignora che gli atleti migliori sono più propensi a essere sponsorizzati da marchi di alto livello e che il loro successo è dovuto al loro allenamento e abilità, non al loro abbigliamento.

 

AI causale e le sue applicazioni: un passo verso la comprensione

Per superare queste sfide, i ricercatori stanno sviluppando sistemi di AI causale che mirano a comprendere e modellare le relazioni causa-effetto piuttosto che limitarsi a identificare correlazioni. A differenza dell’AI tradizionale, che potrebbe osservare che le vendite di gelati e le scottature solari aumentano simultaneamente e assumere una relazione diretta, l’AI causale cerca di identificare che entrambi sono effetti di una causa comune: il clima più caldo.

L’AI causale utilizza metodi statistici avanzati e algoritmi per modellare le relazioni tra variabili. Costruendo grafi causali e incorporando competenze del dominio, questi sistemi possono differenziare tra semplici associazioni e veri legami causali. Ciò consente previsioni più accurate e decisioni informate.

In finanza, l’AI causale può aiutare a identificare i veri driver delle tendenze di mercato. Un’AI potrebbe notare che i prezzi delle azioni aumentano quando alcune parole chiave sui social media diventano popolari. Piuttosto che assumere che le parole chiave causino i cambiamenti di mercato, l’AI causale può analizzare se entrambi sono influenzati da indicatori economici sottostanti, prevenendo strategie di investimento sbagliate.

Nella sanità pubblica, l’AI causale può svolgere un ruolo fondamentale. Durante un’epidemia, comprendere i fattori che contribuiscono alla diffusione è essenziale. Un’AI potrebbe notare che le regioni con maggiori vendite di disinfettanti per le mani hanno tassi di infezione più bassi. Sebbene questa correlazione sia promettente, l’AI causale aiuterebbe a determinare se l’aumento dell’igiene delle mani riduce direttamente le infezioni o se altri fattori, come campagne di sensibilizzazione pubblica e accesso alle strutture sanitarie, contribuiscono in modo significativo.

Nell’istruzione, l’AI causale può aiutare a identificare metodi di insegnamento efficaci. Supponiamo che un’AI osservi che gli studenti che partecipano ai forum online tendono a ottenere punteggi più alti nei test. Potrebbe raccomandare di aumentare le interazioni online. Tuttavia, senza comprendere se la partecipazione ai forum porti a una migliore comprensione o se gli studenti più coinvolti siano semplicemente più propensi a utilizzare i forum, la raccomandazione potrebbe non produrre i risultati desiderati. L’AI causale può aiutare a districare queste relazioni, guidando interventi educativi più efficaci.

In agricoltura, un’AI potrebbe rilevare che le aziende agricole che utilizzano un determinato pesticida ottengono raccolti più abbondanti. Potrebbe suggerire l’adozione diffusa di questo pesticida. L’AI causale analizzerebbe se il pesticida è la causa diretta dell’aumento dei raccolti o se quelle aziende agricole impiegano anche altre pratiche, come tecniche avanzate di irrigazione o gestione del suolo, che contribuiscono al loro successo.

 

Sfide nell’implementazione dell’AI causale

Nonostante il suo potenziale, l’implementazione dell’AI causale non è priva di difficoltà. Una sfida significativa è la necessità di dati di alta qualità che catturino le variabili necessarie e le loro relazioni. Dati incompleti o distorti possono portare a inferenze causali errate. Inoltre, modellare sistemi complessi con molti fattori interagenti richiede algoritmi sofisticati e risorse computazionali.

Esiste anche la questione delle variabili di confondimento, fattori che influenzano sia la variabile indipendente che quella dipendente. Identificare e correggere queste variabili di confondimento è fondamentale per un’analisi causale accurata. In medicina, ad esempio, fattori legati allo stile di vita, come dieta ed esercizio fisico, possono confondere la relazione tra un trattamento e i risultati sulla salute.

Un’altra sfida riguarda la validazione dei modelli causali. A differenza dei modelli predittivi, che possono essere testati rispetto agli esiti osservati, i modelli causali spesso richiedono dati sperimentali o quasi sperimentali per confermare la loro accuratezza. Questo può essere particolarmente difficile in campi come le scienze sociali, dove è difficile condurre esperimenti controllati.

 

L’elemento umano

Sebbene l’AI continui ad avanzare, l’esperienza umana rimane indispensabile (gli umani in prima linea, come diciamo in Turtle’s AI). Gli esperti forniscono la comprensione contestuale e le considerazioni etiche di cui i sistemi di AI sono privi. Aiutano a identificare quali variabili sono rilevanti e a garantire che le conclusioni dell’AI abbiano senso all’interno della conoscenza del dominio.

Nelle scienze ambientali, un’AI potrebbe correlare i tassi di deforestazione con l’aumento di certe malattie e suggerire che la perdita di alberi causi malattie. Gli esperti ambientali capiscono che la deforestazione porta a una perturbazione dell’habitat, avvicinando gli esseri umani a vettori di malattie come zanzare o pipistrelli. Questa comprensione più profonda guida interventi più efficaci, come la conservazione degli habitat e il controllo dei vettori.

Nel mondo culinario, un’AI potrebbe scoprire che le ricette che usano una spezia particolare ottengono valutazioni più alte dai consumatori. Potrebbe raccomandare di aggiungere questa spezia a tutti i piatti. Gli chef sanno che l’equilibrio e l’armonia dei sapori sono essenziali e che aggiungere indiscriminatamente un ingrediente può rovinare un piatto. L’esperienza umana garantisce che le raccomandazioni dell’AI vengano applicate in modo appropriato.

Inoltre, man mano che i sistemi di AI diventano più integrati nei processi decisionali, le considerazioni etiche diventano sempre più importanti. Le raccomandazioni dell’AI basate su presupposti causali errati possono esacerbare disuguaglianze e pregiudizi esistenti. Ad esempio, se un’AI suggerisce che certi gruppi demografici abbiano meno probabilità di avere successo in specifiche carriere basandosi su dati storici, potrebbe rafforzare stereotipi e limitare le opportunità per quei gruppi.

Nelle pratiche di assunzione, un’AI potrebbe osservare che i candidati provenienti da determinate università tendono a ottenere prestazioni migliori e raccomandare di concentrare gli sforzi di reclutamento su tali istituti. Questo ignora il potenziale di individui provenienti da background diversi e perpetua una mancanza di diversità sul posto di lavoro. L’AI causale può aiutare a identificare i veri fattori che contribuiscono al successo dei dipendenti, come competenze specifiche o esperienze, promuovendo pratiche di assunzione più eque.

Garantire che i sistemi di AI vengano sviluppati e utilizzati in modo responsabile richiede un approccio multidisciplinare che includa eticisti, sociologi ed esperti legali. Essi possono aiutare a stabilire linee guida e regolamenti che promuovano equità, trasparenza e responsabilità nelle applicazioni di AI.

 

Guardando al futuro

Sebbene in campi specifici e "ristretti" sia possibile inserire mappe di conoscenza causale, è molto più complesso farlo con sistemi generali, come i modelli di linguaggio, che mirano a conversare con gli esseri umani "alla pari" e possono quindi scivolare sulle bucce di banana della causalità, come osservato in precedenza.

Il Project Strawberry di OpenAI, ora disponibile come o1-preview, è uno degli sforzi più promettenti per affrontare questo problema. Rappresenta un cambiamento rispetto ai modelli tradizionali di riconoscimento di schemi verso qualcosa che assomiglia di più a un vero ragionamento. Piuttosto che limitarsi a riconoscere correlazioni tra parole o concetti, Strawberry mira a integrare una "fase di riflessione" nel processo del modello. Questa fase consente al modello di riflettere prima di generare una risposta, conferendogli la capacità di gestire compiti di ragionamento complessi e a più passaggi.

Pur non essendo strettamente "causale", questo modello dimostra un miglioramento notevole nei compiti che richiedono un problem-solving avanzato, come affrontare complessi problemi matematici o analizzare domande scientifiche intricate. Una caratteristica chiave dell’o1-preview è la sua capacità di ragionare attraverso i compiti in modo simile alla deliberazione umana, prendendosi del tempo per considerare il problema, scomporlo e generare una soluzione che non sia solo basata su previsioni statistiche, ma su passaggi logici.

Ad esempio, modelli precedenti come GPT-4 potrebbero avere difficoltà con compiti che richiedono un ragionamento a più livelli, problemi in cui la soluzione implica rispondere a una domanda per informare la successiva. Al contrario, il modello o1-preview può ora gestire tali compiti con maggiore precisione, grazie al suo migliorato framework di ragionamento. Questo miglioramento è fondamentale per le applicazioni in cui la comprensione dei legami causali tra eventi è necessaria, come nella ricerca scientifica o nel processo decisionale complesso.

Un’altra caratteristica distintiva dello sviluppo di Strawberry è la sua capacità di gestire compiti di pianificazione a lungo termine. In settori come la finanza o la ricerca scientifica, l’AI deve affrontare problemi che si sviluppano nel corso del tempo, richiedendo una lungimiranza strategica e un ragionamento causale. Il modello o1-preview mostra i primi segni di poter affrontare tali compiti a lungo termine, valutando più variabili nel tempo e prendendo decisioni che riflettono una comprensione più profonda di come queste variabili interagiscono.

Questo modello promette anche di ridurre le allucinazioni, un problema ben documentato nei modelli di linguaggio, in cui il sistema genera informazioni plausibili ma errate o prive di senso. E poiché le situazioni di "falsa causalità", come quelle descritte in precedenza, sono, a loro modo, allucinazioni, anch’esse potrebbero essere ridotte, se non eliminate, con questo approccio più profondo. Migliorando i meccanismi di ragionamento alla base del processo decisionale, Strawberry cerca di minimizzare tali errori, rendendo i suoi output più affidabili, soprattutto in settori in cui informazioni accurate sono cruciali.

 

Video