I Limiti dei Modelli Linguistici: Memorizzazione vs Ragionamento | Chatgpt 4 | Chat gpt Gratis Online | Chatgpt Gratis Online | Turtles AI

I Limiti dei Modelli Linguistici: Memorizzazione vs Ragionamento
Isabella V

 

LE CAPACITA’ DI RAGIONAMENTO DEI MODELLI LINGUISTICI SONO SOVRASTIMATE

Nuove ricerche del CSAIL dell’MIT mettono in discussione le reali abilità di ragionamento dei modelli di linguaggio di grandi dimensioni ( LLM), rivelando che" eccellono in scenari familiari ma faticano in quelli nuovi, suggerendo un’affidabilità più sulla memorizzazione che sulla comprensione .Questa intuizione è importante per migliorare l’adattabilità e ampliare il loro uso.

I ricercatori del Computer Science And Artificial Intelligence Laboratory ( CSAIL) del MIT hanno di recente analizzato le prestazioni dei LLM in compiti variati, offrendo nuovi spunti sull’interazione tra memorizzazione e capacità di ragionamento. Il confronto ha riguardato i "compiti di default", cioè quelli su cui i modelli vengono normalmente addestrati e testati, e gli "scenari controfattuali", situazioni ipotetiche  che si discostano dalle condizioni abituali.

Attraverso modifiche ai compiti esistenti, i ricercatori hanno creato test al di fuori della zona di confort dei modelli come GPT-4 e Claude. I risultati hanno mostrato che le performance elevate dei modelli sono limitate a varianti comuni dei compiti e calano drasticamente in scenari meno familiari, indicando una mancanza di abilità generalizzabile.

Ad esempio, sebbene i modelli mostrino competenze aritmetiche in base -10, queste non si trasferiscono ad altre basi numeriche, dimostrando una competenza limitata. Questo schema è emerso anche in altri ambiti come il riconoscimento delle posizioni iniziali degli scacchi o il calcolo degli accordi musicali, dove i modelli non hanno superato le performance casuali.

Il lavoro, tuttavia, ha delle limitazioni. L’attenzione su compiti specifici non copre l’intera gamma di sfide che i modelli potrebbero incontrare nel mondo reale. Future ricerche potrebbero includere una maggiore varietà di scenari complessi e meno comuni, migliorando anche la comprensibilità dei processi decisionali dei modelli.

"Man mano che i modelli linguistici diventano più grandi, capire i loro dati di addestramento diventa sempre più difficile" osserva Hao Peng, Prof. all’Università dell’Illinois a Urbana-Champaign. " Questo studio fa importanti progressi nel determinare se i modelli generalizzano veramente a compiti non visti o se si affidano alla memorizzazione"

In sintesi, la ricerca evidenzia che le capacità di risolvere compiti nuovi dei LLM sono più limitate di quanto si pensasse, e suggerisce la necessità di ulteriori studi per identificare e migliorare le modalità di fallimento dei modelli attuali.