I Limiti dei Modelli Linguistici: Memorizzazione vs Ragionamento | Chatgpt 4 | Chat gpt Gratis Online | Chatgpt Gratis Online | Turtles AI
LE CAPACITA’ DI RAGIONAMENTO DEI MODELLI LINGUISTICI SONO SOVRASTIMATE
Nuove ricerche del CSAIL dell’MIT mettono in discussione le reali abilità di ragionamento dei modelli di linguaggio di grandi dimensioni ( LLM), rivelando che" eccellono in scenari familiari ma faticano in quelli nuovi, suggerendo un’affidabilità più sulla memorizzazione che sulla comprensione .Questa intuizione è importante per migliorare l’adattabilità e ampliare il loro uso.
I ricercatori del Computer Science And Artificial Intelligence Laboratory ( CSAIL) del MIT hanno di recente analizzato le prestazioni dei LLM in compiti variati, offrendo nuovi spunti sull’interazione tra memorizzazione e capacità di ragionamento. Il confronto ha riguardato i "compiti di default", cioè quelli su cui i modelli vengono normalmente addestrati e testati, e gli "scenari controfattuali", situazioni ipotetiche che si discostano dalle condizioni abituali.
Attraverso modifiche ai compiti esistenti, i ricercatori hanno creato test al di fuori della zona di confort dei modelli come GPT-4 e Claude. I risultati hanno mostrato che le performance elevate dei modelli sono limitate a varianti comuni dei compiti e calano drasticamente in scenari meno familiari, indicando una mancanza di abilità generalizzabile.
Ad esempio, sebbene i modelli mostrino competenze aritmetiche in base -10, queste non si trasferiscono ad altre basi numeriche, dimostrando una competenza limitata. Questo schema è emerso anche in altri ambiti come il riconoscimento delle posizioni iniziali degli scacchi o il calcolo degli accordi musicali, dove i modelli non hanno superato le performance casuali.
Il lavoro, tuttavia, ha delle limitazioni. L’attenzione su compiti specifici non copre l’intera gamma di sfide che i modelli potrebbero incontrare nel mondo reale. Future ricerche potrebbero includere una maggiore varietà di scenari complessi e meno comuni, migliorando anche la comprensibilità dei processi decisionali dei modelli.
"Man mano che i modelli linguistici diventano più grandi, capire i loro dati di addestramento diventa sempre più difficile" osserva Hao Peng, Prof. all’Università dell’Illinois a Urbana-Champaign. " Questo studio fa importanti progressi nel determinare se i modelli generalizzano veramente a compiti non visti o se si affidano alla memorizzazione"
In sintesi, la ricerca evidenzia che le capacità di risolvere compiti nuovi dei LLM sono più limitate di quanto si pensasse, e suggerisce la necessità di ulteriori studi per identificare e migliorare le modalità di fallimento dei modelli attuali.