La Sicurezza dell’AI: Carenze nei Test e Nei Benchmark Attuali | Llm model | Chat gpt gratis romana | App intelligenza artificiale italiano gratis | Turtles AI

La Sicurezza dell’AI: Carenze nei Test e Nei Benchmark Attuali
Un’analisi delle lacune nei test di sicurezza per i modelli di AI e le possibili soluzioni
Giosky

Punti chiave:

  • Carenze nei benchmark attuali: Gli strumenti esistenti per testare la sicurezza dei modelli di AI possono essere manipolabili e non riflettono il comportamento reale.
  • Problemi di contaminazione dei dati: I benchmark possono sovrastimare le prestazioni se i modelli sono addestrati sui dati di test.
  • Sfide del red-teaming: Identificare le vulnerabilità nei modelli è complesso e costoso, soprattutto per le piccole organizzazioni.
  • Necessità di valutazioni contestuali: È importante sviluppare metodi di valutazione che considerino il contesto d’uso e i potenziali impatti su diversi gruppi di utenti.

 

La crescente domanda di sicurezza e responsabilità nell’AI ha messo in luce le carenze degli attuali test e benchmark. Secondo un nuovo rapporto, gli strumenti esistenti non sono sufficienti per garantire che i modelli di AI siano sicuri e affidabili, sollevando interrogativi sulla loro capacità di prevedere comportamenti in scenari reali.

 

L’avanzamento dei modelli generativi di AI, capaci di produrre testi, immagini, musica e video, è accompagnato da crescenti preoccupazioni riguardo alla loro tendenza a commettere errori e a comportarsi in modo imprevedibile. In risposta, numerose organizzazioni, tra cui agenzie del settore pubblico e grandi aziende tecnologiche, stanno sviluppando nuovi benchmark per testare la sicurezza di questi modelli.

 

Alla fine dello scorso anno, Scale AI ha creato un laboratorio dedicato alla valutazione dell’aderenza dei modelli alle linee guida di sicurezza. Recentemente, il NIST e l’UK AI Safety Institute hanno lanciato strumenti per valutare i rischi associati ai modelli. Tuttavia, un’indagine condotta dall’Ada Lovelace Institute (ALI), una ONG britannica di ricerca sull’AI, ha rivelato che questi test potrebbero non essere sufficienti. L’ALI ha intervistato esperti provenienti da laboratori accademici, società civile e aziende produttrici di modelli, scoprendo che, sebbene le valutazioni attuali possano essere utili, sono spesso non esaustive, facilmente manipolabili e non riflettono necessariamente il comportamento dei modelli in situazioni reali.

 

Elliot Jones, ricercatore senior presso l’ALI e coautore del rapporto, ha sottolineato che, come per altri prodotti come smartphone o automobili, ci si aspetta che i modelli di AI siano sicuri e affidabili prima di essere distribuiti. Tuttavia, l’indagine ha evidenziato una mancanza di consenso nel settore dell’AI sui metodi e le tassonomie migliori per valutare i modelli.

 

Un problema significativo riguarda il rischio di "contaminazione dei dati", dove i risultati dei benchmark possono sovrastimare le prestazioni di un modello se è stato addestrato sui dati utilizzati per il test. Questo, insieme alla scelta dei benchmark per convenienza piuttosto che per la loro efficacia, è stato criticato dagli esperti intervistati. Inoltre, la pratica del "red-teaming", ovvero l’attacco simulato ai modelli per identificare vulnerabilità, è stata descritta come complessa e costosa, rendendo difficile per le organizzazioni più piccole eseguirla efficacemente.

 

Gli autori del rapporto suggeriscono che la pressione per rilasciare rapidamente i modelli e la riluttanza a condurre test approfonditi sono tra le principali cause delle attuali lacune nelle valutazioni di sicurezza dell’AI. Mahi Hardalupas, ricercatore presso l’ALI, ritiene che sia necessario un maggiore coinvolgimento delle autorità pubbliche per definire chiaramente le aspettative per le valutazioni e per promuovere un ecosistema di test indipendenti. Questo potrebbe includere misure per garantire l’accesso regolare ai modelli e ai set di dati necessari.

 

Secondo Jones, potrebbe essere necessario sviluppare valutazioni "contestuali" che vadano oltre il semplice test di risposta a prompt, esaminando invece come un modello possa influenzare diversi gruppi di utenti e come le salvaguardie possano essere compromesse. Questo richiederebbe investimenti nella scienza delle valutazioni per sviluppare metodi più robusti e ripetibili.

 

In ultima analisi, come sottolineato da Hardalupas, non esiste una garanzia assoluta che un modello sia sicuro. La sicurezza dipende dal contesto d’uso, dal pubblico a cui è destinato e dall’adeguatezza delle misure di sicurezza implementate.