Nuovi algoritmi velocizzano l’AI fino a 2,8 volte senza perdita di qualità | Large language models | Llm significato informatica | Nlp e llm | Turtles AI

Nuovi algoritmi velocizzano l’AI fino a 2,8 volte senza perdita di qualità
Tecniche avanzate di decodifica speculativa ora compatibili con qualsiasi modello e integrate in Transformers: più efficienza, meno costi e implementazione semplificata
Editorial Team17 luglio 2025

 


Ricercatori di Weizmann, Intel Labs e d‑Matrix hanno presentato tre nuove strategie nella decodifica speculativa — TLI, SLEM e SLRS — integrate in Transformers che permettono di generare token fino a 2,8× più velocemente senza compromissione della qualità, indipendentemente dal vocabolario del modello.

Punti chiave:

  • Compatibilità universale: TLI evita token non presenti nel vocabolario target, accelerando in media 1,7×.
  • Verifica stringa esatta (SLEM): traduce le previsioni in testo, poi le retokenizza per un confronto rigoroso e una velocità fino a 2,8×.
  • Selezione con rifiuto (SLRS): introduce un redattore generalizzato basato su probabilità di stringa per migliorare i tassi di accettazione, sebbene richieda vocabolari ridisegnati.
  • Facile implementazione: tutte e tre le tecniche sono disponibili con una sola riga di codice in Hugging Face Transformers.

Un gruppo di scienziati ha introdotto tre tecniche per la decodifica speculativa che incrementano sensibilmente la velocità di generazione del testo da modelli linguistici su larga scala, mantenendo inalterata la qualità delle risposte. La prima, Token‑Level‑Intersection (TLI), svolge una semplice operazione di confronto fra vocabolari per escludere predizioni non riconosciute, ottenendo un’accelerazione media di 1,7 volte. La seconda, String‑Level Exact Match (SLEM), converte le previsioni del piccolo modello in testo intermedio, retokenizza e verifica l’uguaglianza esatta col modello target; grazie a euristiche che limano discrepanze minime (come spaziature), in contesti complessi – come sintesi o programmazione – si ottengono performance fino a 2,8 volte superiori. La terza tecnica, String‑Level Rejection Sampling (SLRS), impiega un redattore generalizzato che valuta intere stringhe secondo probabilità, aumentando i tassi di accettazione, ma richiede una modifica ai vocabolari per essere efficace. Queste soluzioni, presentate all’International Conference on Machine Learning, permettono di applicare la decodifica speculativa anche quando vocabolari e tokenizzatori differiscono tra modello piccolo e grande, eliminando la necessità di addestrare bozza specializzate per ogni modello target. L’innovazione più rilevante è la loro integrazione nativa in Transformers, che offre agli sviluppatori la possibilità di attivarle con una singola riga di codice. I ricercatori sottolineano come la scelta della tecnica migliore dipenda dall’uso specifico, suggerendo test comparativi per determinare la strategia più adatta. Infine, il gruppo sta perfezionando l’efficienza dei vocabolari, sempre più ampi (Llama 4 arriva a ~200.000 token), per ridurre la latenza e promuovere una futura ottimizzazione della decodifica speculativa.

Una ricerca in corso punta inoltre a migliorare ulteriormente l’efficienza dei modelli temporanei e a ristrutturare i dizionari per renderli più snelli.