INTELLECT-2: un modello linguistico su larga scala addestrato con risorse distribuite | Chatopenai.com italiano | Llm acronimo | Large language models | Turtles AI
INTELLECT-2 rappresenta un significativo avanzamento nell’ambito dei modelli linguistici di grandi dimensioni, distinguendosi per l’impiego di un’architettura distribuita e una formazione focalizzata su matematica e programmazione.
Punti Chiave:
- Modello linguistico da 32 miliardi di parametri con formazione distribuita.
- Utilizzo di risorse GPU globali non autorizzate tramite il framework prime-rl.
- Ottimizzazione per compiti di matematica e programmazione con ricompense verificabili.
- Compatibilità con librerie di inferenza diffuse come vllm e sglang.
INTELLECT-2 si distingue nel panorama dei modelli linguistici avanzati per la sua architettura da 32 miliardi di parametri, sviluppata attraverso un processo di apprendimento per rinforzo distribuito. Questo approccio ha sfruttato risorse GPU globali non autorizzate, rese disponibili dalla comunità, attraverso il framework prime-rl, progettato per l’apprendimento per rinforzo asincrono distribuito. Il modello ha utilizzato GRPO su ricompense verificabili, con modifiche volte a migliorare la stabilità dell’addestramento. La formazione si è concentrata su compiti di matematica e programmazione, utilizzando il set di dati PrimeIntellect/Intellect-2-RL-Dataset, basato sul modello QwQ-32B. INTELLECT-2 è compatibile con librerie di inferenza diffuse come vllm e sglang, grazie alla sua architettura qwen2. Per ottenere i migliori risultati, si consiglia di aggiungere al prompt l’istruzione "Think for 10000 tokens before giving a response", anche se il modello non ha appreso completamente l’obiettivo di controllo della lunghezza. Durante l’addestramento, INTELLECT-2 ha migliorato le sue capacità matematiche e di programmazione rispetto a QwQ, mentre le prestazioni su IFEval sono leggermente diminuite, probabilmente a causa della mancanza di dati di addestramento diversificati e del focus esclusivo su matematica e programmazione.
Questa iniziativa evidenzia il potenziale delle collaborazioni distribuite nella formazione di modelli linguistici avanzati, sfruttando risorse computazionali globali in modo innovativo.


