Quando i chip imparano a pensare: la mente artificiale che pulsa come un cervello | | | | Turtles AI
SpikingBrain 1.0, un modello linguistico sviluppato in Cina, utilizza reti neurali impulsive ispirate al cervello umano: attiva solo neuroni rilevanti, richiede meno dati (< 2 %), funziona su chip MetaX cinesi e gestisce sequenze megalonghe con velocità fino a 100×.
Punti chiave:
- Attivazione selettiva dei neuroni solo su input rilevanti
- Addestramento con circa il 2 % dei dati convenzionali
- Prestazioni fino a 100 volte più rapide su sequenze enormi
- Funzionamento indipendente da chip Nvidia, su GPU MetaX domestiche
SpikingBrain 1.0 è una nuova architettura ideata all’Istituto di Automazione dell’Accademia Cinese delle Scienze a Pechino che rielabora il concetto di linguaggio artificiale: anziché attivare ogni nodo contemporaneamente come nei Transformer, impiega reti a spiking neuronale che rispondono soltanto quando necessario, riducendo consumi e accelerando tempi d’elaborazione. Il risultato è un processo di inferenza quasi lineare rispetto alla lunghezza dell’input, con una velocità di Time‐to‐First‐Token (TTFT) superiore a 100 volte su contesti di 4 milioni di token rispetto a modelli standard.
In fase di pre‐training, SpikingBrain 7B e la variante 76B dotata di architettura MoE (Mixture of Experts) raggiungono performance paragonabili a modelli come LLaMA 2 70B, Gemma2 27B o Mixtral, ma impiegando appena il 2 % del corpus dati tipico, intorno a 150 miliardi di token. Inoltre, il team ha reso open source il modello da 7 miliardi di parametri e ha pubblicato una demo web per la versione 76B, consentendo test pubblici.
Il sistema è stato sviluppato e testato interamente su un’infrastruttura GPU Made in Cina, in particolare cluster di MetaX C550, evitando ogni dipendenza da hardware Nvidia e assicurando autonomia tecnologica nel contesto delle restrizioni commerciali imposte da Stati Uniti. Questo passo riflette una strategia nazionale per creare un ecosistema AI autosufficiente, potenzialmente utile in scenari dove l’accesso a GPU avanzate è limitato.
La combinazione tra sparseness a livello di singolo neurone (spiking con soglie dinamiche) e modularità macro (MoE) offre un’architettura multi-scala efficiente e biologicamente plausibile, con oltre il 69 % di neuroni inattivi nella maggior parte dei passaggi. Inoltre, in test su dispositivi mobili CPU compressi (modello da 1 miliardo di parametri), SpikingBrain ha raggiunto velocità 4–15 volte superiori rispetto a Llama 3.2 quando processa sequenze lunghe fino a 256k token.
L’approccio risulta particolarmente adatto a gestire testi o dati ultralunghi: dalla verifica di contratti legali o cartelle cliniche alla modellazione di dati scientifici come sequenze genomiche, dinamiche molecolari o simulazioni fisiche complesse. I ricercatori sottolineano che il modello potrebbe ispirare il design di chip neuromorfici futuri con consumi prossimi a quelli del cervello umano, che funziona con circa 20 watt totali.
SpikingBrain 1.0 propone così un’alternativa alla dominanza dei Transformer, puntando sul principio dell’“intelligenza emergente” da attivazione solo selettiva nei neuroni, anziché su network densi sempre attivi. Il modello mantiene la stabilità anche su training estesi per settimane su centinaia di GPU MetaX, con buon utilizzo dell’hardware e saldo controllo di comunicazione parallela e ottimizzazione degli operatori.
Un’elegante sinergia fra neuroscienze e ingegneria computazionale che getta le basi per nuovi modelli di calcolo efficiente e sostenibile.


