MiniMax-M1 sfida i giganti dell’AI con un LLM open source da 1 milione di token | Llm meaning | Llm machine learning | Large language models paper | Turtles AI
MiniMax-M1 è un modello LLM open source rilasciato con licenza Apache 2.0 da MiniMax, startup di Shanghai sostenuta da Alibaba, Tencent e IDG Capital. Vanta una finestra di contesto da 1 milione di token, efficienza grazie al meccanismo Lightning Attention e costi di RL contenuti.
Punti chiave:
- Contesto fino a 1 milione token in input e 80.000 in output
- Architettura Mixture‑of‑Experts ibrida con Lightning Attention
- Addestramento con RL tramite algoritmo CISPO in 3 settimane su 512 GPU H800
- Costo di addestramento: circa $535.000, contro 5–6 M$ per DeepSeek R1
MiniMax, fondata a Shanghai nel 2021 e valutata circa 2,5 miliardi USD, ha pubblicato il modello MiniMax‑M1 il 16 giugno 2025 su GitHub e Hugging Face adottando licenza Apache 2.0, rendendolo pienamente open‑source. Si tratta di un LLM da 456 miliardi di parametri totali, con 45,9 miliardi attivati per token, basato su un’architettura Mixture‑of‑Experts (MoE) combinata con Lightning Attention, progettata per contenere i costi computazionali durante l’inferenza su contesti estremamente lunghi. Il modello gestisce fino a 1 milione di token in input — otto volte la capienza di DeepSeek R1 — e 80.000 token in output, superando i 64.000 di DeepSeek e avvicinandosi alle performance più avanzate come Gemini 2.5 Pro e OpenAI o3.
Questo significativo aumento della finestra di contesto rende M1 particolarmente idoneo a trattare testi, codice o documenti molto estesi, come collezioni di libri o basi di dati complesse. Il meccanismo Lightning Attention permette un’efficienza computazionale notevole: nel generare 100.000 token consuma solo il 25–30% dei FLOP richiesti da DeepSeek R1. Le prestazioni sono confermate da benchmark paragonabili o superiori a modelli open source consolidati come DeepSeek‑R1 e Qwen3‑235B, e si avvicinano ad analoghi proprietari (Gemini 2.5 Pro, Claude 4 Opus, OpenAI o3) in compiti di ragionamento matematico, ingegneria del software e uso di strumenti.
L’addestramento si è avvalso di un approccio innovativo: un RL su larga scala con algoritmo CISPO (Clipped Importance Sampling Policy Optimization), che modula pesi di campionamento invece di token; ciò, insieme all’architettura ibrida, ha permesso di completare la fase di RL con 512 GPU H800 in tre settimane a un costo stimato di $534.700, un decimo circa rispetto ai milioni investiti da DeepSeek R1 e molto meno dei centinaia di milioni stimati per GPT‑4. MiniMax offre due varianti distinte: M1‑40K (output fino a 40.000 token) e M1‑80K (fino a 80.000 token), per supportare esigenze diverse di lunghezza delle risposte.
Dal punto di vista dell’adozione, il modello è già supportato da infrastrutture come vLLM e Transformers, e include chiamate strutturate di funzione, chatbot API, strumenti per ricerca online, generazione di immagini/video, sintesi vocale e clonazione vocale — utili in scenari agentici avanzati. La sua licenza aperta rende il modello appetibile per aziende, sviluppatori e comunità di ricerca, offrendo trasparenza e libertà di adattamento commerciale.
MiniMax‑M1 rappresenta un significativo passo in avanti nel panorama degli LLM open source cinesi, combinando contesto esteso, efficienza computazionale e bassi costi di addestramento.