Project Rainier: il nuovo supercluster AI di AWS per potenziare i modelli Claude | | | | Turtles AI
AWS sta costruendo Project Rainier, un supercluster AI dislocato su più data center nel Midwest USA, composto da centinaia di migliaia di chip Trainium2 interconnessi tramite una rete ad alta velocità. Il sistema è pensato per potenziare l’addestramento dei modelli Claude di Anthropic.
Punti chiave:
- Supercluster modulare basato su UltraServer Trainium2 a 64 chip, collegati in toro 3D;
- Connessioni NeuronLink v3 e rete EFAv3 per bassa latenza e petabit-scale;
- Capacità stimata su centinaia di migliaia di acceleratori, con consumo energetico di centinaia di megawatt;
- Trainium3 in arrivo con performance potenziate fino a 4×.
Amazon Web Services (AWS), partner e investitore di Anthropic con un impegno da 8 miliardi di dollari, sta erigendo Project Rainier, un cluster AI distribuito su più data center statunitensi—tra cui un campus in Indiana con trenta strutture da circa 18.500 m² ciascuna e un consumo stimato di 2,2 GW di energia—progettato per offrire cinque volte la capacità di calcolo rispetto al cluster più avanzato utilizzato da Anthropic. Al centro dell’architettura c’è il chip proprietario Trainium2, basato su design TSMC a 5 nm, dotato di 96 GB di HBM e 2,9 TB/s di bandwidth, capace di 1,3 petaFLOPS in FP8 denso e fino a 5,2 petaFLOPS con sparsità 4×.
Le istanze Trn2 non si limitano a un singolo acceleratore, ma aggregano cluster modulari chiamati UltraServer: quattro blocchi Trn2, ciascuno con 16 chip, montati in toro 3D su due rack e interconnessi tramite NeuronLink v3, offrendo fino a 64 chip per nodo. Ogni chip beneficia di 1 TB/s di collegamento chip-to-chip intra‑blocco, mentre l’interconnessione tra istanze garantisce fino a 256 GB/s per chip. La connettività esterna è affidata a EFAv3, in grado di sostenere petabit di banda con latenza inferiore ai 10 µs, distribuendo 200 Gbps per acceleratore, ossia 12,8 Tbps per UltraServer.
Dal punto di vista energetico, un cluster con 256.000 Trainium2 richiederebbe tra 250 e 300 MW, confrontabile con supercomputer GPU come Colossus di xAI. Le soluzioni raffreddate ad aria sfruttano l’architettura a bassa densità e la topologia mesh senza switch, riducendo notevolmente i costi infrastrutturali.
Project Rainier è pensato per essere scalato su "decine di migliaia di UltraServer", puntando su una modularità orizzontale illimitata nuova rispetto alle architetture compatte come NVL72. Anche se il numero di acceleratori non è stato rivelato, 10.000 UltraServer significherebbero già 640.000 chip, con spazio disponibile per eventuali espansioni.
In arrivo c’è anche Trainium3: annunciato al re: Invent 2024, costruito a 3 nm, promette fino a quattro volte le prestazioni della generazione attuale e un’efficienza energetica superiore del 40 %. Se integrato in futuro, potrebbe diventare parte integrante dell’infrastruttura Rainier, potenziando ulteriormente la potenza disponibile.
Project Rainier incarna l’approccio verticale di AWS: chip, server, rete e datacenter progettati internamente per offrire al cliente – in questo caso Anthropic – una piattaforma unica per l’addestramento su larga scala dei modelli Claude. Pur mantenendo un legame di dipendenza da Nvidia per alcune componenti, l’architettura Trainium permette ad AWS di ottimizzare costi e prestazioni in funzione dell’uso cloud, sfruttando efficacemente ogni punto percentuale di miglioramento.
In attesa di sviluppi e annunci ufficiali, Project Rainier si configura come un’opera colossale di ingegneria specializzata, pensata per spingere i confini del calcolo AI su scala mai vista prima.