Nvidia ottimizza la generazione 3D part‑level con Dual Volume Packing | Ia crea immagini gratis | | Stable diffusion ai video | Turtles AI

Nvidia ottimizza la generazione 3D part‑level con Dual Volume Packing
Una nuova tecnica organizza le parti in volumi complementari, migliorando qualità, varietà e controllo nella creazione di oggetti 3D da immagini singole
Editorial Team14 giugno 2025

 

Generazione 3D di oggetti a livello di parti da una singola immagine, sfruttando una strategia “dual volume packing” che consente parti semantiche isolate, complete e assemblabili con elevata qualità, diversità e generalizzazione.

Punti chiave:

  • Generazione end-to-end di mesh 3D part‑level da immagini singole
  • Organizzazione delle parti in due volumi complementari per evitare fusione
  • Supporto a un numero arbitrario di parti con modellazione semantica
  • Migliore qualità, varietà e robustezza rispetto ai metodi precedenti

Nvidia ha recentemente presentato “Efficient Part‑level 3D Object Generation via Dual Volume Packing” (Tang et al., 2025), un approccio innovativo che supera il limite delle mesh unificate senza partizioni, rendendo possibile un’accurata manipolazione delle singole componenti di un oggetto 3D. Il sistema, addestrato su dataset come Objaverse‑XL e basato su modelli VAE e transformer con diffusione latente, accetta in ingresso una singola immagine RGB (riscalata a 518×518) e produce mesh in formato GLB con risoluzione fino a 512³.

Il cuore del metodo è la strategia di “dual volume packing”: analizzando la connettività tra parti (grafo dei contatti), le componenti vengono suddivise in due gruppi non adiacenti, evitando collisioni e fusioni nel volume 3D. Grazie a un algoritmo euristico di contrazione degli edge, anche i grafi non bipartiti vengono trasformati in bipartiti, mantenendo la possibilità di usare solo due “volumi” fissi, garantendo parallelizzazione ed efficienza. Questa scelta evita l’eccessiva complessità associata a strategie multi-livello: i risultati mostrano un’ottimale utilizzo dello spazio e assenza di parti incomplete o fuse.

L’intero processo è end‑to‑end, senza necessità di segmentazione 2D o 3D preliminare, e non cresce in durata al crescere del numero di parti, diversamente dai metodi tradizionali. I test qualitativi e quantitativi sottolineano una qualità superiore delle parti generate, una maggiore varietà morfologica e una generalizzazione migliore a oggetti non visti, confrontati con soluzioni precedenti basate su patch e completamento sequenziale.

L’implementazione ufficiale è disponibile sotto licenza Nvidia non commerciale su GitHub e Hugging Face (released 11 giugno 2025), con demo interattive via Gradio. Il modello supporta GPU Ampere e Hopper, è scritto in PyTorch e integra tool per processare mesh raw in GLB e convertire le parti in due volume separati.

Come anticipato nel paper, il framework genera mesh part‑level complete in circa 30 secondi per immagine, offrendo tempi consistenti indipendentemente dalla quantità di componenti. Questa efficienza risponde alla crescente richiesta di editing 3D, animazione e robotica, facilitando pipeline modulari e interoperabili per applicazioni digitali complesse.

Il metodo di Nvidia introduce una robusta e scalabile soluzione per la generazione di oggetti 3D articolati, garantendo isolamento semantico delle parti, efficiente gestione del volume e alta fedeltà geometrica.