World Models: il sistema operativo dell’intelligenza spaziale

La simulazione sta diventando una capacità fondamentale per la Physical AI, permettendo alle macchine di apprendere in ambienti virtuali e operare in modo più efficace nel mondo reale.

La simulazione è la nuova realtà

Le Tecnologie 3D non sono più confinate all'intrattenimento o alla visualizzazione. Sono diventate un elemento fondamentale per la simulazione spaziale, ora ampiamente adottate nel design dei prodotti, nella robotica, nella difesa e nel training industriale. Questo cambiamento segna una transizione da asset digitali statici a ambienti dinamici e consapevoli della fisica, dove i sistemi di intelligenza artificiale possono apprendere come si comporta il mondo piuttosto che analizzare semplicemente punti dati isolati.

Nonostante i recenti progressi nell'AI, la maggior parte dei sistemi fatica ancora a ragionare su spazio, movimento e interazione fisica. Come ha osservato il Dr. Fei-Fei Li, uno dei pionieri dell'AI moderna, un LLM può spiegare la fisica quantistica ma non può giudicare quanto siano distanti due oggetti in un'immagine o ruotare mentalmente un cubo. Questa limitazione evidenzia l'importanza del concetto di intelligenza spaziale: la capacità di modellare come gli oggetti si relazionano tra loro, come le azioni si sviluppano nel tempo e come i vincoli fisici plasmano i risultati. I World Models affrontano questa lacuna consentendo all'AI di apprendere attraverso ambienti simulati strutturati che riflettono le regole del mondo fisico.

Il panorama dei World Models

Come possono i sistemi di intelligenza artificiale apprendere ambienti che non hanno mai sperimentato direttamente? Allenarsi esclusivamente in condizioni del mondo reale è spesso impraticabile, costoso o pericoloso. 

Per superare queste limitazioni, è emersa una nuova generazione di architetture di World Models, progettate per ricostruire, generare e simulare la realtà in modi che supportano l'apprendimento attraverso l'interazione. 

Approcci chiave di World Models

  • Marble (World Labs)
    Un World Model multimodale in grado di ricostruire e simulare ambienti 3D a partire da immagini, consentendo l'interazione sia da parte degli esseri umani che degli agenti AI.

  • SAM 3D (Meta)
    Un motore di ricostruzione che trasforma oggetti e corpi 2D in asset 3D completamente digitalizzati.

  • Genie 3 (Google)
    Un World Model di uso generale che genera ambienti interattivi a partire da prompt testuali, consentendo la navigazione in tempo reale in spazi generati dall'AI.

  • HunyuanWorld-Mirror (Tencent)
    Un modello feed-forward per la previsione geometrica 3D completa, che copre la stima della profondità, le normali della superficie, le nuvole di punti e la sintesi di nuove viste.

  • Cosmos 2.5 (NVIDIA)
    Una suite di World Models che unifica la generazione di Text2World, Image2World e Video2World, con un forte supporto per i flussi di lavoro Sim2Real.

  • SIMA 2 (Google)
    Un agente generalista progettato per ragionare e agire in ambienti simulati diversi, dimostrando capacità incarnate trasferibili.

  • GWM-1 (Runway)
    Un modello generale autoregressivo del mondo costruito su Gen-4.5 che simula la realtà in tempo reale, con tre varianti: Mondi per ambienti esplorabili, Avatar per personaggi conversazionali e Robotica per la generazione di dati di addestramento sintetici.

Sebbene questi approcci differiscano nell'implementazione, condividono un obiettivo comune: consentire ai sistemi AI di apprendere, testare e perfezionare i comportamenti all'interno di ambienti simulati prima del dispiegamento in contesti del mondo reale.

Approfondimento: Meta V-JEPA 2 e sperimentazione applicata

Tra queste architetture, V-JEPA 2 (Video Joint Embedding Predictive Architecture) adotta un approccio predittivo e non generativo per apprendere le dinamiche fisiche dai dati video. Invece di generare pixel, si concentra sulla modellazione di come le scene evolvono nel tempo.

Come Reply, abbiamo esplorato questa architettura attraverso un setup sperimentale mirato, valutando la sua capacità di catturare relazioni temporali e schemi di movimento in scenari complessi. I risultati chiave della valutazione includono:

  • 77,3% di accuratezza top-1 sul dataset Something-Something v2

  • 39,7 recall@5 su Epic-Kitchens-100 per l'anticipazione delle azioni in prima persona

In generale, la sperimentazione conferma l'efficacia di V-JEPA 2 in scenari in cui comprendere il movimento e l'interazione nel tempo è fondamentale, come nella robotica e nei sistemi autonomi.

Dai World Models all'Embodied AI

I World Models svolgono un ruolo centrale nell'Embodied AI, supportando la connessione tra percezione, ragionamento e azione. 

Nella robotica applicata, questi modelli consentono ai sistemi di interpretare il loro ambiente, pianificare azioni e adattarsi a condizioni in cambiamento. Questo approccio è particolarmente rilevante per i robot autonomi e le piattaforme umanoidi che operano in ambienti non strutturati o semi-strutturati come siti industriali, hub logistici e strutture sanitarie. 

Un fattore chiave in questo contesto è l'uso di ancore spaziali - punti di riferimento digitali persistenti che consentono ai sistemi di intelligenza artificiale di associare rappresentazioni apprese a posizioni fisiche precise, migliorando la coerenza e l'affidabilità nelle missioni. 

La strada da percorrere

Con l'evoluzione dei sistemi di intelligenza artificiale oltre i casi d'uso puramente conversazionali, la simulazione spaziale e il ragionamento fisico stanno diventando sempre più importanti. I World Models rappresentano un componente fondamentale in questa evoluzione, supportando sistemi di intelligenza artificiale più affidabili, consapevoli del contesto e fisicamente radicati in applicazioni industriali e nel mondo reale.