World Models : le système d'exploitation pour l'intelligence spatiale

La simulation devient une capacité fondamentale pour l’IA physique, permettant aux machines d’apprendre dans des environnements virtuels et d’opérer plus efficacement dans des contextes réels.

INDEX

La simulation est la nouvelle réalité

Les technologies 3D ne sont plus confinées au divertissement ou à la visualisation. Elles sont devenues un levier clé de la simulation spatiale, désormais largement adoptée dans la conception de produits, la robotique, la défense et la formation industrielle. Ce changement marque une transition : des actifs numériques statiques vers des environnements dynamiques, régis par les lois de la physique, dans lesquels les systèmes d’IA peuvent apprendre comment le monde se comporte, plutôt que d’analyser simplement des points de données isolés.

Malgré les avancées récentes en IA, la plupart des systèmes peinent encore à raisonner sur l’espace, le mouvement et l’interaction physique. Comme l’a observé la Dre Fei-Fei Li, l’une des pionnières de l’IA moderne, un LLM peut expliquer la physique quantique, mais ne peut pas estimer la distance entre deux objets dans une image ou faire pivoter mentalement un cube. Cette limitation souligne l'importance de l'intelligence spatiale: la capacité à modéliser les relations entre les objets, la manière dont les actions se déploient dans le temps et la façon dont les contraintes physiques façonnent les résultats. Les World Models comblent cette lacune en permettant à l’IA d’apprendre au sein d’environnements simulés, structurés, qui reflètent les règles du monde physique.

Plongée approfondie : Meta V-JEPA 2 et expérimentation appliquée

Parmi ces architectures, V-JEPA 2 (Architecture prédictive d’intégration vidéo) adopte une approche prédictive et non générative pour apprendre les dynamiques physiques à partir de données vidéo. Au lieu de générer des pixels, elle se concentre sur la modélisation de l’évolution des scènes au fil du temps.

Chez Reply, nous avons exploré cette architecture à travers un cadre expérimental ciblé, en évaluant sa capacité à capturer les relations temporelles et les motifs de mouvement dans des scénarios complexes. Les principaux résultats de l’évaluation incluent :

77,3 % de précision top-1 sur le dataset Something-Something v2

39,7 rappel@5 sur Epic-Kitchens-100 pour l'anticipation d'actions de première personne

Dans l’ensemble, l’expérimentation confirme l’efficacité de V-JEPA 2 dans des scénarios où la compréhension du mouvement et des interactions dans le temps est critique, notamment en robotique et dans les systèmes autonomes.

Des World Models à l'IA incarnée

Les World Models jouent un rôle central dans l'IA incarnée, soutenant la connexion entre la perception, le raisonnement et l'action.

Dans les scénarios de robotique, ces modèles permettent aux systèmes d'interpréter leur environnement, de planifier des actions et de s'adapter à des conditions changeantes. Cette approche est particulièrement pertinente pour les robots autonomes et les plateformes humanoïdes opérant dans des environnements non structurés ou semi-structurés tels que les sites industriels, les hubs logistiques et les établissements de santé.

Un élément clé dans ce contexte est l'utilisation de points d'ancrage spatiaux - des points de référence numériques persistants qui permettent aux systèmes d'IA d'associer des représentations apprises à des emplacements physiques précis, améliorant la cohérence et la fiabilité à travers les missions.

La route devant

À mesure que les systèmes d’IA dépassent les cas d’usage purement conversationnels, la simulation spatiale et le raisonnement physique deviennent essentiels. Les modèles du monde constituent un composant fondamental de cette évolution : ils soutiennent des systèmes d’IA plus fiables, sensibles au contexte et physiquement ancrés, pour des applications industrielles et du monde réel.

Le paysage des modèles mondiaux

Comment les systèmes d’IA peuvent-ils apprendre à partir d’environnements qu’ils n’ont jamais directement expérimentés ? S’entraîner exclusivement dans des conditions réelles est souvent impraticable, coûteux ou dangereux.

Pour surmonter ces contraintes, une nouvelle génération d’architectures de world models a émergé. Elle est conçue pour reconstruire, générer et simuler des environnements de manière à soutenir l’apprentissage par l’interaction.

Principales approches des modèles mondiaux

Marble (World Labs) : un modèle mondial multimodal capable de reconstruire et de simuler des environnements 3D à partir d’images, permettant l’interaction entre les humains et les agents IA.

SAM 3D (Meta) : un moteur de reconstruction qui transforme des objets et des corps 2D en actifs 3D entièrement numérisés.

Genie 3 (Google) : un modèle mondial polyvalent qui génère des environnements interactifs à partir de prompts textuels, permettant une navigation en temps réel dans des espaces générés par IA.

HunyuanWorld-Mirror (Tencent) : un modèle feedforward pour la prédiction géométrique 3D complète, couvrant l’estimation de profondeur, les normales de surface, les nuages de points et la synthèse de nouvelles vues.

Cosmos 2.5 (NVIDIA) : une suite de modèles de fondation mondiale unifiant Text2World, Image2World et Video2World, avec un fort soutien aux flux de travail Sim2Real.

SIMA 2 (Google) : un agent généraliste conçu pour raisonner et agir dans divers environnements simulés, démontrant des capacités incarnées transférables.

GWM-1 (Runway) : un modèle mondial général autorégressif construit sur Gen-4.5, qui simule la réalité en temps réel, avec trois variantes : Worlds pour des environnements explorables, Avatars pour des personnages conversationnels, et Robotics pour la génération de données d’entraînement synthétiques.

Bien que ces approches diffèrent dans leur mise en œuvre, elles partagent un objectif commun : permettre aux systèmes d’IA d’apprendre, de tester et de perfectionner des comportements dans des environnements simulés avant leur déploiement dans des contextes réels.