World Models: das Betriebssystem räumlicher Intelligenz

Simulation wird zu einer zentralen Schlüsselkompetenz der physischen KI und ermöglicht es Maschinen, in virtuellen Umgebungen zu lernen und in realen Einsatzszenarien effektiver zu operieren.

Simulation ist die neue Realität

3D-Technologien sind längst mehr als nur Werkzeuge für Unterhaltung oder Visualisierung. Sie bilden heute die Grundlage für räumliche Simulationen und werden in Produktdesign, Robotik, Verteidigung und industrieller Ausbildung breit eingesetzt. Damit vollzieht sich der Wandel von statischen digitalen Objekten hin zu dynamischen, physikbasierten Umgebungen – Orten, an denen KI-Systeme nicht nur Daten analysieren, sondern verstehen, wie die Welt tatsächlich funktioniert.

Trotz aller Fortschritte haben die meisten KI-Systeme immer noch Probleme damit, Raum, Bewegung und physikalische Interaktionen zu erfassen. Dr. Fei-Fei Li, eine der Pionierinnen der modernen KI, bringt es auf den Punkt: Ein LLM kann Quantenphysik erklären, aber nicht erkennen, wie weit zwei Objekte in einem Bild auseinanderliegen oder einen Würfel im Kopf drehen. Genau hier zeigt sich, warum räumliche Intelligenz so wichtig ist: Sie ermöglicht es, Beziehungen zwischen Objekten zu verstehen, Abläufe über die Zeit nachzuvollziehen und die Auswirkungen physikalischer Grenzen einzuschätzen.

Word Models im Überblick

Wie können KI-Systeme über Umgebungen lernen, die sie nie direkt erlebt haben? Ein Training ausschließlich unter realen Bedingungen ist oft unpraktisch, teuer oder sogar riskant.

Um diese Einschränkungen zu überwinden, wurde eine neue Generation von World Models entwickelt. Sie ist darauf ausgelegt, die Realität so zu rekonstruieren, zu generieren und zu simulieren, dass Lernen durch Interaktion möglich wird.

Wichtige Ansätze für World Models

  • Marmor (World Labs)
    Ein multimodales Modell, das in der Lage ist, 3D-Umgebungen aus Bildern zu rekonstruieren und zu simulieren, wodurch Interaktionen sowohl von Menschen als auch von KI-Agenten ermöglicht werden.

  • SAM 3D (Meta)
    Ein Rekonstruktions-Engine, der 2D-Objekte und -Körper in vollständig digitalisierte 3D-Assets umwandelt.

  • Genie 3 (Google)
    Ein universelles World Model, das interaktive Umgebungen aus Prompzs generiert und die Navigation in KI-generierten Räumen in Echtzeit ermöglicht.

  • HunyuanWorld-Mirror (Tencent)
    Ein Feedforward-Modell für umfassende 3D-geometrische Vorhersagen, das Tiefenabschätzung, Oberflächennormalen, Punktwolken und die Synthese neuer Ansichten abdeckt.

  • Cosmos 2.5 (NVIDIA)
    Eine World Model-Suite, die Text2World, Image2World und Video2World-Generierung vereint und starke Unterstützung für Sim2Real-Workflows bietet.

  • SIMA 2 (Google)
    Ein generalistischer Agent, der in der Lage ist, in verschiedenen simulierten Umgebungen zu denken und zu handeln und übertragbare verkörperte Fähigkeiten zu demonstriert.

  • GWM-1 (Runway)
    Ein autoregressives allgemeines World Model, das auf Gen-4.5 basiert und die Realität in Echtzeit simuliert, mit drei Varianten – Welten für erkundbare Umgebungen, Avatare für konversationelle Charaktere und Robotik für die Generierung synthetischer Trainingsdaten.

Obwohl sich diese Ansätze in ihrer Umsetzung unterscheiden, verfolgen sie dasselbe Ziel: KI-Systemen zu ermöglichen, Verhaltensweisen in simulierten Umgebungen zu erlernen, zu testen und zu verfeinern, bevor sie in der realen Welt eingesetzt werden.

Deep Dive: Meta V-JEPA 2 und praxisnahe Experimente

Unter diesen Architekturen verfolgt V-JEPA 2 (Video Joint Embedding Predictive Architecture) einen prädiktiven, nicht-generativen Ansatz, um physikalische Dynamiken aus Videodaten zu erlernen. Statt Pixel zu generieren, liegt der Fokus darauf, zu modellieren, wie sich Szenen im Laufe der Zeit entwickeln.

Bei Reply haben wir diese Architektur in einem gezielten experimentellen Setup untersucht, um ihre Fähigkeit zu bewerten, zeitliche Zusammenhänge und Bewegungsmuster in komplexen Szenarien zu erfassen. Die wichtigsten Ergebnisse im Überblick:

  • 77,3% Top-1 Genauigkeit im Something-Something v2-Datensatz 

  • 39,7 Recall@5 bei Epic-Kitchens-100 für die Antizipation von Aktionen aus der Ich-Perspektive 

Insgesamt bestätigt das Experimentieren die Effektivität von V-JEPA 2 in Szenarien, in denen das Verständnis von Bewegung und Interaktion über die Zeit entscheidend ist, wie in der Robotik und bei autonomen Systemen. 

Von World Models zur Embodied AI

Weltmodelle spielen eine zentrale Rolle in Embodied AI, indem sie die Verbindung zwischen Wahrnehmung, Schlussfolgerung und Handlung unterstützen.

In angewandten Robotik-Szenarien ermöglichen diese Modelle den Systemen, ihre Umgebung zu interpretieren, Aktionen zu planen und sich an wechselnde Bedingungen anzupassen. Dieser Ansatz ist besonders relevant für autonome Roboter und humanoide Plattformen, die in unstrukturierten oder semi-strukturierten Umgebungen wie Industrieanlagen, Logistikzentren oder Gesundheitseinrichtungen agieren. 

Ein entscheidender Baustein in diesem Zusammenhang ist die Nutzung räumlicher Ankern - persistenter digitaler Referenzpunkte, die es KI-Systemen erlauben, erlernte Repräsentationen mit präzisen physischen Positionen zu verknüpfen. Dies erhöht die Konsistenz und Zuverlässigkeit über verschiedene Einsätze hinweg. 

Ein Blick in die Zukunft

Da KI-Systeme über rein konversationelle Anwendungsfälle hinauswachsen, gewinnen räumliche Simulation und physikalisches Schließen zunehmend an Bedeutung. World Models bilden dabei eine zentrale Grundlage, die zuverlässigere, kontextbewusste und physikalisch fundierte KI-Systeme in industriellen wie auch realen Anwendungsbereichen ermöglicht.