research,

DeepMind Genie 3 研究:实时交互式 3D 世界模型的重大突破

Unbug By Unbug Follow Feb 28, 2026 · 2 mins read
Share this

DeepMind Genie 3 研究:实时交互式 3D 世界模型的重大突破

概述

2025 年 8 月 5 日,Google DeepMind 正式发布了 Genie 3,这是其最新的通用世界模型(world model),被称为”第一个实时交互式通用世界模型”。Genie 3 能够通过简单的文本提示生成可实时交互的 3D 环境,标志着世界模型技术的重大突破。

发布时间与背景

  • 发布时间:2025 年 8 月 5 日
  • 研发机构:Google DeepMind
  • 技术传承:基于 Genie 2(可生成智能体新环境)和 Veo 3(具有深刻物理理解的视频生成模型)
  • 定位:研究预览阶段,尚未公开发布

核心技术原理

1. 自回归生成架构

Genie 3 采用自回归(auto-regressive)生成方式,逐帧生成世界,这是实现环境一致性的关键。

“模型是自回归的,意味着它一次生成一帧。它必须回顾之前生成的内容来决定接下来会发生什么。这是架构的关键部分。” —— Shlomi Fruchter,DeepMind 研究总监(TechCrunch, 2025)

2. 世界记忆机制

Genie 3 的模拟能够在时间上保持物理一致性,因为模型可以记住之前生成的内容。这种记忆能力并非研究人员显式编程,而是模型自主学习获得的。

  • 短期记忆:约 1 分钟,能够保持场景上下文
  • 空间一致性:重访之前位置时能回忆起之前的细节
  • 交互持续性:用户的行为(如在墙上绘画)会持久存在

3. 物理理解能力

与 Veo 类似,Genie 3 不依赖硬编码的物理引擎,而是通过记忆生成内容并进行长时推理,自学世界如何运作——物体如何移动、下落和交互。

性能指标

视觉与帧率

  • 分辨率:720p(高清)
  • 帧率:24 帧/秒(流畅交互体验)
  • 交互时长:支持数分钟的连续交互

相比前代的进步

特性 Genie 2 Genie 3
交互时长 10-20 秒 数分钟
分辨率 较低 720p
帧率 未明确 24fps
世界事件 可提示世界事件

核心功能

1. 文本到 3D 世界

通过简单的文本提示,Genie 3 可以生成:

  • 照片级真实环境
  • 奇幻/想象世界
  • 各种风格的场景(水彩、粘土动画、定格动画等)

2. 实时交互

  • 用户可以在环境中移动、导航
  • 实时视角更新
  • 环境对移动和动作做出响应

3. 可提示的世界事件(Promptable World Events)

这是 Genie 3 最强大的功能之一——在探索过程中实时修改世界:

  • 天气变化(晴天→暴风雨)
  • 即时出现新物体或角色
  • 按需改变光照和时间
  • 世界不会重置,而是适应并继续

4. 世界多样性

Genie 3 支持多种场景类型:

  • 物理世界模拟:从沙漠到海洋,或近距离见证极端天气
  • 自然模拟:生成充满活力的生态系统,包括动物行为和植物
  • 动画与虚构:召唤想象世界、奇幻场景和富有表现力的动画角色
  • 地点探索:探索过去时代和遥远土地

应用场景

1. 具身智能体训练

Genie 3 最重要的应用是训练通用人工智能体,这被认为是通往 AGI(通用人工智能)的关键一步。

“我们认为世界模型是通往 AGI 的关键,特别是对于具身智能体,模拟真实世界场景特别具有挑战性。” —— Jack Parker-Holder,DeepMind 开放性研究团队科学家(TechCrunch, 2025)

DeepMind 已经用 SIMA(Scalable Instructable Multiworld Agent)进行了测试:

  • 在仓库环境中,指导智能体执行”接近亮绿色的垃圾压缩机”或”走向红色叉车”等任务
  • SIMA 智能体能够在 Genie 3 生成的世界中实现目标

2. 教育与培训

  • 学生可以探索历史时代(如古罗马)
  • 培训自主车辆在真实场景中进行安全测试
  • 灾难准备和应急训练的危险场景模拟

3. 创意与娱乐

  • 游戏原型制作
  • 交互式故事讲述
  • 创意概念原型设计
  • 动画制作

Project Genie:面向用户的原型

2026 年 1 月 29 日,Google 推出了 Project Genie,这是一个基于 Genie 3 的实验性研究原型,向 Google AI Ultra 订阅用户(美国,18 岁以上)开放。

三大核心功能

  1. 世界草图(World Sketching)
    • 使用文本和生成/上传的图像创建环境
    • 可定义角色、世界和探索方式(步行、骑行、飞行、驾驶等)
    • 集成 Nano Banana Pro 进行预览和微调
  2. 世界探索(World Exploration)
    • 可导航的环境
    • 基于动作实时生成前方路径
    • 可调整相机视角
  3. 世界混音(World Remixing)
    • 基于现有世界提示创建新解读
    • 探索画廊中的精选世界
    • 下载世界和探索视频

当前局限性

尽管 Genie 3 取得了重大突破,但仍存在一些局限性:

  1. 物理真实度:某些物理效果还不够完美(如雪的运动)
  2. 动作范围:智能体可执行的动作范围有限
  3. 多智能体交互:难以准确建模共享环境中多个独立智能体之间的复杂交互
  4. 交互时长:仅支持数分钟的连续交互,实际训练需要数小时
  5. 真实地点:无法完美准确地模拟真实世界地点
  6. 文本渲染:清晰可读的文本通常只在输入的世界描述中生成时才出现

技术对比:Genie 3 vs 其他方法

Genie 3 的环境比 NeRF(神经辐射场)和高斯溅射(Gaussian Splatting)等方法更加动态和详细,因为它们是自回归的——基于世界描述和用户动作逐帧创建。

责任与安全

DeepMind 表示,像 Genie 3 这样的基础技术从一开始就需要深入的责任承诺。技术创新,特别是开放性和实时能力,为安全和责任带来了新的挑战。

总结

Genie 3 代表了世界模型技术的重大飞跃,它不仅能够生成静态的 3D 场景,还能创建可以实时交互、持续演变的世界。这种能力为具身人工智能的研究开辟了新的可能性,被 DeepMind 视为通往 AGI 的关键一步。

虽然目前仍处于研究预览阶段,并且存在一些局限性,但 Genie 3 展示的实时交互、环境一致性和物理理解能力,预示着人工智能在模拟和理解现实世界方面的巨大潜力。


参考来源

  1. Bellan, R. (2025, August 5). DeepMind thinks its new Genie 3 world model presents a stepping stone toward AGI. TechCrunch. https://techcrunch.com/2025/08/05/deepmind-thinks-genie-3-world-model-presents-stepping-stone-towards-agi/

  2. Google DeepMind. (2025). Genie 3: A new frontier for world models. https://deepmind.google/models/genie/

  3. Rivas, D., Breece, E., & Chambers, S. (2026, January 29). Project Genie: Experimenting with infinite, interactive worlds. Google Blog. https://blog.google/innovation-and-ai/models-and-research/google-deepmind/project-genie/

  4. Google DeepMind. (2025, August 5). Genie 3: Creating dynamic worlds that you can navigate in real-time [Video]. YouTube. https://www.youtube.com/watch?v=PDKhUknuQDg

  5. Codecademy. (n.d.). Genie 3: New world model by Google. https://www.codecademy.com/article/googles-genie-3-world-model