DeepMind Genie 3 研究:实时交互式 3D 世界模型的重大突破
概述
2025 年 8 月 5 日,Google DeepMind 正式发布了 Genie 3,这是其最新的通用世界模型(world model),被称为”第一个实时交互式通用世界模型”。Genie 3 能够通过简单的文本提示生成可实时交互的 3D 环境,标志着世界模型技术的重大突破。
发布时间与背景
- 发布时间:2025 年 8 月 5 日
- 研发机构:Google DeepMind
- 技术传承:基于 Genie 2(可生成智能体新环境)和 Veo 3(具有深刻物理理解的视频生成模型)
- 定位:研究预览阶段,尚未公开发布
核心技术原理
1. 自回归生成架构
Genie 3 采用自回归(auto-regressive)生成方式,逐帧生成世界,这是实现环境一致性的关键。
“模型是自回归的,意味着它一次生成一帧。它必须回顾之前生成的内容来决定接下来会发生什么。这是架构的关键部分。” —— Shlomi Fruchter,DeepMind 研究总监(TechCrunch, 2025)
2. 世界记忆机制
Genie 3 的模拟能够在时间上保持物理一致性,因为模型可以记住之前生成的内容。这种记忆能力并非研究人员显式编程,而是模型自主学习获得的。
- 短期记忆:约 1 分钟,能够保持场景上下文
- 空间一致性:重访之前位置时能回忆起之前的细节
- 交互持续性:用户的行为(如在墙上绘画)会持久存在
3. 物理理解能力
与 Veo 类似,Genie 3 不依赖硬编码的物理引擎,而是通过记忆生成内容并进行长时推理,自学世界如何运作——物体如何移动、下落和交互。
性能指标
视觉与帧率
- 分辨率:720p(高清)
- 帧率:24 帧/秒(流畅交互体验)
- 交互时长:支持数分钟的连续交互
相比前代的进步
| 特性 | Genie 2 | Genie 3 |
|---|---|---|
| 交互时长 | 10-20 秒 | 数分钟 |
| 分辨率 | 较低 | 720p |
| 帧率 | 未明确 | 24fps |
| 世界事件 | 无 | 可提示世界事件 |
核心功能
1. 文本到 3D 世界
通过简单的文本提示,Genie 3 可以生成:
- 照片级真实环境
- 奇幻/想象世界
- 各种风格的场景(水彩、粘土动画、定格动画等)
2. 实时交互
- 用户可以在环境中移动、导航
- 实时视角更新
- 环境对移动和动作做出响应
3. 可提示的世界事件(Promptable World Events)
这是 Genie 3 最强大的功能之一——在探索过程中实时修改世界:
- 天气变化(晴天→暴风雨)
- 即时出现新物体或角色
- 按需改变光照和时间
- 世界不会重置,而是适应并继续
4. 世界多样性
Genie 3 支持多种场景类型:
- 物理世界模拟:从沙漠到海洋,或近距离见证极端天气
- 自然模拟:生成充满活力的生态系统,包括动物行为和植物
- 动画与虚构:召唤想象世界、奇幻场景和富有表现力的动画角色
- 地点探索:探索过去时代和遥远土地
应用场景
1. 具身智能体训练
Genie 3 最重要的应用是训练通用人工智能体,这被认为是通往 AGI(通用人工智能)的关键一步。
“我们认为世界模型是通往 AGI 的关键,特别是对于具身智能体,模拟真实世界场景特别具有挑战性。” —— Jack Parker-Holder,DeepMind 开放性研究团队科学家(TechCrunch, 2025)
DeepMind 已经用 SIMA(Scalable Instructable Multiworld Agent)进行了测试:
- 在仓库环境中,指导智能体执行”接近亮绿色的垃圾压缩机”或”走向红色叉车”等任务
- SIMA 智能体能够在 Genie 3 生成的世界中实现目标
2. 教育与培训
- 学生可以探索历史时代(如古罗马)
- 培训自主车辆在真实场景中进行安全测试
- 灾难准备和应急训练的危险场景模拟
3. 创意与娱乐
- 游戏原型制作
- 交互式故事讲述
- 创意概念原型设计
- 动画制作
Project Genie:面向用户的原型
2026 年 1 月 29 日,Google 推出了 Project Genie,这是一个基于 Genie 3 的实验性研究原型,向 Google AI Ultra 订阅用户(美国,18 岁以上)开放。
三大核心功能
- 世界草图(World Sketching)
- 使用文本和生成/上传的图像创建环境
- 可定义角色、世界和探索方式(步行、骑行、飞行、驾驶等)
- 集成 Nano Banana Pro 进行预览和微调
- 世界探索(World Exploration)
- 可导航的环境
- 基于动作实时生成前方路径
- 可调整相机视角
- 世界混音(World Remixing)
- 基于现有世界提示创建新解读
- 探索画廊中的精选世界
- 下载世界和探索视频
当前局限性
尽管 Genie 3 取得了重大突破,但仍存在一些局限性:
- 物理真实度:某些物理效果还不够完美(如雪的运动)
- 动作范围:智能体可执行的动作范围有限
- 多智能体交互:难以准确建模共享环境中多个独立智能体之间的复杂交互
- 交互时长:仅支持数分钟的连续交互,实际训练需要数小时
- 真实地点:无法完美准确地模拟真实世界地点
- 文本渲染:清晰可读的文本通常只在输入的世界描述中生成时才出现
技术对比:Genie 3 vs 其他方法
Genie 3 的环境比 NeRF(神经辐射场)和高斯溅射(Gaussian Splatting)等方法更加动态和详细,因为它们是自回归的——基于世界描述和用户动作逐帧创建。
责任与安全
DeepMind 表示,像 Genie 3 这样的基础技术从一开始就需要深入的责任承诺。技术创新,特别是开放性和实时能力,为安全和责任带来了新的挑战。
总结
Genie 3 代表了世界模型技术的重大飞跃,它不仅能够生成静态的 3D 场景,还能创建可以实时交互、持续演变的世界。这种能力为具身人工智能的研究开辟了新的可能性,被 DeepMind 视为通往 AGI 的关键一步。
虽然目前仍处于研究预览阶段,并且存在一些局限性,但 Genie 3 展示的实时交互、环境一致性和物理理解能力,预示着人工智能在模拟和理解现实世界方面的巨大潜力。
参考来源
-
Bellan, R. (2025, August 5). DeepMind thinks its new Genie 3 world model presents a stepping stone toward AGI. TechCrunch. https://techcrunch.com/2025/08/05/deepmind-thinks-genie-3-world-model-presents-stepping-stone-towards-agi/
-
Google DeepMind. (2025). Genie 3: A new frontier for world models. https://deepmind.google/models/genie/
-
Rivas, D., Breece, E., & Chambers, S. (2026, January 29). Project Genie: Experimenting with infinite, interactive worlds. Google Blog. https://blog.google/innovation-and-ai/models-and-research/google-deepmind/project-genie/
-
Google DeepMind. (2025, August 5). Genie 3: Creating dynamic worlds that you can navigate in real-time [Video]. YouTube. https://www.youtube.com/watch?v=PDKhUknuQDg
-
Codecademy. (n.d.). Genie 3: New world model by Google. https://www.codecademy.com/article/googles-genie-3-world-model