一分钟读论文：《DeepMind Genie 3 研究：实时交互式 3D 世界模型的重大突破》

By Unbug Follow Feb 28, 2026 · 2 mins read

DeepMind Genie 3 研究：实时交互式 3D 世界模型的重大突破

概述

2025 年 8 月 5 日，Google DeepMind 正式发布了 Genie 3，这是其最新的通用世界模型（world model），被称为”第一个实时交互式通用世界模型”。Genie 3 能够通过简单的文本提示生成可实时交互的 3D 环境，标志着世界模型技术的重大突破。

发布时间与背景

发布时间：2025 年 8 月 5 日
研发机构：Google DeepMind
技术传承：基于 Genie 2（可生成智能体新环境）和 Veo 3（具有深刻物理理解的视频生成模型）
定位：研究预览阶段，尚未公开发布

核心技术原理

1. 自回归生成架构

Genie 3 采用自回归（auto-regressive）生成方式，逐帧生成世界，这是实现环境一致性的关键。

“模型是自回归的，意味着它一次生成一帧。它必须回顾之前生成的内容来决定接下来会发生什么。这是架构的关键部分。” —— Shlomi Fruchter，DeepMind 研究总监（TechCrunch, 2025）

2. 世界记忆机制

Genie 3 的模拟能够在时间上保持物理一致性，因为模型可以记住之前生成的内容。这种记忆能力并非研究人员显式编程，而是模型自主学习获得的。

短期记忆：约 1 分钟，能够保持场景上下文
空间一致性：重访之前位置时能回忆起之前的细节
交互持续性：用户的行为（如在墙上绘画）会持久存在

3. 物理理解能力

与 Veo 类似，Genie 3 不依赖硬编码的物理引擎，而是通过记忆生成内容并进行长时推理，自学世界如何运作——物体如何移动、下落和交互。

性能指标

视觉与帧率

分辨率：720p（高清）
帧率：24 帧/秒（流畅交互体验）
交互时长：支持数分钟的连续交互

相比前代的进步

特性	Genie 2	Genie 3
交互时长	10-20 秒	数分钟
分辨率	较低	720p
帧率	未明确	24fps
世界事件	无	可提示世界事件

核心功能

1. 文本到 3D 世界

通过简单的文本提示，Genie 3 可以生成：

照片级真实环境
奇幻/想象世界
各种风格的场景（水彩、粘土动画、定格动画等）

2. 实时交互

用户可以在环境中移动、导航
实时视角更新
环境对移动和动作做出响应

3. 可提示的世界事件（Promptable World Events）

这是 Genie 3 最强大的功能之一——在探索过程中实时修改世界：

天气变化（晴天→暴风雨）
即时出现新物体或角色
按需改变光照和时间
世界不会重置，而是适应并继续

4. 世界多样性

Genie 3 支持多种场景类型：

物理世界模拟：从沙漠到海洋，或近距离见证极端天气
自然模拟：生成充满活力的生态系统，包括动物行为和植物
动画与虚构：召唤想象世界、奇幻场景和富有表现力的动画角色
地点探索：探索过去时代和遥远土地

应用场景

1. 具身智能体训练

Genie 3 最重要的应用是训练通用人工智能体，这被认为是通往 AGI（通用人工智能）的关键一步。

“我们认为世界模型是通往 AGI 的关键，特别是对于具身智能体，模拟真实世界场景特别具有挑战性。” —— Jack Parker-Holder，DeepMind 开放性研究团队科学家（TechCrunch, 2025）

DeepMind 已经用 SIMA（Scalable Instructable Multiworld Agent）进行了测试：

在仓库环境中，指导智能体执行”接近亮绿色的垃圾压缩机”或”走向红色叉车”等任务
SIMA 智能体能够在 Genie 3 生成的世界中实现目标

2. 教育与培训

学生可以探索历史时代（如古罗马）
培训自主车辆在真实场景中进行安全测试
灾难准备和应急训练的危险场景模拟

3. 创意与娱乐

游戏原型制作
交互式故事讲述
创意概念原型设计
动画制作

Project Genie：面向用户的原型

2026 年 1 月 29 日，Google 推出了 Project Genie，这是一个基于 Genie 3 的实验性研究原型，向 Google AI Ultra 订阅用户（美国，18 岁以上）开放。

三大核心功能

世界草图（World Sketching）
- 使用文本和生成/上传的图像创建环境
- 可定义角色、世界和探索方式（步行、骑行、飞行、驾驶等）
- 集成 Nano Banana Pro 进行预览和微调
世界探索（World Exploration）
- 可导航的环境
- 基于动作实时生成前方路径
- 可调整相机视角
世界混音（World Remixing）
- 基于现有世界提示创建新解读
- 探索画廊中的精选世界
- 下载世界和探索视频

当前局限性

尽管 Genie 3 取得了重大突破，但仍存在一些局限性：

物理真实度：某些物理效果还不够完美（如雪的运动）
动作范围：智能体可执行的动作范围有限
多智能体交互：难以准确建模共享环境中多个独立智能体之间的复杂交互
交互时长：仅支持数分钟的连续交互，实际训练需要数小时
真实地点：无法完美准确地模拟真实世界地点
文本渲染：清晰可读的文本通常只在输入的世界描述中生成时才出现

技术对比：Genie 3 vs 其他方法

Genie 3 的环境比 NeRF（神经辐射场）和高斯溅射（Gaussian Splatting）等方法更加动态和详细，因为它们是自回归的——基于世界描述和用户动作逐帧创建。

责任与安全

DeepMind 表示，像 Genie 3 这样的基础技术从一开始就需要深入的责任承诺。技术创新，特别是开放性和实时能力，为安全和责任带来了新的挑战。

总结

Genie 3 代表了世界模型技术的重大飞跃，它不仅能够生成静态的 3D 场景，还能创建可以实时交互、持续演变的世界。这种能力为具身人工智能的研究开辟了新的可能性，被 DeepMind 视为通往 AGI 的关键一步。

虽然目前仍处于研究预览阶段，并且存在一些局限性，但 Genie 3 展示的实时交互、环境一致性和物理理解能力，预示着人工智能在模拟和理解现实世界方面的巨大潜力。

参考来源

Bellan, R. (2025, August 5). DeepMind thinks its new Genie 3 world model presents a stepping stone toward AGI. TechCrunch. https://techcrunch.com/2025/08/05/deepmind-thinks-genie-3-world-model-presents-stepping-stone-towards-agi/
Google DeepMind. (2025). Genie 3: A new frontier for world models. https://deepmind.google/models/genie/
Rivas, D., Breece, E., & Chambers, S. (2026, January 29). Project Genie: Experimenting with infinite, interactive worlds. Google Blog. https://blog.google/innovation-and-ai/models-and-research/google-deepmind/project-genie/
Google DeepMind. (2025, August 5). Genie 3: Creating dynamic worlds that you can navigate in real-time [Video]. YouTube. https://www.youtube.com/watch?v=PDKhUknuQDg
Codecademy. (n.d.). Genie 3: New world model by Google. https://www.codecademy.com/article/googles-genie-3-world-model