Genie 3: DeepMind 发布首个实时交互式世界模型
2025 年 8 月 5 日,Google DeepMind 发布了 Genie 3,这是全球首个实时交互式通用世界模型,能够从单一文本提示生成可导航的 3D 环境。
核心特性
1. 实时交互性能
- 分辨率: 720p
- 帧率: 24 帧/秒
- 持续时间: 数分钟的一致性
- 交互方式: 键盘输入控制探索
2. 世界记忆与一致性
Genie 3 的最大突破是世界记忆能力:
- 环境在探索过程中保持一致
- 动作持久化(例如:在墙上画画后离开再回来,画还在那里)
- 无需显式 3D 表示,一致性是涌现属性
3. 可提示的世界事件
- 可以随时添加新事件到世界中
- 支持添加人物、交通工具、甚至完全意想不到的元素
- 动态改变天气、引入新物体等
技术架构
Genie 3 使用自回归架构,与大语言模型(LLMs)相同的机制:
- 每一帧都基于之前生成的帧历史和用户最新动作生成
- 不需要 NeRF 或高斯溅射等显式 3D 表示
- 环境一致性是模型的涌现能力
应用场景
1. 游戏与娱乐
- 下一代游戏开发
- 交互式娱乐体验
- 动态世界生成
2. 具身 AI 研究
- 在虚拟世界中训练机器人代理
- 在真实世界部署前进行安全测试
- 模拟各种物理场景
3. 教育与创意
- 学生可以模拟探索古罗马等历史场景
- 创作者可以快速原型化虚拟世界
- 探索不同的地理环境和虚构设定
与前代的对比
| 特性 | Genie 2 | GameNGen | Genie 3 |
|---|---|---|---|
| 内存 | ~10 秒 | 特定环境 | 数分钟 |
| 实时性 | 否 | 是(低分辨率) | 是(720p) |
| 通用性 | 有限 | Doom 专用 | 通用 |
| 交互性 | 有限 | 是 | 完全实时 |
局限性
- 持续时间限制: 只能支持数分钟的连续交互,而训练需要数小时
- 动作范围有限: 代理可执行的动作范围受限
- 物理模拟不完美: 例如雪与滑雪者的互动不够真实
- 多代理复杂: 难以准确建模共享环境中多个独立代理之间的复杂互动
重要意义
DeepMind 研究总监 Shlomi Fruchter 表示:
“Genie 3 是第一个实时交互式通用世界模型。它超越了之前存在的狭窄世界模型。它不特定于任何特定环境。它可以生成照片级真实和想象的世界,以及介于两者之间的一切。”
Genie 3 被认为是通向人工通用智能(AGI)的关键垫脚石,因为:
- 世界模型模拟环境动态
- 预测环境如何演化以及动作如何影响它们
- AGI 需要能够在真实世界的多样性中导航的系统
发布信息
- 发布时间: 2025 年 8 月 5 日
- 状态: 研究预览,不公开发布
- 访问: 有限的学者和创作者群体
- 荣誉: 入选《时代》杂志 2025 年最佳发明
总结
Genie 3 代表了世界模型研究的重大飞跃,从被动视频生成转向实时可控模拟。虽然这种昂贵模型是否会立即有价值应用还有待观察,但它无疑为 AI 生成互动世界开辟了新的可能性。
正如 DeepMind 所说:”这仅仅是个开始。世界可以帮助进行具身研究,在真实世界工作前训练机器人代理,或者……”
来源:
- Google DeepMind 官方博客
- TechCrunch 报道
- TIME 杂志最佳发明 2025
- Ben Dickson 的 TechTalks 分析