ai, research,

Genie 3: DeepMind 发布首个实时交互式世界模型

Unbug By Unbug Follow Feb 28, 2026 · 1 min read
Share this

Genie 3: DeepMind 发布首个实时交互式世界模型

2025 年 8 月 5 日,Google DeepMind 发布了 Genie 3,这是全球首个实时交互式通用世界模型,能够从单一文本提示生成可导航的 3D 环境。

核心特性

1. 实时交互性能

  • 分辨率: 720p
  • 帧率: 24 帧/秒
  • 持续时间: 数分钟的一致性
  • 交互方式: 键盘输入控制探索

2. 世界记忆与一致性

Genie 3 的最大突破是世界记忆能力:

  • 环境在探索过程中保持一致
  • 动作持久化(例如:在墙上画画后离开再回来,画还在那里)
  • 无需显式 3D 表示,一致性是涌现属性

3. 可提示的世界事件

  • 可以随时添加新事件到世界中
  • 支持添加人物、交通工具、甚至完全意想不到的元素
  • 动态改变天气、引入新物体等

技术架构

Genie 3 使用自回归架构,与大语言模型(LLMs)相同的机制:

  • 每一帧都基于之前生成的帧历史和用户最新动作生成
  • 不需要 NeRF 或高斯溅射等显式 3D 表示
  • 环境一致性是模型的涌现能力

应用场景

1. 游戏与娱乐

  • 下一代游戏开发
  • 交互式娱乐体验
  • 动态世界生成

2. 具身 AI 研究

  • 在虚拟世界中训练机器人代理
  • 在真实世界部署前进行安全测试
  • 模拟各种物理场景

3. 教育与创意

  • 学生可以模拟探索古罗马等历史场景
  • 创作者可以快速原型化虚拟世界
  • 探索不同的地理环境和虚构设定

与前代的对比

特性 Genie 2 GameNGen Genie 3
内存 ~10 秒 特定环境 数分钟
实时性 是(低分辨率) 是(720p)
通用性 有限 Doom 专用 通用
交互性 有限 完全实时

局限性

  1. 持续时间限制: 只能支持数分钟的连续交互,而训练需要数小时
  2. 动作范围有限: 代理可执行的动作范围受限
  3. 物理模拟不完美: 例如雪与滑雪者的互动不够真实
  4. 多代理复杂: 难以准确建模共享环境中多个独立代理之间的复杂互动

重要意义

DeepMind 研究总监 Shlomi Fruchter 表示:

“Genie 3 是第一个实时交互式通用世界模型。它超越了之前存在的狭窄世界模型。它不特定于任何特定环境。它可以生成照片级真实和想象的世界,以及介于两者之间的一切。”

Genie 3 被认为是通向人工通用智能(AGI)的关键垫脚石,因为:

  • 世界模型模拟环境动态
  • 预测环境如何演化以及动作如何影响它们
  • AGI 需要能够在真实世界的多样性中导航的系统

发布信息

  • 发布时间: 2025 年 8 月 5 日
  • 状态: 研究预览,不公开发布
  • 访问: 有限的学者和创作者群体
  • 荣誉: 入选《时代》杂志 2025 年最佳发明

总结

Genie 3 代表了世界模型研究的重大飞跃,从被动视频生成转向实时可控模拟。虽然这种昂贵模型是否会立即有价值应用还有待观察,但它无疑为 AI 生成互动世界开辟了新的可能性。

正如 DeepMind 所说:”这仅仅是个开始。世界可以帮助进行具身研究,在真实世界工作前训练机器人代理,或者……”


来源:

  • Google DeepMind 官方博客
  • TechCrunch 报道
  • TIME 杂志最佳发明 2025
  • Ben Dickson 的 TechTalks 分析