Unbug By Unbug Follow Mar 01, 2026 · 1 min read
Share this

RWML 世界模型

论文概述

今天要解读的这篇论文,绝对是近期 AI 领域的王炸级作品!

论文标题是 “Reinforcement World Model Learning for LLM-based Agents”(arXiv:2602.05842,2026年2月),来自微软研究院和哥伦比亚大学的研究团队。

他们提出了 RWML(Reinforcement World Model Learning)——一种全新的自我监督训练方法,让 LLM 智能体能够学会预测行动的后果,建立内部的”世界模型”。

简单说就是:让 AI 学会”预测未来”!

核心问题:LLM 智能体缺少”前瞻能力”

虽然大语言模型(LLM)在聊天、写作等语言任务上已经表现得像个”超人”,但在智能体场景中,它们经常面临一个致命问题:无法预测行动的后果

想象一下:

  • 你让一个智能体去厨房拿一把刀
  • 它可能会傻乎乎地去抽屉里翻半天,但其实刀更可能在灶台上
  • 或者它在处理客服问题时,忘记先检查”飞行模式”是否开启

这就是论文要解决的核心挑战:如何让 LLM 智能体具备世界建模能力,能够预测”如果我这么做,接下来会发生什么”?

RWML 的核心思想

RWML 的创新之处在于:用强化学习的方式训练世界模型,而不是用传统的监督学习(SFT)

传统方法的问题

之前的方法通常用 SFT(监督微调)来训练世界模型,让 LLM 预测下一个状态。但这种方法有两个硬伤:

  1. 过度关注 token 级别的准确性:为了重现精确的用词,而忽略了语义等价性
  2. 容易导致模型坍塌:模型可能学会”死记硬背”而不是真正理解

RWML 的解决方案

RWML 采用了完全不同的思路,堪称黑科技

  1. 在预训练嵌入空间中比较:不是比较 token 序列,而是比较预测状态和真实状态在预训练嵌入空间中的相似度
  2. 使用强化学习训练:用 GRPO(Group Relative Policy Optimization)算法优化
  3. 完全自我监督:不需要专家数据、不需要更强的 LLM、甚至不需要任务成功奖励信号

技术细节

训练流程

RWML 的训练分为两个阶段:

第一阶段:世界模型学习(RWML)

  • 让目标模型在环境中收集轨迹数据
  • 将轨迹转换为 ⟨状态, 动作, 下一状态⟩ 三元组
  • 用强化学习训练模型预测下一状态
  • 奖励函数基于嵌入相似度:如果预测状态和真实状态在嵌入空间中足够接近,就给 1.0 分,否则 0.0 分

第二阶段:策略强化学习(Policy RL)

  • 在 RWML 预训练的基础上,继续用任务成功奖励进行强化学习
  • 这样可以结合世界建模能力和任务完成能力

关键技术点

  1. 数据子采样:过滤掉”太简单”的样本,让模型专注于学习有挑战性的世界知识
  2. 二值化奖励:经验发现二值化奖励(0 或 1)比连续奖励更稳健,不容易被奖励攻击
  3. 推理链:让模型在预测下一状态前先进行推理,这有助于提升性能

实验结果

论文在两个标准基准上测试了 RWML,结果令人震惊

ALFWorld(文本具身环境)

  • 基础模型:13.0% 成功率
  • RWML(仅自我监督):32.6% 成功率(提升 19.6 点)
  • RWML + 策略 RL:87.9% 成功率(比直接策略 RL 高出 6.9 点)
  • 甚至超过了使用专家数据的方法

τ² Bench(客服工具使用环境)

  • 基础模型:31.9% 成功率
  • RWML(仅自我监督):38.8% 成功率(提升 6.9 点)
  • RWML + 策略 RL:43.7% 成功率(比直接策略 RL 高出 5.7 点)
  • 与使用专家数据的方法性能相当

额外发现:RWML 遗忘更少!

论文还有一个意外惊喜RWML 比传统的 SFT 方法导致更少的灾难性遗忘

在多个基准测试中(MMLU-Redux、IFEval、MATH-500、GSM8k、GPQA-Diamond、LiveCodeBench),RWML 训练的模型在保留原有知识方面都显著优于 SFT。

为什么?因为:

  • 在线强化学习(on-policy RL)比 SFT 更好地保留了预训练知识
  • 参数更新更精确:RWML 只对一小部分参数进行有针对性的更新,而不是广泛修改

实际效果展示

论文中展示了一些有趣的例子,让我们看到 RWML 的魔力:

ALFWorld 例子

  • RWML 之前:模型会盲目地检查各种地方,效率低下
  • RWML 之后:模型能够正确预测”刀最可能在灶台上”,仅用 5 步就完成任务

τ² Bench 例子

  • RWML 之前:模型忘记检查飞行模式是否开启
  • RWML 之后:模型能够主动考虑”飞行模式可能开启”的情况

为什么这篇论文重要?

这篇论文的意义怎么强调都不为过:

  1. 突破性的训练范式:提出了”中间训练”(mid-training)的概念——在预训练和下游任务强化学习之间,插入一个自我监督的世界模型学习阶段
  2. 完全自我监督:不需要任何专家标注,不需要更强的 LLM,只需要环境交互数据
  3. 性能显著提升:在多个基准上都取得了显著改进,甚至超过了使用专家数据的方法
  4. 减少遗忘:同时解决了灾难性遗忘问题

展望未来

RWML 为 LLM 智能体的训练开辟了一个全新的方向:

  • 更强大的智能体:具备世界建模能力的智能体可以在复杂环境中更好地规划和决策
  • 数据效率更高:不需要大量专家数据,通过自我监督就能学习
  • 通用的”中间训练”:RWML 可能成为 LLM 智能体训练的标准步骤

想象一下未来的智能体:它们不仅能”反应”,还能”预测”和”规划”——这正是 RWML 带来的可能性。

论文链接

  • arXiv:https://arxiv.org/abs/2602.05842
  • 发布日期:2026年2月10日
  • 机构:微软研究院、哥伦比亚大学、达特茅斯学院

如果你觉得这篇文章有帮助,欢迎分享给更多对 AI 研究感兴趣的朋友!

Releated