卡内基梅隆大学和商汤实验室联合发表的论文《Efficient Agentic Reasoning Through Self-Regulated Simulative Planning》提出 SR^2AM(自我调节模拟推理智能体大语言模型),将 Agent 的决策过程从单一思维链拆分为三个独立系统。SR^2AM-30B 在数学、科学、表格分析和网页检索四大领域达到与 685B-1T 参数系统相当的 Pass@1 准确率,同时推理 Token 减少 25.8%-95.3%。核心创新在于用 LLM 自身作为世界模型进行状态转移预测,并通过强化学习训练出”何时思考、何时行动”的决策能力。
三系统架构:从单一思维链到分工协作
传统 Agent 推理将所有思考过程压缩在一条线性思维链中——模型逐字输出推理步骤然后从中提取动作指令。这种模式的问题在于所有类型的决策都使用相同的处理流程。简单任务和复杂任务没有区别对待,导致大量 Token 浪费在简单决策上。
SR^2AM 受认知科学中人类双系统理论的启发,将 Agent 的决策过程分解为三个独立模块:
System I(反应式执行)处理细粒度动作的直接输出。当任务足够简单或模式熟悉时,Agent 跳过规划阶段直接生成动作。这类似于人类的直觉反应——看到红灯踩刹车不需要经过复杂的逻辑推理。
System II(模拟推理)是 SR^2AM 的核心创新模块。它不直接生成动作,而是让 LLM 作为世界模型预测每个候选动作之后的状态转移。Agent 在 System II 中同时生成多条行动路径及其对应的未来状态预测,通过比较不同路径的可达性和预期收益来选择最优方案。
System III(自我调节器)是一个独立的配置模块,负责判断当前任务是否需要调用 System II 进行规划,以及规划的深度应该是多少。这个模块通过强化学习训练,学会了在简单任务上直接走 System I、在复杂任务上深入使用 System II 的决策策略。
模拟推理与自我调节:核心机制协同工作
System II(模拟推理)和 System III(自我调节器)是 SR^2AM 的两个核心创新模块,它们协同工作解决了 Agent 推理中的两个根本问题:如何思考和何时思考。
LLM 即世界模型的模拟推理
System II 的工作方式与传统思维链有本质区别。传统方法让模型直接输出”我应该做什么”,而 System II 让模型回答”如果我做这个动作,接下来会发生什么”。这种从行动导向到状态预测导向的转变带来了两个关键优势。
第一个优势是路径比较能力。给定当前环境状态,System II 可以并行生成多个候选动作及其对应的下一状态预测。例如在网页搜索任务中,模型可以同时预测不同搜索关键词分别会返回什么结果,然后选择预期信息增益更大的那个。这种模拟能力让 Agent 具备了类似棋手”走一步看三步”的前瞻性。
第二个优势是无需额外训练世界模型。许多传统方法需要单独训练一个世界模型来预测状态转移,这增加了系统复杂度和训练成本。SR^2AM 直接利用预训练 LLM 的内在能力——大语言模型在预训练过程中已经学习到了大量关于物理世界和社会世界的知识,这些知识足以支撑基本的状态转移预测。
自我调节器:学会何时思考何时行动
System III 解决了一个长期困扰 Agent 设计的问题:如何在推理深度和计算效率之间找到最优平衡。
论文采用了两种数据收集策略来训练 System III。v0.1 版本通过提示多模块系统记录完整的决策轨迹,包括每个步骤是否调用规划、规划的深度以及最终结果。v1.0 版本则从预训练推理 LLM(如 o1/o3)的执行 trace 中重建结构化规划数据——这种方法更实用,可以直接利用现有高质量推理模型的数据进行蒸馏,无需额外标注成本。
强化学习训练后的 System III 展现出令人意外的行为模式:规划频率仅增长 2.0%,但平均规划深度增加了 22.8%。这意味着 Agent 没有学会”想得更多”,而是学会了”想得更深”——它不再在每个步骤都进行浅层思考,而是在真正需要的时候投入更深入的模拟推理。论文数据显示,SR^2AM-30B 在 GSM8K 数学基准上将 Token 消耗降低了 47.6%,在 MATH 基准上降低了 51.2%。
效率与性能的帕累托前沿上移
SR^2AM 最引人注目的成果是其在效率-性能权衡上的突破。SR^2AM-8B(80 亿参数)在数学和科学任务上达到了与 120B-355B 参数系统相当的水平,这意味着用不到十分之一的参数量实现了相近的推理质量。SR^2AM-30B则进一步达到与 685B-1T 参数系统相当的 Pass@1 准确率。
以网页搜索任务为例,传统方法需要消耗约 1,200 Token 来完成一次多步搜索,SR^2AM-30B 仅需约 400 Token——Token 减少 66.7%。在更复杂的科学推理任务中,Token 节省比例甚至达到 95.3%。
与 ALAR 的互补关系
SR^2AM 与之前讨论的 ALAR(自适应潜在推理)都关注 Agent 推理效率,但设计哲学不同。ALAR采用单一模型内部的双模式切换——在简单步骤使用紧凑的潜在表示,在困难步骤升级到显式思维链。这种设计的优势是架构轻量、训练简便;缺点是在极端复杂任务上可能缺乏足够的模拟深度。
SR^2AM则通过三个独立系统的分工协作实现效率优化。每个系统有独立的参数和优化目标,通过强化学习协调三者行为。这种设计的优势是模块化程度高、推理深度更强;缺点是系统间通信开销较大,训练协调机制更复杂。
两者的核心差异可以概括为:ALAR 解决”想多深”的问题(自适应推理深度),SR^2AM 解决”怎么想”的问题(模拟规划 vs 直接执行)。在实际应用中两者并非互斥——可以将 SR^2AM 的三系统架构与 ALAR 的双模式切换结合使用,实现更细粒度的效率优化。