ai, agent,

一分钟读论文:《自适应潜在智能体推理》

Unbug By Unbug Follow Jun 10, 2026 · 1 min read
一分钟读论文:《自适应潜在智能体推理》
Share this

康奈尔大学、UC Davis 和 UC Riverside 研究者的论文《Adaptive Latent Agentic Reasoning》,提出了一种双模式推理框架,让智能体在常规决策步使用紧凑的潜在推理、在困难决策时切换到显式思维链,工具使用场景下 Token 节省率高达 84.6%

大型推理模型通过生成长链思维链(CoT)来提升性能,但这一行为在 LLM 智能体中变得低效。当前智能体在每个决策步都生成冗长的文本推理,将推理资源近乎均匀地分配到每一轮交互中,导致多轮轨迹中存在大量不必要的计算浪费。

问题:推理资源的非均衡分配

在多轮智能体交互中,不同决策步的认知需求差异显著。一次典型的搜索任务包含 1020 个决策步——从理解查询、选择工具、解析结果到最终回答。其中大部分步骤是常规操作(如格式化的工具调用),只有少数步骤需要深度推理。

传统方法对所有决策步一视同仁,每个步骤都生成完整的 CoT,在简单步骤上造成严重的 Token 浪费。

ALAR 的双模式机制

ALAR 的核心设计是逐决策步的动态自适应切换。智能体在每个决策步自主判断使用哪种推理模式:

紧凑潜在推理(Compact Latent Reasoning)用于常规步骤。模型在隐空间中完成推理,不生成可见的文本输出,Token 消耗极低。

显式思维链(Explicit Chain-of-Thought)在需要深度推理时启用,当智能体判断当前决策步存在歧义或涉及复杂逻辑时自动切换。

关键创新在于训练方式:ALAR 使用智能体的实际动作作为监督锚点来学习潜在推理,同时通过优化策略让模型学会在何时使用潜在推理足以完成任务成功、何时必须保留显式 CoT。这与 SR^2AM(文章 #63)形成明确差异——SR^2AM 采用三系统架构进行静态分配,而 ALAR 是逐决策步动态自适应切换。

![配图建议:双模式推理流程示意图]

实验结果

在智能体搜索和工具使用基准测试上,ALAR 保持了可比甚至更优的任务准确率,同时大幅减少了生成的 Token 数量。搜索任务中 Token 减少最高达 43.6%,工具使用场景中高达 84.6%。效率提升幅度与任务的推理需求分布直接相关。

实际意义与局限

实际影响主要体现在三个方面:成本降低,在工具使用场景中接近五倍的运行成本下降;延迟优化,潜在推理不生成可见文本输出,缩短了每步决策的响应时间;可扩展性提升,更低的 Token 消耗使得智能体能够在相同预算下执行更多轮次的交互。

同时需要注意局限:潜在推理的可解释性低于显式 CoT,在需要审计的场景中可能需要额外的监控机制。

References


Related
Featured