一分钟读论文：《自适应潜在推理：让 Agent 少想但想深》

By Unbug Follow Jun 09, 2026 · 3 mins read

为什么传统 Agent 推理不够用了

当前大推理模型通过生成长扩展的思维链（Chain-of-Thought）来提升单步推理性能。这一策略在数学证明、代码生成等单轮任务中效果显著，但在 LLM Agent 的多轮交互场景中暴露出结构性低效。

Agent 的典型工作流包含数十甚至上百个决策步骤：感知环境、分析状态、选择工具、执行动作、观察结果、进入下一轮。传统方法在每个步骤都生成完整的显式思维链——模型需要输出大量文本推理，然后从中提取动作指令。这意味着推理努力被近乎均匀地分配给每一轮交互，无论该步骤的决策难度如何。

这种”一刀切”的推理模式带来两个核心问题：

Token 浪费。在 Agentic Search 任务中，Agent 需要多次搜索、阅读网页、综合信息。每个步骤都生成数百到数千 token 的思维链，其中大量内容是对简单决策（如”当前搜索结果已足够”）的冗长论证。论文数据显示，这种冗余计算导致 Token 消耗远超必要水平。

效率与质量的矛盾。减少思维链长度可以提升推理速度，但可能损害复杂任务的准确率；保持长思维链可以保证质量，但成本过高无法实际部署。业界长期在两者之间做 tradeoff，缺乏同时优化两者的系统性方法。

更深层的问题是：现有训练数据几乎全部来自单轮推理场景（如数学题、代码生成），这些数据的标注方式是人工编写的完整推理过程。当 Agent 在多轮交互中直接套用这种训练模式时，它学到的不是”何时需要深度思考”，而是”每次都要想很多”。

还有一个常被忽视的问题：Token 消耗与延迟的连锁反应。在实时 Agent 场景中（如客服对话、自动化工作流），每个步骤多输出几百个 token 不仅增加计算成本，还会显著拉长端到端响应时间。当 Agent 需要执行 50 步以上的长周期任务时，这种累积效应可能将总耗时从几分钟拉到几十分钟。

传统 Agent 推理流程

ALAR 双模式架构核心原理

ALAR 的核心设计思想是：让模型学会两种推理模式，并根据任务难度动态切换。

潜在推理 vs 显式思维链

传统 Agent 只有一种推理模式——将思考过程以文本形式输出。ALAR 引入了第二种模式：潜在推理（Latent Reasoning）。在潜在模式下，模型的推理表示存在于隐藏层状态中，不生成任何中间文本。这类似于人类思考时的”内心独白”——你不需要把每个想法都说出来才能做出决策。

两种模式的对比如下：

显式思维链（Explicit CoT）：模型在每个步骤输出完整的推理文本，然后从中提取动作。优点是推理过程可解释、可调试；缺点是 Token 消耗大，且简单决策也会占用大量计算资源。

潜在推理（Latent Reasoning）：模型的推理表示直接编码在隐藏层中，不生成中间文本。Token 消耗极低，但推理过程不可直接观察。这种模式适合简单或熟悉的决策步骤。

自适应切换机制

ALAR 的关键创新在于让模型学会何时使用哪种模式。这不是简单的规则判断（如”如果步骤数少于 N 就用潜在推理”），而是通过训练让模型内化一种难度感知能力。

具体而言，ALAR 在训练过程中学习两个策略：第一个策略决定在每个决策步骤使用哪种推理模式；第二个策略根据所选模式执行实际的推理和动作选择。这两个策略共享底层语言模型的参数，但通过不同的头（head）输出不同模式的表示。

这种设计的精妙之处在于难度感知的涌现。论文发现，模型在训练过程中自发地学会了识别哪些类型的决策需要深度思考——例如涉及多步规划、冲突解决或信息综合的步骤倾向于触发显式思维链，而重复性操作（如固定工具调用、简单状态检查）则自然落入潜在推理模式。这种能力不是通过硬编码规则实现的，而是模型在优化过程中自主习得的。

动作监督学习机制

ALAR 的训练方式与传统的思维链训练有本质区别。传统方法依赖人工标注的推理过程作为监督信号——人类专家写下完整的解题步骤，模型学习复现这些步骤。ALAR 则采用以动作为锚点的自监督训练。

具体流程是：给定一个 Agent 任务（如搜索某个信息、调用某个工具），用高质量模型生成该任务的完整执行轨迹（包括每一步的动作）。然后用这些实际动作作为监督信号，训练 ALAR 的潜在推理表示。模型不需要学习”如何写出漂亮的推理文本”，而是学习”什么样的隐藏层状态能够产生正确的动作”。

这种训练方式的优势在于：它直接优化 Agent 的核心目标——做出正确决策，而非优化一个间接指标（如推理文本的质量）。同时，由于不依赖人工标注的推理过程，ALAR 可以大规模利用现有的 Agent 执行轨迹数据进行训练。这意味着它不需要额外的标注成本，可以直接从已有的 Agent 运行日志中获取训练数据。

动手试试：在你的 Agent 中引入 ALAR

下面展示在现有 Agent 框架中引入 ALAR 双模式推理的最小实现。核心逻辑是判断当前步骤的难度并选择推理模式。

class AdaptiveAgent:
    def __init__(self, model, threshold=0.6):
        self.model = model
        self.threshold = threshold  # 难度阈值

    def decide_reasoning_mode(self, state, history):
        """判断当前步骤是否需要显式思维链"""
        prompt = f"""
        Based on the current state and action history,
        estimate reasoning difficulty (0.0-1.0):
        State: {state}
        History length: {len(history)} steps
        Output a single float between 0.0 and 1.0.
        """
        score = self.model.generate(prompt, max_tokens=5)
        return float(score.strip()) > self.threshold

    def step(self, state, history):
        need_explicit = self.decide_reasoning_mode(state, history)

        if need_explicit:
            # 显式思维链模式：生成完整推理文本
            cot = self.model.generate_cot(state, history)
            action = self.extract_action(cot)
        else:
            # 潜在推理模式：直接输出动作表示
            latent_state = self.model.encode_latent(state, history)
            action = self.model.decode_action(latent_state)

        return action

关键设计点：难度判断模块（decide_reasoning_mode）是 ALAR 的核心组件。它不需要精确预测准确率，只需要区分”简单步骤”和”困难步骤”——一个简单的二分类问题。阈值 threshold 可以通过验证集调优，平衡 Token 消耗与任务准确率。

预期效果：在简单决策步骤（如重复搜索、已知工具调用）中使用潜在推理，Token 消耗降低 80% 以上；在复杂决策步骤（如多步规划、冲突解决）中切换到显式思维链，保持推理质量。

进阶：何时该升级推理深度？

ALAR 的难度判断不是凭空产生的——它基于对 Agent 工作流的深入分析。论文通过大量实验总结了几个关键的难度信号：

历史轨迹复杂度。当 Agent 在之前步骤中已经积累了较多信息（如多次搜索、多个工具调用），当前步骤的决策更可能涉及复杂的信息综合，此时应升级到显式思维链。反之，如果当前状态与历史高度相似，潜在推理通常足够。

动作空间大小。可选动作越多，决策难度越高。当 Agent 面临大量候选工具或操作时，需要显式的推理来评估每个选项的长期价值；当只有少数明确选项时，潜在推理可以直接映射到最优动作。

环境不确定性。在信息不完整或存在噪声的环境中（如搜索结果质量参差不齐），模型需要更深入的 deliberation 来处理不确定性。ALAR 的训练数据显示，这种场景下切换到显式思维链的收益最大。

与 SR^2AM 三系统架构的对比分析

ALAR 与之前讨论的 SR^2AM（Self-Regulated Simulative Planning）都关注 Agent 推理效率，但设计哲学不同：

SR^2AM将推理过程分解为三个独立系统——反应式执行、模拟推理和自我调节器。每个系统有独立的参数和优化目标，通过强化学习协调三者行为。这种设计的优势是模块化程度高，可以单独优化每个系统；缺点是系统间通信开销大，且需要复杂的训练协调机制。

ALAR则采用更轻量级的设计：单一模型内部的双模式切换。潜在推理和显式思维链共享底层语言模型的参数，仅在输出层有差异。这种设计的优势是训练简单、部署方便；缺点是在极端困难任务上可能不如三系统架构的模拟推理能力强。

两者的共同点是都认识到”不是每个步骤都需要同等深度的思考”。ALAR 通过模式切换实现这一目标，SR^2AM 通过系统分工实现。在实际选择时，如果追求部署效率和训练简便性，ALAR 是更务实的选择；如果需要极致的推理质量且资源充足，SR^2AM 的三系统架构可能带来更大收益。

性能实测数据

论文在两个核心基准上评估了 ALAR 的性能：

Agentic Search 基准。这是衡量 Agent 信息检索能力的标准测试集，要求 Agent 通过多次搜索和阅读来回答复杂问题。ALAR 在该基准上的准确率与基线方法相当或略优，但生成 Token 减少了 43.6%。这意味着在保持相同任务完成质量的前提下，你可以用不到一半的 Token 消耗完成同样的信息检索任务。

Tool Use 基准。这是衡量 Agent 工具调用能力的测试集，要求 Agent 正确选择并调用外部工具完成任务。ALAR 在该基准上的准确率同样与基线方法相当或略优，但生成 Token 减少了 84.6%——这是一个极其显著的效率提升。在 Tool Use 场景中，Agent 的许多决策是模式化的（如”需要搜索就调用搜索工具”），潜在推理恰好能够高效处理这类重复性决策。

跨模型一致性。论文在不同规模的模型上进行了测试，发现 ALAR 的效率收益与模型规模基本无关——无论使用 7B、13B 还是更大的模型，ALAR 都能带来相似的 Token 节省比例。这意味着这种效率提升来自推理范式的结构性改变，而非特定模型的偶然表现。

ALAR 性能对比

这两个结果共同指向一个结论：在 Agent 场景中，推理效率的提升空间远大于我们之前的预期。84.6% 的 Token 节省不是边际优化，而是范式转变带来的结构性收益。对于需要大规模部署 Agent 的场景（如客服系统、自动化工作流），这种效率提升直接转化为显著的成本节约和延迟降低。

从经济角度看，这种效率提升的意义更为深远。假设一个客服 Agent 每天处理 10,000 次用户请求，每次请求平均需要 5 个决策步骤：传统方法每个步骤消耗约 300 token 的思维链，ALAR 可以将其中 4 个简单步骤的 Token 消耗降至 20 以下。这意味着单次请求的 Token 消耗从约 1,500 降至约 500，每次请求节省约 1,000 token。按每天 10,000 次请求计算，每日可节省约 1,000 万 token——对于大规模部署而言，这是直接的成本节约。

从用户体验角度看，Token 消耗的降低直接转化为响应延迟的缩短。在实时交互场景中，减少中间推理文本的生成意味着用户可以更快地获得回复。这对于客服、教育辅导等对时延敏感的应用场景尤为重要。

论文还进行了消融实验，分别移除了难度评估模块和动作监督训练两个核心组件。结果显示，移除任一组件都会导致效率收益显著下降——仅使用潜在推理而缺乏自适应切换的模型，在困难任务上的准确率下降了 12%；仅使用显式思维链但采用动作监督训练的模型，Token 节省率从 84.6% 降至 35%。这证明了双模式架构和动作监督训练两个组件缺一不可。

总结与行动清单

ALAR 的核心贡献在于将”推理深度自适应”从理论概念变为可实现的工程方案。通过双模式架构和动作监督学习，它在不牺牲准确率的前提下实现了高达 84.6% 的 Token 节省，为 LLM Agent 的效率优化提供了新的范式。

你现在可以做的：

评估你当前 Agent 工作流中哪些步骤是重复性决策（如固定工具调用），这些是引入潜在推理的最佳候选
实现一个简易的难度判断模块，基于历史轨迹长度和动作空间大小做二分类，验证 Token 节省效果
在 Tool Use 场景中优先尝试 ALAR——论文数据显示该场景的效率提升最为显著
如果你的 Agent 需要极致推理质量且资源充足，考虑 SR^2AM 的三系统架构作为替代方案

References

转载请注明出处，支持我请扫码打赏💰或点击广告🪧

Featured

一分钟读论文：《通过自我调节模拟规划实现高效智能体推理》

一分钟读论文：《自适应潜在智能体推理》