一分钟读论文：《自适应潜在推理：让 Agent 少想但想深》

By Unbug Follow Jun 10, 2026 · 5 mins read

为什么传统 Agent 推理不够用了

当前大推理模型通过生成长扩展的思维链（Chain-of-Thought）来提升单步推理性能。这一策略在数学证明、代码生成等单轮任务中效果显著，但在 LLM Agent 的多轮交互场景中暴露出结构性低效。

Agent 的典型工作流包含数十甚至上百个决策步骤：感知环境、分析状态、选择工具、执行动作、观察结果、进入下一轮。传统方法在每个步骤都生成完整的显式思维链——模型需要输出大量文本推理，然后从中提取动作指令。这意味着推理努力被近乎均匀地分配给每一轮交互，无论该步骤的决策难度如何。

这种”一刀切”的推理模式带来两个核心问题：

Token 浪费。在 Agentic Search 任务中，Agent 需要多次搜索、阅读网页、综合信息。每个步骤都生成数百到数千 token 的思维链，其中大量内容是对简单决策（如”当前搜索结果已足够”）的冗长论证。论文数据显示，这种冗余计算导致 Token 消耗远超必要水平。

效率与质量的矛盾。减少思维链长度可以提升推理速度，但可能损害复杂任务的准确率；保持长思维链可以保证质量，但成本过高无法实际部署。业界长期在两者之间做 tradeoff，缺乏同时优化两者的系统性方法。

更深层的问题是：现有训练数据几乎全部来自单轮推理场景（如数学题、代码生成），这些数据的标注方式是人工编写的完整推理过程。当 Agent 在多轮交互中直接套用这种训练模式时，它学到的不是”何时需要深度思考”，而是”每次都要想很多”。

还有一个常被忽视的问题：Token 消耗与延迟的连锁反应。在实时 Agent 场景中（如客服对话、自动化工作流），每个步骤多输出几百个 token 不仅增加计算成本，还会显著拉长端到端响应时间。当 Agent 需要执行 50 步以上的长周期任务时，这种累积效应可能将总耗时从几分钟拉到几十分钟。

核心判断：传统 Agent 推理的低效不是模型能力不足，而是推理资源分配策略的结构性缺陷——它把深度思考均匀撒在每一个步骤上，而不是按需投放。

ALAR 双模式架构核心原理

ALAR 的核心设计思想是：让模型学会两种推理模式，并根据任务难度动态切换。

潜在推理 vs 显式思维链

传统 Agent 只有一种推理模式——将思考过程以文本形式输出。ALAR 引入了第二种模式：潜在推理（Latent Reasoning）。在潜在模式下，模型的推理表示存在于隐藏层状态中，不生成任何中间文本。这类似于人类思考时的”内心独白”——你不需要把每个想法都说出来才能做出决策。

显式思维链（Explicit CoT）：模型在每个步骤输出完整的推理文本，然后从中提取动作。优点是推理过程可解释、可调试；缺点是 Token 消耗大，且简单决策也会占用大量计算资源。

潜在推理（Latent Reasoning）：模型的推理表示直接编码在隐藏层中，不生成中间文本。Token 消耗极低，但推理过程不可直接观察。这种模式适合简单或熟悉的决策步骤。

自适应切换机制

ALAR 的关键创新在于让模型学会何时使用哪种模式。这不是简单的规则判断（如”如果步骤数少于 N 就用潜在推理”），而是通过训练让模型内化一种难度感知能力。

具体而言，ALAR 在训练过程中学习两个策略：第一个策略决定在每个决策步骤使用哪种推理模式；第二个策略根据所选模式执行实际的推理和动作选择。这两个策略共享底层语言模型的参数，但通过不同的头（head）输出不同模式的表示。

这种设计的精妙之处在于难度感知的涌现。论文发现，模型在训练过程中自发地学会了识别哪些类型的决策需要深度思考——例如涉及多步规划、冲突解决或信息综合的步骤倾向于触发显式思维链，而重复性操作（如固定工具调用、简单状态检查）则自然落入潜在推理模式。这种能力不是通过硬编码规则实现的，而是模型在优化过程中自主习得的。

动作监督学习机制

ALAR 的训练方式与传统的思维链训练有本质区别。传统方法依赖人工标注的推理过程作为监督信号——人类专家写下完整的解题步骤，模型学习复现这些步骤。ALAR 则采用以动作为锚点的自监督训练。

具体流程是：给定一个 Agent 任务（如搜索某个信息、调用某个工具），用高质量模型生成该任务的完整执行轨迹（包括每一步的动作）。然后用这些实际动作作为监督信号，训练 ALAR 的潜在推理表示。模型不需要学习”如何写出漂亮的推理文本”，而是学习”什么样的隐藏层状态能够产生正确的动作”。

这种训练方式的优势在于：它直接优化 Agent 的核心目标——做出正确决策，而非优化一个间接指标（如推理文本的质量）。同时，由于不依赖人工标注的推理过程，ALAR 可以大规模利用现有的 Agent 执行轨迹数据进行训练。这意味着它不需要额外的标注成本，可以直接从已有的 Agent 运行日志中获取训练数据。

动手试试：在你的 Agent 中引入 ALAR

下面展示在现有 Agent 框架中引入 ALAR 双模式推理的核心实现。关键不在于难度判断的简单阈值——而在于策略网络如何学习难度信号、如何在两种模式间切换，以及动作监督训练的具体流程。

class LatentPolicyNetwork(nn.Module):
    """ALAR 策略网络：输出推理模式选择 + 动作分布"""

    def __init__(self, hidden_dim=768, action_vocab_size=1024):
        super().__init__()
        self.backbone = get_base_model()  # 共享底层 LLM
        # 模式选择头：输出 latent / explicit 二分类 logits
        self.mode_head = nn.Linear(hidden_dim, 2)
        # 动作头（潜在模式）：直接从隐藏状态映射到动作分布
        self.action_head_latent = nn.Sequential(
            nn.Linear(hidden_dim, hidden_dim),
            nn.ReLU(),
            nn.Linear(hidden_dim, action_vocab_size)
        )
        # 动作头（显式模式）：从 CoT 文本中提取动作
        self.action_head_explicit = ActionExtractor()

    def forward(self, state_input):
        """前向传播：返回模式 logits + 两种模式的动作表示"""
        hidden = self.backbone(state_input)
        mode_logits = self.mode_head(hidden[:, -1])  # [batch, 2]
        latent_action_dist = self.action_head_latent(hidden[:, -1])
        return mode_logits, latent_action_dist


class AdaptiveAgent:
    """自适应 Agent：基于策略网络的双模式推理"""

    def __init__(self, policy_net, temperature=0.7):
        self.policy_net = policy_net
        self.temperature = temperature

    @torch.no_grad()
    def step(self, state, history):
        """单步决策：策略网络自动选择推理模式"""
        # 构建状态输入（当前状态 + 历史摘要）
        state_input = self._build_state_input(state, history)

        # 策略网络输出：模式 logits + 潜在动作分布
        mode_logits, latent_action_dist = self.policy_net(state_input)

        # 采样推理模式（训练时带温度，推理时可设为 greedy）
        mode_probs = F.softmax(mode_logits / self.temperature, dim=-1)
        use_explicit = torch.argmax(mode_probs).item() == 1

        if use_explicit:
            # 显式思维链：生成完整推理文本后提取动作
            cot_text = self._generate_cot(state_input)
            action = self.policy_net.action_head_explicit(cot_text)
        else:
            # 潜在推理：直接从隐藏状态解码动作
            latent_probs = F.softmax(latent_action_dist / self.temperature, dim=-1)
            action = torch.argmax(latent_probs).item()

        return action, use_explicit

    def train_step(self, state_input, ground_truth_action):
        """训练步骤：联合优化模式选择和动作预测"""
        mode_logits, latent_action_dist = self.policy_net(state_input)

        # 损失函数 = 模式选择 loss + 动作预测 loss
        mode_loss = F.cross_entropy(mode_logits, self._compute_mode_label(ground_truth_action))
        action_loss = F.cross_entropy(latent_action_dist, ground_truth_action)

        total_loss = mode_loss + 0.5 * action_loss  # 权重可调
        return total_loss, mode_loss.item(), action_loss.item()

关键设计点：

策略网络的双头结构。mode_head 输出推理模式的选择 logits，action_head_latent 直接从隐藏状态映射到动作分布。两个头共享底层 LLM 的隐藏表示，但各自独立优化——这确保了模式选择和动作预测可以分别收敛。

训练时的联合损失函数。总损失由两部分组成：模式选择交叉熵（让模型学会何时切换到显式推理）和动作预测交叉熵（确保潜在推理能产生正确动作）。论文中动作损失的权重设为 0.5，这个比例可以通过验证集调优。

推理时的温度控制。训练时使用较高的 temperature（如 0.7）鼓励探索不同的推理模式；部署时可以降低到 0.1 或设为 greedy decoding，让模型更稳定地选择它认为最优的模式。

何时该升级推理深度？

ALAR 的难度判断不是凭空产生的——它基于对 Agent 工作流的深入分析。论文通过大量实验总结了几个关键的难度信号：

历史轨迹复杂度。当 Agent 在之前步骤中已经积累了较多信息（如多次搜索、多个工具调用），当前步骤的决策更可能涉及复杂的信息综合，此时应升级到显式思维链。反之，如果当前状态与历史高度相似，潜在推理通常足够。

动作空间大小。可选动作越多，决策难度越高。当 Agent 面临大量候选工具或操作时，需要显式的推理来评估每个选项的长期价值；当只有少数明确选项时，潜在推理可以直接映射到最优动作。

环境不确定性。在信息不完整或存在噪声的环境中（如搜索结果质量参差不齐），模型需要更深入的 deliberation 来处理不确定性。ALAR 的训练数据显示，这种场景下切换到显式思维链的收益最大。

与 SR^2AM 三系统架构的对比分析

ALAR 与之前讨论的 SR^2AM（Self-Regulated Simulative Planning）都关注 Agent 推理效率，但设计哲学不同：

SR^2AM将推理过程分解为三个独立系统——反应式执行、模拟推理和自我调节器。每个系统有独立的参数和优化目标，通过强化学习协调三者行为。这种设计的优势是模块化程度高，可以单独优化每个系统；缺点是系统间通信开销大，且需要复杂的训练协调机制。

ALAR则采用更轻量级的设计：单一模型内部的双模式切换。潜在推理和显式思维链共享底层语言模型的参数，仅在输出层有差异。这种设计的优势是训练简单、部署方便；缺点是在极端困难任务上可能不如三系统架构的模拟推理能力强。

两者的共同点是都认识到”不是每个步骤都需要同等深度的思考”。ALAR 通过模式切换实现这一目标，SR^2AM 通过系统分工实现。在实际选择时，如果追求部署效率和训练简便性，ALAR 是更务实的选择；如果需要极致的推理质量且资源充足，SR^2AM 的三系统架构可能带来更大收益。

性能实测数据

论文在两个核心基准上评估了 ALAR 的性能：

Agentic Search 基准。这是衡量 Agent 信息检索能力的标准测试集，要求 Agent 通过多次搜索和阅读来回答复杂问题。ALAR 在该基准上的准确率与基线方法相当或略优，但生成 Token 减少了 43.6%。这意味着在保持相同任务完成质量的前提下，你可以用不到一半的 Token 消耗完成同样的信息检索任务。

Tool Use 基准。这是衡量 Agent 工具调用能力的测试集，要求 Agent 正确选择并调用外部工具完成任务。ALAR 在该基准上的准确率同样与基线方法相当或略优，但生成 Token 减少了 84.6%——这是一个极其显著的效率提升。在 Tool Use 场景中，Agent 的许多决策是模式化的（如”需要搜索就调用搜索工具”），潜在推理恰好能够高效处理这类重复性决策。

跨模型一致性。论文在不同规模的模型上进行了测试，发现 ALAR 的效率收益与模型规模基本无关——无论使用 7B、13B 还是更大的模型，ALAR 都能带来相似的 Token 节省比例。这意味着这种效率提升来自推理范式的结构性改变，而非特定模型的偶然表现。

这两个结果共同指向一个结论：在 Agent 场景中，推理效率的提升空间远大于我们之前的预期。84.6% 的 Token 节省不是边际优化，而是范式转变带来的结构性收益。对于需要大规模部署 Agent 的场景（如客服系统、自动化工作流），这种效率提升直接转化为显著的成本节约和延迟降低。

从经济角度看，这种效率提升的意义更为深远。假设一个客服 Agent 每天处理 10,000 次用户请求，每次请求平均需要 5 个决策步骤：传统方法每个步骤消耗约 300 token 的思维链，ALAR 可以将其中 4 个简单步骤的 Token 消耗降至 20 以下。这意味着单次请求的 Token 消耗从约 1,500 降至约 500，每次请求节省约 1,000 token。按每天 10,000 次请求计算，每日可节省约 1,000 万 token——对于大规模部署而言，这是直接的成本节约。

从用户体验角度看，Token 消耗的降低直接转化为响应延迟的缩短。在实时交互场景中，减少中间推理文本的生成意味着用户可以更快地获得回复。这对于客服、教育辅导等对时延敏感的应用场景尤为重要。

论文还进行了消融实验，分别移除了难度评估模块和动作监督训练两个核心组件。结果显示，移除任一组件都会导致效率收益显著下降——仅使用潜在推理而缺乏自适应切换的模型，在困难任务上的准确率下降了 12%；仅使用显式思维链但采用动作监督训练的模型，Token 节省率从 84.6% 降至 35%。这证明了双模式架构和动作监督训练两个组件缺一不可。

反方观点：ALAR 的边界条件与局限性

任何技术框架都有其适用边界。在拥抱 ALAR 之前，你需要清楚它在哪些场景下可能失效，以及何时应该选择其他方案。

潜在推理的”黑箱”风险。当模型使用潜在推理模式时，推理过程完全隐藏在隐藏层状态中，不可直接观察和调试。这意味着：如果你发现 Agent 在某一步做出了错误决策，你无法像显式思维链那样通过阅读推理文本来定位问题根源。对于需要高可解释性的场景（如医疗诊断、金融风控），这种黑箱特性可能成为部署障碍。

难度判断的校准难题。ALAR 的核心——策略网络——需要在训练阶段学会准确的难度评估。但如果训练数据分布与部署环境不一致，模型可能会频繁误判：在简单步骤上过度使用显式推理（浪费 Token），或在困难步骤上过早切换到潜在模式（降低准确率）。论文中提到的”仅使用潜在推理而缺乏自适应切换的模型在困难任务上准确率下降 12%”正是这一风险的体现。

极端复杂任务的天花板。ALAR 的双模式架构在面对需要多步深度规划的任务时存在天然局限。例如，一个需要同时协调 5 个以上工具、涉及跨域信息综合的 Agent 任务，仅靠”潜在 vs 显式”的二元切换可能不够——此时 SR^2AM 的三系统架构（反应式 + 模拟推理 + 自我调节）可能提供更细粒度的控制。

训练数据依赖。ALAR 的动作监督学习依赖于高质量的 Agent 执行轨迹数据。如果你的场景缺乏足够的历史运行日志，或者你的 Agent 工作流非常独特、没有现成的轨迹数据可供参考，那么训练一个有效的策略网络将变得困难。在这种情况下，基于规则的难度判断（如基于步骤数或动作空间大小）可能是一个更务实的起点。

与 SR^2AM 的选择指南。如果你的场景满足以下条件，优先选择 ALAR：

Agent 工作流以工具调用和状态检查为主，复杂规划较少
部署环境对成本和延迟敏感
团队规模较小，难以维护多系统协调机制

如果满足以下任一条件，考虑 SR^2AM 或其他三系统方案：

任务涉及深度模拟推理（如”如果这样做会怎样”的多步预演）
需要极高的决策可解释性
有充足的训练数据和计算资源来训练多个独立系统

未来雷达观察点

ALAR 代表了 Agent 推理效率优化的一个重要方向，但这一领域仍在快速演进。以下是未来 1-2 个周期内值得持续关注的信号：

潜在推理的可解释性突破。当前 ALAR 的最大短板是潜在模式的黑箱特性。如果未来出现能够在不牺牲效率的前提下提供”可解释的潜在表示”的技术（如通过注意力可视化或隐空间探针来揭示隐藏层中的推理路径），那么 ALAR 在医疗、金融等高可信场景中的部署障碍将被大幅降低。

多模态自适应推理。目前的 ALAR 主要处理文本和工具调用场景。随着多模态 Agent 的兴起，潜在推理是否会扩展到视觉、音频等其他模态？例如，一个视觉 Agent 是否可以在简单图像识别步骤中使用潜在表示，而在需要复杂场景理解时切换到显式推理？这是值得观察的方向。

与强化学习的深度融合。ALAR 目前主要依赖监督学习训练策略网络。如果将 PPO 或 DPO 等偏好优化方法引入模式选择过程——让模型不仅学会”何时切换”，还学会”如何根据用户反馈调整推理深度”——可能会产生更智能的自适应行为。

开源框架的支持度。目前 ALAR 的实现主要停留在论文层面。未来 1-2 个周期内，如果主流 Agent 框架（如 LangChain、LlamaIndex、AutoGen）原生支持双模式推理接口，将大幅降低实际部署门槛。关注这些项目的 issue tracker 和 roadmap 是跟踪这一趋势的实用方式。

总结与行动清单

ALAR 的核心贡献在于将”推理深度自适应”从理论概念变为可实现的工程方案。通过策略网络驱动的双模式切换和动作监督学习，它在不牺牲准确率的前提下实现了高达 84.6% 的 Token 节省，为 LLM Agent 的效率优化提供了新的范式。

你现在可以做的：

评估你当前 Agent 工作流中哪些步骤是重复性决策（如固定工具调用、简单状态检查），这些是引入潜在推理的最佳候选场景
实现一个简易的难度判断模块，基于历史轨迹长度和动作空间大小做二分类，在 Tool Use 场景中优先验证 Token 节省效果
如果你的 Agent 需要极致推理质量且资源充足，同时任务涉及深度模拟推理，考虑 SR^2AM 的三系统架构作为替代方案
关注主流 Agent 框架（LangChain、LlamaIndex）是否原生支持双模式推理接口——这将大幅降低部署门槛

References

转载请注明出处，支持我请扫码打赏💰或点击广告🪧

Featured

一分钟读论文：《自适应潜在智能体推理》

一分钟读论文：《干预支持的静默失败错误归因》