一分钟读论文：《当工具失败时：LLM智能体的动态重规划与异常恢复基准测试》

By Unbug Follow Jun 21, 2026 · 1 min read

二维基准设计：拓扑复杂度与扰动分类法

ToolMaze采用二维正交设计来系统刻画工具失败的复杂性。第一维是DAG拓扑复杂度，通过任务依赖图的节点数量和连接密度量化工具调用链长度。第二维是2x2工具扰动分类法，将失败类型按可观测性（显式/隐式）和持续性（瞬态/永久）交叉组合：显式瞬态表现为明确错误消息但可重试恢复；显式永久返回不可逆的错误信号；隐式瞬态不产生错误提示但输出偏离预期；隐式永久最为致命——既无错误提示也无有效输出，智能体无法感知异常已发生。

ToolMaze二维设计框架

关键发现：隐式语义失败最致命

实验覆盖六种开闭源模型，在多个DAG拓扑复杂度级别上评估扰动恢复率（PRR），揭示了三个反直觉的发现。

第一，隐式语义失败的恢复难度远超显式故障。 显式瞬态失败场景下智能体的PRR约为78%，明确的错误信号配合可重试机制能够有效引导重规划。但在隐式语义失败场景下，PRR暴跌约37个百分点至41%——智能体既无法感知异常已发生，也无法从输出中推断工具调用是否有效。

第二，复杂拓扑结构使智能体陷入无效试错循环。 随着DAG节点数量增加和连接密度提升，PRR的下降速度显著快于基本任务完成率的下降。在最高复杂度级别上，重规划尝试中超过60%未能产生有效进展——模型反复调用同一失败工具或进入等价替换的死循环。

第三，容错能力增长滞后于基本性能。 将模型规模从较小版本提升到最大版本时，基本任务完成率的增长幅度是扰动恢复率增长的3.66倍。单纯扩大模型参数并不能有效解决工具失败问题——动态重规划是一个独立的能力维度。

与智能体可靠性框架的互补关系

ToolMaze的研究发现与近期工作形成了完整的Agent可靠性链条。第75篇论文SEVRA关注”何时需要验证”，通过预算感知推理分配减少不必要的工具调用；第76篇论文LedgerAgent关注”状态如何管理”，通过结构化账本和政策门控器确保状态一致性。ToolMaze则回答了一个更基础的问题：当上述预防和管理机制都失效时，智能体能否从故障中恢复？

这一链条的逻辑递进是：SEVRA在调用前做预算决策以减少失败概率，LedgerAgent在执行中维护状态一致性以防止错误累积，ToolMaze则在两者均无法阻止失败后提供最后的容错保障。三个方向共同构成了”预防——管理——恢复”的完整可靠性框架。

ToolMaze的基准测试结果为这一框架提供了量化依据：在隐式语义失败场景下，即使有LedgerAgent的状态一致性保障，PRR仍会降至41%左右——账本无法修复一个从未被感知的错误。这为未来研究指明了方向：状态管理工具需要与异常检测机制深度耦合。