一分钟读论文：《高质量合成数据让多步工具调用性能飙升 10%》

By Unbug Follow Jun 03, 2026 · 1 min read

为什么工具调用性能会在多步场景退化

当任务从单工具扩展到多工具链路时，常见系统会出现三个连锁问题：

上下文迅速膨胀，历史 observation 占据大量 token 预算。
中间状态缺乏结构化表达，模型难以维持长期依赖。
前置步骤错误无法被及时纠正，后续路径持续偏移。

因此，问题的核心不只是“模型会不会调用工具”，而是“工具状态能否在训练时被真实模拟并可验证执行”。

多步工具调用失败路径

PROVE 的三层设计

PROVE 把训练过程拆成三个明确层次：

状态感知工具层：基于 session 隔离维护可执行状态，避免样本之间互相污染。
依赖图驱动合成层：先构建工具依赖，再生成可落地查询，确保参数值来自真实实体。
程序化奖励层：不依赖外部 judge 模型，以“能否在当前环境执行”作为核心判断信号。

这个设计将“语义上看起来正确”替换为“在环境中真实可跑通”，显著降低奖励噪声。

奖励信号来源对比

最小实现片段

以下片段展示 PROVE 风格奖励的关键点：每一步调用都直接校验可执行性与覆盖率。

def compute_reward(tool_calls, target_tools, env_state):
    valid = sum(1 for c in tool_calls if is_executable(c, env_state))
    covered = len({c.name for c in tool_calls} & set(target_tools))

    validity = valid / max(len(tool_calls), 1)
    coverage = covered / max(len(target_tools), 1)
    efficiency = 1 - 0.2 * (1 - 1 / max(len(tool_calls), 1))

    return 0.5 * validity + 0.3 * coverage + 0.2 * efficiency