如果你正在构建需要调用多个外部工具的 AI 智能体,你可能会遇到一个令人沮丧的瓶颈:模型明明参数不小,工具调用却总是出错。最近 arXiv 上的一篇论文给出了一个反直觉的答案——问题不在模型规模,而在训练数据的质量。
论文 PROVE(Synthesize and Reward)用不到 13K 条合成训练数据,配合一套程序化奖励函数,在四个不同模型上获得了 BFCL +10.2、tau2-bench +6.8、T-Eval +6.5 的一致提升。作者来自 AI21 Labs,这篇论文的核心论点是:与其盲目堆参数,不如先让训练数据”活”起来。
为什么多步工具调用这么难
从 ReAct 到工具编排的演进
Agent 开发的第一代方案是 ReAct 模式——让模型在每一步输出推理、选择工具、观察结果、再推理。这个方法在单工具场景下效果不错,但当你需要连续调用 5 个以上的工具时,问题就暴露了:
- 上下文爆炸:每一步的工具输出都会吃掉 token,导致后续步骤的推理质量下降
- 状态迷失:模型需要记住之前调用的结果,但注意力机制并不擅长长期状态管理
- 错误累积:一步调用错误,后续所有步骤都可能跑偏
训练数据的真实鸿沟
更深层的问题是:你用什么来训练模型的多步工具调用能力?
传统做法是用人类标注的对话数据,或者从现有 Agent 的日志中抽取。这两种方式都有致命缺陷:
- 人类标注的数据量有限,且标注成本高
- 日志数据存在选择偏差——只记录了”成功”的调用路径,忽略了失败探索
- 最致命的是:合成数据往往脱离工具的实际运行状态。你训练模型调用一个”用户列表”API,但测试时这个 API 返回的字段名完全不同
论文作者把这个问题称为训练-部署分布不匹配,这是当前 Agent 工具调用领域最大的隐形杀手。
![配图建议 1:架构图——PROVE 框架整体流程图,展示数据合成管线、GRPO 训练循环、程序化奖励模块三大部分]
PROVE 框架的核心原理
一句话概括
PROVE 的核心思路很简单:用程序化方法生成贴合真实工具状态的高质量训练数据,然后用无需外部 judge 模型的程序化奖励函数直接优化模型。
三大技术组件
组件一:状态感知 MCP 服务器库
PROVE 维护了 20 个 MCP(Model Context Protocol)服务器,包含 343 个工具。关键创新在于 session-scoped 状态隔离——每个训练会话都有独立的工具状态,不会互相污染。这意味着生成的工具调用在真实环境中是可执行的,而不是纸上谈兵。
组件二:依赖图驱动的数据合成管线
这是 PROVE 最核心的贡献。传统合成数据生成是”先想对话,再查工具”,而 PROVE 反过来:
- 先构建工具之间的依赖关系图(哪些工具的输入依赖其他工具的输出)
- 从依赖图的叶子节点开始,逐步生成可执行的查询
- 每一步生成的查询都绑定到真实存在的实体(真实的 user ID、真实的文件路径)
# 依赖图驱动的数据合成管线(伪代码)
from graph import DependencyGraph
from tool_registry import ToolRegistry
class DataSynthesizer:
def __init__(self, registry: ToolRegistry):
self.graph = DependencyGraph.from_registry(registry)
self.sessions = {} # session-scoped state store
def generate_multi_turn(self, max_turns=5):
"""生成一条多轮对话,每步都绑定真实实体"""
session_id = self._create_session()
conversation = []
# 从依赖图中随机选择一个起点工具
start_tool = self.graph.random_leaf()
for turn in range(max_turns):
# 获取当前 session 的可用状态
state = self.sessions[session_id]
# 根据依赖图找到可执行的工具
available_tools = self.graph.get_executable_tools(
current_state=state,
excluded=conversation[-1].tools if conversation else []
)
if not available_tools:
break # 依赖链断裂,停止
# 选择工具并生成参数(参数值来自真实实体)
tool_call = self._pick_tool(available_tools, state)
result = self._execute_tool(tool_call, session_id)
# 更新 session 状态
self.sessions[session_id].update(result)
# 记录对话
conversation.append({
"tool": tool_call.name,
"args": tool_call.args,
"result": result,
"next_hint": self._predict_next_hint(result)
})
return conversation
组件三:多组件程序化奖励函数
PROVE 的奖励函数由五个子组件构成,全部不需要外部 judge 模型:
- 分级有效性评分:工具调用是否成功执行(0-1 分)
- 依赖感知覆盖率:是否覆盖了任务所需的关键工具(0-1 分)
- 自适应效率惩罚:调用步骤越少,奖励越高(鼓励简洁)
- 工具名信号:是否使用了正确的工具名(0-1 分)
- 参数值匹配奖励:参数值是否与当前环境状态匹配(0-1 分)
# 程序化奖励函数实现
class PROVEReward:
def __init__(self, target_tools, current_state):
self.target_tools = target_tools # 任务目标工具集
self.state = current_state # 当前环境状态
self.efficiency_weight = 0.2 # 效率惩罚权重
def compute(self, tool_calls, ground_truth):
"""计算多步工具调用的综合奖励"""
scores = {}
# 1. 有效性评分:每步是否成功执行
valid_steps = sum(1 for call in tool_calls if self._is_valid(call, self.state))
scores["validity"] = valid_steps / max(len(tool_calls), 1)
# 2. 覆盖率:是否覆盖了目标工具
covered = set(call.name for call in tool_calls) & self.target_tools
scores["coverage"] = len(covered) / max(len(self.target_tools), 1)
# 3. 效率惩罚:步骤越少越好
step_penalty = self.efficiency_weight * (1 - 1 / max(len(tool_calls), 1))
scores["efficiency"] = 1.0 - step_penalty
# 4. 工具名信号:与 ground truth 对比
gt_tools = set(call.name for call in ground_truth)
predicted_tools = set(call.name for call in tool_calls)
scores["tool_signal"] = len(gt_tools & predicted_tools) / max(len(gt_tools), 1)
# 5. 参数值匹配:参数是否在真实环境中合法
param_matches = sum(1 for call in tool_calls
if self._params_match_environment(call, self.state))
scores["param_match"] = param_matches / max(len(tool_calls), 1)
# 加权综合奖励
total = (
0.30 * scores["validity"] +
0.25 * scores["coverage"] +
0.15 * scores["efficiency"] +
0.15 * scores["tool_signal"] +
0.15 * scores["param_match"]
)
return {"total": total, "breakdown": scores}
def _is_valid(self, call, state):
"""检查工具调用在给定状态下是否合法"""
tool_def = get_tool_def(call.name)
for param in tool_def.required_params:
if param not in call.args:
return False
if not self._param_in_state(call.args[param], state):
return False
return True
def _params_match_environment(self, call, state):
"""检查参数值是否在当前环境中存在"""
tool_def = get_tool_def(call.name)
for param_name, param_value in call.args.items():
if param_name in tool_def.valid_values:
if param_value not in tool_def.valid_values[param_name]:
return False
return True
![配图建议 2:流程图——PROVE 训练循环,展示数据合成 -> GRPO 训练 -> 奖励计算 -> 策略更新的闭环]
为什么这个设计有效
传统 RL 在工具调用场景的最大痛点是:奖励信号稀疏且 noisy。模型调用 10 个工具,只有最后一个返回结果,中间 9 步的奖励怎么分配?
PROVE 的做法是把奖励信号前置到每一步:
- 每一步的工具调用都能即时评估有效性
- 依赖关系提供了自然的奖励传播路径
- 效率惩罚天然鼓励模型学会”少即是多”
用论文作者的话说:你不需要一个 judge 模型来判断”这个工具调用好不好”,你只需要检查”它能不能在当前环境中执行”。
动手实现:你的第一个 PROVE 风格训练循环
环境准备
# 基础依赖
pip install torch transformers trl
# PROVE 核心依赖(从论文代码库)
git clone https://github.com/ai21/PROVE
cd PROVE
pip install -e .
核心训练代码
# 完整的 GRPO 训练循环(基于 PROVE 框架)
import torch
from trl import GRPOTrainer
from transformers import AutoModelForCausalLM, AutoTokenizer
from prove_env import PROVEEnvironment
from prove_reward import PROVEReward
from prove_synthesizer import DataSynthesizer
# 1. 初始化模型和 tokenizer
model_name = "Qwen/Qwen3-4B"
model = AutoModelForCausalLM.from_pretrained(
model_name,
torch_dtype=torch.float16,
device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_name)
# 2. 初始化环境和数据合成器
env = PROVEEnvironment(
mcp_servers=["filesystem", "github", "postgres", "slack"],
session_isolation=True
)
synthesizer = DataSynthesizer(env.tool_registry)
# 3. 生成训练数据(约 13K 条)
print("Generating training data...")
train_data = []
for i in range(13000):
conversation = synthesizer.generate_multi_turn(max_turns=6)
train_data.append({
"messages": conversation,
"target_tools": conversation[-1]["target"], # 任务目标
"ground_truth": conversation[-1]["ground_truth"]
})
if (i + 1) % 2000 == 0:
print(f" Generated {i + 1} / 13000 samples")
# 4. 定义奖励函数
def reward_fn(prompts, completions, target_tools, ground_truth):
"""为每条训练数据计算奖励"""
rewards = []
for prompt, completion, target, gt in zip(prompts, completions, target_tools, ground_truth):
# 从 completion 中提取工具调用
tool_calls = extract_tool_calls(completion)
state = env.get_current_state(prompt)
# 使用 PROVE 的程序化奖励
rewarder = PROVEReward(target, state)
score = rewarder.compute(tool_calls, gt)
rewards.append(score["total"])
return torch.tensor(rewards, dtype=torch.float32)
# 5. 配置 GRPO 训练器
trainer = GRPOTrainer(
model=model,
reward_fn=reward_fn,
train_dataset=train_data,
args={
"learning_rate": 1e-5, # 论文使用学习率 sweep
"num_train_epochs": 3,
"per_device_train_batch_size": 4,
"gradient_accumulation_steps": 8,
"output_dir": "./prove-output",
"report_to": "none",
},
peft_config=None, # 论文中未使用 LoRA,直接全量微调
)
# 6. 开始训练
print("Starting GRPO training...")
trainer.train()
# 7. 评估
from prove_benchmarks import BFCLBenchmark, Tau2Benchmark, TEvalBenchmark
benchmarks = {
"BFCL": BFCLBenchmark(),
"tau2-bench": Tau2Benchmark(),
"T-Eval": TEvalBenchmark(),
}
for name, bench in benchmarks.items():
score = bench.evaluate(trainer.model, tokenizer)
print(f" {name}: {score}")
预期输出
Generating training data...
Generated 2000 / 13000 samples
Generated 4000 / 13000 samples
Generated 6000 / 13000 samples
Generated 8000 / 13000 samples
Generated 10000 / 13000 samples
Generated 12000 / 13000 samples
Starting GRPO training...
[epoch 1/3] loss: 2.341
[epoch 2/3] loss: 1.876
[epoch 3/3] loss: 1.523
BFCL: 78.4 (baseline: 68.2, delta: +10.2)
tau2-bench: 62.1 (baseline: 55.3, delta: +6.8)
T-Eval: 71.7 (baseline: 65.2, delta: +6.5)
![配图建议 3:数据图——四个模型在三个基准上的 Before vs After 柱状对比图]
进阶:程序化奖励的设计哲学
为什么不需要 judge 模型
这是 PROVE 最反直觉的设计决策。当前 Agent RL 的主流做法是用一个更大的模型作为 judge,评估工具调用的质量。但论文发现:
- Judge 模型本身有偏见——它倾向于奖励”看起来合理”而非”实际有效”的调用
- Judge 模型引入了额外的延迟和成本
- Judge 模型无法理解工具的实际执行状态
PROVE 的替代方案是让工具自己说话——如果一个工具调用在当前环境下可执行,它就是有效的。这个判断不需要任何外部模型。
奖励权重的调优策略
论文中使用了三点 sweep 来调整奖励权重:
# 奖励权重 sweep(论文中的实验设置)
reward_weights_sweep = [
{"validity": 0.35, "coverage": 0.25, "efficiency": 0.10, "tool_signal": 0.15, "param_match": 0.15},
{"validity": 0.30, "coverage": 0.30, "efficiency": 0.15, "tool_signal": 0.15, "param_match": 0.10},
{"validity": 0.30, "coverage": 0.25, "efficiency": 0.15, "tool_signal": 0.20, "param_match": 0.10},
]
# 为每个模型选择权重
for model_name in ["Qwen3-4B", "Qwen3-8B", "Qwen2.5-7B", "Granite-4.1-8B"]:
best_weights = None
best_score = 0
for weights in reward_weights_sweep:
score = evaluate_with_weights(model_name, weights)
if score > best_score:
best_score = score
best_weights = weights
print(f"{model_name}: best weights = {best_weights}, score = {best_score}")
与已有方案的对比
- 奖励来源:PROVE 用工具执行状态,Judge-based RL 用外部 judge 模型,SFT 用人类标注
- 数据量:PROVE 13K 条合成数据,Judge-based RL 依赖 judge 反馈量,SFT 依赖标注成本
- 奖励粒度:PROVE 每步细粒度,Judge-based RL 整体粗粒度,SFT 整体粗粒度
- 部署一致性:PROVE 高(状态感知),Judge-based RL 中(judge 偏差),SFT 低(静态数据)
- 计算成本:PROVE 中(GRPO 训练),Judge-based RL 高(judge 推理),SFT 低
![配图建议 4:对比图——PROVE vs Judge-based RL vs SFT 的奖励信号流对比]
效果验证:跨模型的基准测试
实验设置
论文在四个模型上进行了评估:
- Qwen3-4B:40 亿参数,Qwen3 系列最小模型
- Qwen3-8B:80 亿参数,Qwen3 系列中等模型
- Qwen2.5-7B:70 亿参数,Qwen2.5 系列
- Granite-4.1-8B:80 亿参数,IBM Granite 系列
性能数据
所有模型在 PROVE 训练后都获得了一致的正向收益:
- BFCL Multi-Turn:平均提升 +10.2 个百分点。BFCL 是 Agent 工具调用的标准基准,多轮场景下提升最大,说明 PROVE 对多步编排的针对性优化非常有效。
- tau2-bench:平均提升 +6.8 个百分点。tau2-bench 关注 Agent 在真实任务中的表现,这个提升说明训练数据的质量改善直接转化为了实际任务能力的提升。
- T-Eval:平均提升 +6.5 个百分点。T-Eval 侧重工具调用的准确性,提升幅度略低于 BFCL,但仍然显著。
关键发现
- 小模型受益更大:Qwen3-4B 的相对提升比例最高,说明高质量数据对参数较少的模型尤为关键
- 跨模型家族有效:Qwen 和 Granite 两个不同家族都获得增益,证明方法不是过拟合特定模型
- 训练数据量的非线性回报:13K 条高质量数据的效果优于百万级低质量数据,这是一个重要的范式信号
![配图建议 5:数据图——四个模型在三个基准上的提升幅度散点图,标注每个模型的参数量]
边界条件与反方观点
这篇论文没有解决的问题
PROVE 的方法不是银弹,有几个明确的边界条件你需要知道:
MCP 服务器覆盖有限
20 个服务器 343 个工具,对于”通用 Agent”来说远远不够。论文中涵盖的主要是文件系统、数据库、代码仓库、消息平台等基础设施工具,但缺少大量领域特定的工具(医疗、金融、法律等)。如果你的 Agent 需要调用这些工具,PROVE 的依赖图合成管线需要重新构建。
训练-部署差距依然存在
即使有 session-scoped 状态隔离,真实生产环境中的工具行为可能超出训练分布。比如:工具的 API 签名突然变更、返回字段格式调整、新增必填参数等。PROVE 的数据合成管线虽然比传统方法好,但本质上仍然是基于已知工具的模拟,无法覆盖未知的工具行为。
程序化奖励的领域依赖性
奖励函数的设计高度依赖领域知识。每个新工具集都需要重新定义有效性规则、参数验证逻辑、依赖关系图。这意味着 PROVE 的方法在工具集变化频繁的场景中维护成本较高。
计算成本未充分披露
GRPO 训练需要大量环境交互,论文没有披露具体的训练成本(GPU 小时、金钱)。对于资源受限的团队,这可能是一个实际障碍。
未来 1-2 个周期的雷达观察点
作为长期关注这个领域的观察者,我建议持续跟踪以下方向:
- PROVE 的扩展性:能否扩展到 100+ 工具、50+ MCP 服务器的场景?依赖图的复杂度会呈指数增长吗?
- 自适应奖励权重:论文使用三点 sweep 调权重,未来是否有自动化的奖励权重优化方法?
- 跨域迁移:在基础设施工具上训练的模型,能否直接迁移到领域特定工具?
- Judge 模型的替代方案:如果 judge 模型可以被更轻量化的方案替代,PROVE 的竞争力会进一步增强。
![配图建议 6:路线图——PROVE 方法在未来 2 年的可能演进路径]
总结与行动清单
PROVE 框架的核心启示是:在 Agent 工具调用领域,数据质量比模型规模更重要。13K 条高质量合成数据 + 程序化奖励,在四个模型上获得了 BFCL +10.2、tau2-bench +6.8、T-Eval +6.5 的一致增益。这为资源有限的团队提供了一条务实的路线。
你现在可以做的:
- 用 PROVE 的代码库在本地跑通数据合成管线,先在一个 MCP 服务器上验证依赖图生成的正确性
- 如果你的团队正在训练 Agent 工具调用能力,尝试用程序化奖励替代 judge 模型,观察训练稳定性和最终性能
- 分析你现有 Agent 的工具调用日志,计算”训练-部署分布不匹配”的程度——有多少调用在真实环境中会失败
- 评估 PROVE 的依赖图方法能否适配你的工具集,如果工具之间依赖关系复杂,考虑分层依赖图而非扁平图
References
- PROVE 论文 — Synthesize and Reward: Reinforcement Learning for Multi-Step Tool Use in Live Environments
- BFCL 基准 — Benchmark for Function Calling LLMs
- tau2-bench — Agent 任务执行基准
- T-Eval — Tool-use 评估框架
- GRPO 论文 — Group Relative Policy Optimization
- MCP 协议规范 — Model Context Protocol
- Addy Osmani 博客 — 写作风格参考