弗吉尼亚理工大学的 Sajib Acharjee Dip、Dawei Zhou 和 Liqing Zhang 发表的论文《重新思考还是延长预算?面向推理预算的选择性验证》,揭示了推理时 Token 分配中的一个反直觉发现:始终验证初始答案不仅浪费计算资源,在某些场景下还会降低准确率。他们提出的 SEVRA(Selective Verification for Reasoning Allocation)框架将验证决策从固定策略升级为服务层控制器,在 MathFive 基准上达到 76.3% 的准确率,同时将有害翻转率从 2.2% 降至 1.0%,并减少 26.8% 的后生成 Token。
始终验证的代价
推理时额外推理并非均匀有价值——它可以修复失败的尝试、在已正确答案上浪费计算量、或引入有害的答案变更(right-to-wrong 翻转)。论文的核心观察是:当系统盲目地对每个答案都执行验证时,它实际上在为不确定的问题支付确定性的成本。
在 CommonsenseQA 基准测试中,始终验证策略将准确率从 76.49% 降至 72.32%,降幅达 4.17 个百分点。Self-Consistency@5 以约五倍的 Token 成本换取了有限的准确率提升。这一结果直接挑战了一个根深蒂固的工程直觉:多跑几轮、多验证几次总能提高准确率。
论文同时指出,增加初始推理预算有时比任何事后恢复策略都更节省总 Token。这一发现与第 72 篇关于 Agent Token 消耗经济学的分析形成互补——#72 回答”Agent 花了多少 Token”,本文回答”Agent 的 Token 应该怎么花”。
SEVRA 架构与实证结果
SEVRA 的核心设计是将推理管线拆分为两个独立组件:冻结求解器和主动验证器。冻结求解器使用固定推理预算 B(例如 1024 tokens)生成初始答案 A_0,关键设计在于”冻结”——一旦完成推理,内部状态被锁定。如果允许验证器修改求解器的中间状态,就引入了递归的复杂性:验证器本身也需要被验证。
服务层控制器通过三个维度评估每个请求:质量分数(求解器对 A_0 的置信度)、翻转风险和剩余预算。基于这三个维度的组合,SEVRA 定义了五种决策路径:保留、验证、延长、重试和拒绝。
论文在三个基准测试集上进行了全面评估。MathFive基准上,SEVRA 达到 76.3% 准确率,比始终验证策略的 75.5% 高出 0.8 个百分点。有害翻转率从 2.2% 降至 1.0%,降幅达 55%。GSM基准的冻结迁移实验中,选择性策略仅对 3.0% 的样本执行验证,准确率从 93.4% 提升至 94.5%,验证 Token 减少 91.2%。Pareto 前沿分析显示,SEVRA 紧贴”准确率 vs Token 消耗”空间的前沿曲线。
部署规则与适用边界
论文提出了明确的部署指导:先调优初始预算,再使用选择性恢复。SEVRA 的核心假设是验证器比求解器更可靠——如果验证器准确率低于约 85%,选择性验证的收益会被验证器的错误所抵消。在预算极其充裕的环境中,直接增加初始推理预算可能是更简单的方案。对于答案空间高度结构化的任务(如代码生成、JSON 输出),轻量级的格式验证可能已足够。