一分钟读论文：《重新思考还是延长预算？面向推理预算的选择性验证》

By Unbug Follow Jun 21, 2026 · 1 min read

始终验证的代价

推理时额外推理并非均匀有价值——它可以修复失败的尝试、在已正确答案上浪费计算量、或引入有害的答案变更（right-to-wrong 翻转）。论文的核心观察是：当系统盲目地对每个答案都执行验证时，它实际上在为不确定的问题支付确定性的成本。

在 CommonsenseQA 基准测试中，始终验证策略将准确率从 76.49% 降至 72.32%，降幅达 4.17 个百分点。Self-Consistency@5 以约五倍的 Token 成本换取了有限的准确率提升。这一结果直接挑战了一个根深蒂固的工程直觉：多跑几轮、多验证几次总能提高准确率。

论文同时指出，增加初始推理预算有时比任何事后恢复策略都更节省总 Token。这一发现与第 72 篇关于 Agent Token 消耗经济学的分析形成互补——#72 回答”Agent 花了多少 Token”，本文回答”Agent 的 Token 应该怎么花”。

SEVRA 架构与实证结果

SEVRA 的核心设计是将推理管线拆分为两个独立组件：冻结求解器和主动验证器。冻结求解器使用固定推理预算 B（例如 1024 tokens）生成初始答案 A_0，关键设计在于”冻结”——一旦完成推理，内部状态被锁定。如果允许验证器修改求解器的中间状态，就引入了递归的复杂性：验证器本身也需要被验证。

服务层控制器通过三个维度评估每个请求：质量分数（求解器对 A_0 的置信度）、翻转风险和剩余预算。基于这三个维度的组合，SEVRA 定义了五种决策路径：保留、验证、延长、重试和拒绝。

论文在三个基准测试集上进行了全面评估。MathFive基准上，SEVRA 达到 76.3% 准确率，比始终验证策略的 75.5% 高出 0.8 个百分点。有害翻转率从 2.2% 降至 1.0%，降幅达 55%。GSM基准的冻结迁移实验中，选择性策略仅对 3.0% 的样本执行验证，准确率从 93.4% 提升至 94.5%，验证 Token 减少 91.2%。Pareto 前沿分析显示，SEVRA 紧贴”准确率 vs Token 消耗”空间的前沿曲线。

部署规则与适用边界

论文提出了明确的部署指导：先调优初始预算，再使用选择性恢复。SEVRA 的核心假设是验证器比求解器更可靠——如果验证器准确率低于约 85%，选择性验证的收益会被验证器的错误所抵消。在预算极其充裕的环境中，直接增加初始推理预算可能是更简单的方案。对于答案空间高度结构化的任务（如代码生成、JSON 输出），轻量级的格式验证可能已足够。