一分钟读论文：《LedgerAgent：面向策略遵循的工具调用智能体的结构化状态管理》

By Unbug Follow Jun 21, 2026 · 1 min read

一分钟读论文：《LedgerAgent：面向策略遵循的工具调用智能体的结构化状态管理》

账本状态与政策门控器的协同机制

LedgerAgent的核心架构由两个确定性组件构成。类型化账本将成功读取的工具返回存储为结构化键值映射，键是schema路径集合（如user、orders.、products.），值为工具返回的实际数据。账本遵循observe-not-assume规则：写操作后必须通过读调用观察新状态。

政策门控器在环境变更工具调用执行前运行确定性谓词检查。各领域的策略谓词数量为：Airline 10个、Retail 12个、Telecom 6个，总计28个。门控器的三种输出结果分别是允许执行、移除并返回反馈让模型修正、以及阻止并拒绝调用。

智能体循环流程：接收消息后追加到历史，工具返回通过Absorb更新账本，Render将账本渲染为提示词中的状态块供模型查询，Generate生成响应或工具调用，若提议环境变更则由GateFilter执行策略检查。每轮仅一次base-model生成。

LedgerAgent架构

跨模型实验结果：零开销下的性能提升

论文在四个客户服务领域共298个任务上进行了系统评估，覆盖六种开闭源模型。在零售领域（114个任务），GPT-5.2的Pass^1从61.0%提升至76.5%，提升幅度达15.5个百分点；GPT-4.1的提升为12.2个百分点。MiniMax M2.5在零售领域增幅最大，Pass^1从33.6%跃升至58.1%。Kimi-K2.5的平均Pass^1提升为+3.4分。

与IRMA的对比凸显了LedgerAgent的效率优势。LedgerAgent的Pass^1达到27.2%、Pass^4达到17.1%，而IRMA分别为23.4%和9.6%。关键差异在于token开销：LedgerAgent为0%，IRMA高达53.1%。这直接回应了第72篇论文揭示的成本痛点——零额外开销下实现更高任务完成率。

错误分析显示，70.3%的失败属于遗漏必需动作类别，20.4%为参数错误。LedgerAgent减少的是状态不一致导致的特定类型错误，不解决模型本身的任务规划缺陷。