亚利桑那州立大学与亚利桑那大学合作的一篇论文《LedgerAgent: Structured State for Policy-Adherent Tool-Calling Agents》,提出了一种推理时方法解决工具调用智能体中任务状态隐式编码在提示词中的根本问题。传统智能体的观察结果、工具返回和政策指令全部放在提示词中,导致两种常见故障:智能体检索到正确事实但后续基于过时信息做决策,或语法上有效的工具调用违反依赖当前状态的领域策略。论文通过类型化账本与政策门控器两个确定性组件实现零额外token开销的状态一致性保障。
账本状态与政策门控器的协同机制
LedgerAgent的核心架构由两个确定性组件构成。类型化账本将成功读取的工具返回存储为结构化键值映射,键是schema路径集合(如user、orders.、products.),值为工具返回的实际数据。账本遵循observe-not-assume规则:写操作后必须通过读调用观察新状态。
政策门控器在环境变更工具调用执行前运行确定性谓词检查。各领域的策略谓词数量为:Airline 10个、Retail 12个、Telecom 6个,总计28个。门控器的三种输出结果分别是允许执行、移除并返回反馈让模型修正、以及阻止并拒绝调用。
智能体循环流程:接收消息后追加到历史,工具返回通过Absorb更新账本,Render将账本渲染为提示词中的状态块供模型查询,Generate生成响应或工具调用,若提议环境变更则由GateFilter执行策略检查。每轮仅一次base-model生成。
跨模型实验结果:零开销下的性能提升
论文在四个客户服务领域共298个任务上进行了系统评估,覆盖六种开闭源模型。在零售领域(114个任务),GPT-5.2的Pass^1从61.0%提升至76.5%,提升幅度达15.5个百分点;GPT-4.1的提升为12.2个百分点。MiniMax M2.5在零售领域增幅最大,Pass^1从33.6%跃升至58.1%。Kimi-K2.5的平均Pass^1提升为+3.4分。
与IRMA的对比凸显了LedgerAgent的效率优势。LedgerAgent的Pass^1达到27.2%、Pass^4达到17.1%,而IRMA分别为23.4%和9.6%。关键差异在于token开销:LedgerAgent为0%,IRMA高达53.1%。这直接回应了第72篇论文揭示的成本痛点——零额外开销下实现更高任务完成率。
错误分析显示,70.3%的失败属于遗漏必需动作类别,20.4%为参数错误。LedgerAgent减少的是状态不一致导致的特定类型错误,不解决模型本身的任务规划缺陷。
局限性与未来方向
政策谓词的手动编写是当前方法的主要瓶颈。28个确定性谓词需要为每个领域单独编码,Telehealth领域甚至没有定义任何策略谓词——这意味着该方法对缺乏明确规则的场景不适用。账本构建的可靠性也依赖于智能体的工具调用行为:如果模型未能正确调用读取工具,账本就是空的或不完整的。
论文标注为Work in Progress状态,代码仓库未公开,可复现性存疑。实验范围仅限于客户服务领域的四个domain,用户模拟器固定为GPT-5-mini可能引入模拟偏差。未来方向集中在策略谓词的自动化生成——从自然语言政策自动编译为确定性谓词。