ai, agent,

一分钟读论文:《LLM 工具使用的知识缺口诊断》

Unbug By Unbug Follow · 1 min read
一分钟读论文:《LLM 工具使用的知识缺口诊断》
Share this

美国伊利诺伊大学芝加哥分校的论文《Diagnosing Knowledge Gaps in LLM Tool Use: An Agentic Benchmark for Novel API Acquisition》,针对代码生成模型使用预训练数据中不存在的 API 时的知识缺失问题,提出 NovelAPIBench——一个全自动动态评估基准。

新颖 API 诊断框架

代码生成模型调用未见过的 API 时,需要协调签名、模块路径、输入输出契约、语义和可执行使用模式等多个知识组件。NovelAPIBench 将 API 知识分解为独立可注入的知识包,构建自动化诊断循环。

该基准覆盖约 1.9K 个任务,跨越四个基础模型和五个领域。每个任务包含目标 API 的签名、机制说明、使用示例和源码片段。模型在仅获得部分知识包的情况下尝试生成代码,系统自动评估失败原因并归类到六个诊断维度:签名错误、机制误解、示例缺失、路径错误、契约混淆和模式偏差。

检索与微调的互补关系

论文通过对比知识注入(检索)与知识内化(微调)两条路径,揭示了关键发现。

知识组件不可互换。使用示例是最强的独立信号,能显著提升模型在未见 API 上的代码生成准确率。最优的双组件组合取决于具体领域和骨干模型:在某些领域,签名与机制的组合效果最佳;在另一些领域,签名与示例的组合更优。

更多上下文不一定更好。增加源码片段反而因导入路径错误增加而降低性能,表明模型处理外部知识时存在信息过载问题。

检索与微调互补而非替代。微调主要教会模型如何使用已提供的知识包,而非真正记忆 API 内容。参数化适应不会替代检索的作用:检索提供易变的 API 内容,微调改进程序化整合能力。这一发现对构建代码 Agent 的知识管理策略具有直接指导价值。

诊断类别的实证分布

六个诊断类别在失败样本中的分布揭示了模型在工具使用中的系统性弱点。签名错误和导入路径错误是最常见的失败类型,表明模型对 API 元信息的记忆和推理能力薄弱。机制误解和契约混淆次之,反映模型对 API 语义和行为约束的理解不足。示例缺失导致的失败在高复杂度 API 上尤为突出。

References


Related
Featured