一分钟读论文：《AutoResearchBench：评估AI智能体在科学文献发现中的能力》

By Unbug Follow · 1 min read

一分钟读论文：《AutoResearchBench：评估AI智能体在科学文献发现中的能力》

Deep Research 与 Wide Research 两种任务范式

AutoResearchBench的核心贡献在于将科学文献发现任务分解为两种可量化评估的范式。

Deep Research（深度研究）要求智能体从初始查询出发，通过多跳推理追踪线索，最终定位到单篇目标论文。这个过程模拟了研究人员在文献检索中的深度探索行为：从关键词出发，追踪引用关系，逐步缩小范围，最终锁定目标。每个查询都对应一篇唯一的黄金目标论文，评估指标包括是否找到目标论文以及搜索路径的跳数。

Wide Research（广度研究）要求智能体收集一组与查询相关的研究文献。与Deep Research不同，Wide Research不要求定位单篇特定论文，而是要求智能体在给定时间或搜索预算内，尽可能全面地覆盖相关研究。评估指标包括召回率和查准率，即智能体收集到的文献中有多少是真正相关的。

这两种任务范式的区分具有实际意义。Deep Research对应研究中的精准定位需求，Wide Research对应文献综述中的广度覆盖需求。两者共同构成了科学文献发现的完整能力谱系。

实验结果的主要发现

论文在真实科学文献库上评测了多种主流Agent框架，主要发现包括：

不同Agent在两种任务上表现差异显著。 Deep Research任务中，具备强多跳推理能力的Agent表现更好，而Wide Research任务中，具备高效搜索策略的Agent表现更优。这说明文献发现能力并非单一维度，不同Agent在不同任务上各有优势。

搜索策略对Wide Research的影响远大于Deep Research。 在Wide Research任务中，搜索策略的优化可以带来显著的召回率提升，而在Deep Research任务中，搜索策略的影响相对较小，多跳推理能力成为更关键的因素。

现有Agent在复杂文献发现任务上仍有较大提升空间。 即使是表现最好的Agent，在Deep Research任务上的成功率也未达到理想水平，Wide Research任务的查准率也有明显提升空间。这表明科学文献发现是一个尚未被充分解决的问题。

与自主科学发现系统的关联

AutoResearchBench的提出与Qiushi等自主科学发现系统的发展形成互补。Qiushi关注如何将AI用于科学发现的实践，AutoResearchBench则关注如何评估AI在科学文献发现中的能力。两者共同指向一个核心问题：AI智能体在科研流程中的角色定位和能力边界。

AutoResearchBench为评估AI智能体的文献发现能力提供了标准化的基准，这将有助于推动相关系统的持续改进。随着AI Agent在科研领域的应用不断深化，类似的评估框架将变得愈发重要。

References

转载请注明出处，支持我请扫码打赏💰或点击广告🪧

一分钟读论文：《AutoResearchBench：评估AI智能体在科学文献发现中的能力》

Deep Research 与 Wide Research 两种任务范式

实验结果的主要发现

与自主科学发现系统的关联

References

Related

Featured

一分钟读论文：《Scratch Copilot：用 AI 支持青少年创意编程》推荐

一分钟读论文：《技术债的普遍性、原因和影响：业界系统调查》推荐

一分钟读论文：《玩转 GitHub 开源软件社区的必备技能树》推荐