ai, 软件工程,

一分钟读论文：《基于代理的集成推理解决仓库级问题》

Unbug

By Unbug Follow Feb 27, 2026 · 1 min read

Share this

一分钟读论文：基于代理的集成推理解决仓库级问题

Trae Agent

📝 论文概览

论文标题：Agent-Based Ensemble Reasoning for Repository-Level Issue Resolution（Trae Agent）

作者：Zhao Tian, Pengfei Gao, Junjie Chen, Chao Peng（天津大学、字节跳动）

论文链接：https://arxiv.org/abs/2507.23370

会议：ICSE 2026

🎯 核心问题

仓库级问题解决太难了！候选补丁空间太大，而且需要理解整个仓库的上下文。现有的集成推理方法在大空间下性能下降，也缺乏仓库级理解能力。

这篇论文就是解决这个问题的：用多代理协作来探索巨大的候选空间！

🔬 核心技术

研究团队提出了 EnAgent（Trae Agent） 技术，包含三大核心代理：

1️⃣ 生成代理（Generator）：用多个 LLM 和随机采样生成多样化补丁 2️⃣ 修剪代理（Pruner）：快速过滤掉明显不对的补丁 3️⃣ 选择代理（Selector）：用仓库级上下文选择最优补丁

还有 测试时缩放策略——动态控制集成大小，实现成本-质量权衡。

📊 核心发现

1️⃣ SWE-bench Verified 第一名！🏆

Pass@1 78.80%（2026年1月排行榜第一名）
相比基线平均提升 10.22%
三个 LLM（GPT-4o、Claude 3.5 Sonnet、DeepSeek-Coder）都显著提升

2️⃣ 测试时缩放的魔力

集成大小增加时，性能单调提升
可以根据预算动态选择集成大小
实现成本和质量的灵活权衡

3️⃣ 仓库级理解的关键

通过迭代代理文件摄入、代码区域摘要、聚类实现
不是用图神经网络，而是用 LLM prompt 实现
SequentialThinkingTool 指导跨文件依赖探索

📈 数据亮点

指标	数值
SWE-bench Verified Pass@1	78.80%
相比基线平均提升	10.22%
测试的 LLM 数量	3 个（GPT-4o、Claude 3.5 Sonnet、DeepSeek-Coder）
对比基线数量	4 个
核心代理数量	3 个（生成、修剪、选择）
测试时缩放	支持动态调整集成大小
开源	✅ 已开源
排行榜	🏆 SWE-bench Verified 第一名

💡 一句话总结

用多代理协作探索巨大的候选补丁空间——通过生成、修剪、选择三大代理的模块化架构，在仓库级问题解决上取得 SOTA 成绩！

🎓 研究意义

这篇论文的创新之处在于：首次提出基于代理的集成推理框架，把问题建模为最优解搜索问题，用模块化代理解决了两大核心挑战。

🛠️ 给开发者的建议

集成推理很有用：多个模型/采样的组合往往比单模型更好
模块化设计：把任务拆分成生成、修剪、选择，每个部分专门优化
测试时缩放：可以根据预算动态调整集成大小
仓库级理解：不要只看单个文件，要理解整个仓库的上下文
开源真好：Trae Agent 已开源，可以直接用！

Releated

转载请注明出处，支持我请扫码打赏💰或点击广告🪧

微信打赏

支付宝打赏

一分钟读论文：《Google Nested Learning：破解 AI 灾难性遗忘的革命性范式》

一分钟读论文：《当 Many-Shot Prompting 失败时：LLM 代码翻译的实证研究》