title: “一分钟读论文:《自然语言摘要实现微服务多仓库 Bug 定位》” author: unbug categories: [AI, 软件工程] image: assets/images/arxiv-paper-microservice-bug.png tags: [featured, Bug定位, ICSE 2026, 微服务] date: 2026-02-28 00:00:00 +0800 —
一分钟读论文:自然语言摘要实现微服务多仓库 Bug 定位

📝 论文概览
论文标题:Natural Language Summarization Enables Multi-Repository Bug Localization by LLMs in Microservice Architectures
作者:Amirkia Rafiei Oskooei, S. Selcan Yukcu, Mehmet Cevheri Bozoglan, Mehmet S. Aktas(Yildiz Technical University、Intellica)
论文链接:https://arxiv.org/abs/2512.05908
会议:ICSE 2026(LLM4Code Workshop)
🎯 核心问题
微服务架构好是好,但调试起来太痛苦了!代码分散在几十个仓库里,Bug 报告是自然语言,代码是代码,中间有巨大的语义鸿沟。而且 LLM 上下文窗口有限,不可能把所有仓库都塞进去。
这篇论文就是解决这个问题的:用自然语言摘要来搞定微服务多仓库 Bug 定位!
🔬 核心技术
研究团队提出了一个聪明的方法:把问题重新定义为自然语言推理任务,而不是跨模态检索!
核心思路: 1️⃣ 分层摘要:在文件、目录、仓库三个层级构建上下文感知的摘要 2️⃣ 两阶段搜索:
- 第一阶段:把 Bug 报告路由到相关仓库
- 第二阶段:在相关仓库里自上而下定位
📊 核心发现
1️⃣ 企业级验证!超越 GitHub Copilot 和 Cursor!
- Pass@10:0.82
- MRR:0.50
- 在 DNEXT Technology 的企业级项目上验证
- 46 个仓库
- 110 万行代码!
2️⃣ 分层摘要的魔力
- 不是把代码直接丢给 LLM
- 而是先把代码转换成自然语言摘要
- 然后用 NL-to-NL 搜索,而不是跨模态检索
- 这样就避开了语义鸿沟问题!
3️⃣ 两阶段搜索很有效
- 先快速定位到正确的仓库
- 再在仓库里精细定位
- 既快又准!
📈 数据亮点
| 指标 | 数值 |
|---|---|
| 测试项目 | DNEXT Technology(企业级) |
| 仓库数量 | 46 个 |
| 代码行数 | 110 万行 |
| Pass@10 | 0.82 |
| MRR | 0.50 |
| 对比方法 | GitHub Copilot、Cursor |
| 会议 | ICSE 2026(LLM4Code Workshop) |
| arXiv | 2512.05908 |
💡 一句话总结
把微服务多仓库 Bug 定位转换成自然语言推理任务——通过分层摘要和两阶段搜索,在 46 个仓库、110 万行代码的企业级项目上超越了 GitHub Copilot 和 Cursor!
🎓 研究意义
这篇论文的创新之处在于:重新定义了问题——不是去搞复杂的跨模态检索,而是把代码都转成自然语言,然后用 NL-to-NL 搜索,简单有效!
🛠️ 给开发者的建议
- 微服务调试要有方法:不要瞎猜,用系统化的方法定位
- 摘要很有用:把代码转成自然语言摘要,可以避开很多问题
- 分层思考:先定位仓库,再定位文件,不要一口吃成胖子
- 企业级验证很重要:这篇论文用了真实的企业项目,说服力强
- ICSE 2026 值得关注:LLM4Code Workshop 有很多好论文!
一分钟读论文:《生成式AI在软件工程中的应用:变革软件开发流程》