一分钟读论文：《自动合成多智能体漏洞发现方案》

By Unbug Follow Apr 29, 2026 · 1 min read

AgentFlow框架

AgentFlow的核心是一个类型化图领域特定语言（DSL），其搜索空间同时覆盖智能体角色、提示词、工具、通信拓扑和协调协议。与传统手动设计harness不同，AgentFlow将harness设计视为一个可搜索、可优化的问题。

框架包含三个核心组件：Proposer根据当前harness的失败模式生成新的图结构变体；Execute-Observe-Score组件执行候选harness并收集运行时信号；Diagnoser读取目标程序的运行时信号（如sanitizer输出、覆盖率数据），诊断harness中导致失败的具体部分。

类型化约束确保生成的harness在结构上是合法的：每个节点必须对应有效的智能体角色，每条边必须定义合法的通信通道，每个反馈通道必须与目标程序的信号类型匹配。

反馈驱动的自动优化

AgentFlow的反馈驱动外层循环是其关键创新。传统harness优化器仅依赖粗粒度的通过/失败信号，无法诊断失败原因。AgentFlow从目标程序本身读取运行时信号，精确定位harness中的失败环节。

优化过程迭代进行：Proposer生成候选harness，Execute-Observe-Score执行并评分，Diagnoser分析失败模式，反馈信号指导下一轮搜索。这种闭环优化使AgentFlow能够在复杂的设计空间中高效探索。

实际安全影响

论文在两个场景上评估了AgentFlow：

TerminalBench-2：使用Claude Opus 4.6，AgentFlow达到84.3%的成绩，为公开leaderboard最高分
Google Chrome：使用Kimi K2.5，AgentFlow自动合成了针对Chrome的漏洞发现harness，发现10个未知零日漏洞，包括2个Critical级别的沙箱逃逸漏洞（CVE-2026-5280和CVE-2026-6297）

这两个Critical CVE的发现证明了自动合成harness的实际安全价值——自动生成的多智能体协作方案能够发现人类审计师和传统模糊测试工具遗漏的深层安全问题。