一分钟读论文：《基于对抗性多智能体协作的自主研究》

By Unbug Follow · 1 min read

跨模型对抗协作架构

传统单模型研究工具容易陷入自我强化的闭环：同一模型既是研究者又是评审者，对自身的输出缺乏批判性。ARIS的核心设计是将研究执行和批判评审角色分离给不同模型，形成对抗性协作。

执行模型（以Claude Code为代表）负责推进研究进展，包括文献调研、实验设计、代码实现和论文撰写。评审模型则来自不同模型家族，负责对中间产物进行结构化审查，提取可操作的修改项并请求进一步修改。这种角色分离确保研究过程始终受到外部视角的约束，避免研究者陷入确认偏误。

模型差异在此架构中不是缺陷而是优势。不同模型在推理方式、知识覆盖和批判风格上的互补，使得评审环节能够覆盖单模型难以察觉的漏洞。通过引入来自不同模型家族的评审者，ARIS避免了单模型自嗨的风险，确保研究结论的稳健性。研究者在实验过程中可以灵活切换评审模型，以获得多样化的批判视角。这种设计也降低了单一模型供应商锁定带来的风险。

轻量设计哲学

ARIS采用纯Markdown技能文件实现整个研究流水线，零框架依赖。系统包含31个SKILL.md文件，每个文件定义一个研究子任务的具体执行步骤，涵盖文献综述、实验设计、数据分析、论文撰写等完整环节，覆盖研究全流程。

这种设计带来两个关键优势。一是部署极简，无需安装额外依赖，clone仓库即可运行。二是可定制性强，研究者可以通过修改或替换SKILL.md文件快速适配不同研究场景，无需修改底层代码。31个技能文件覆盖了从选题到发表的完整研究周期。

自动评审循环机制

ARIS在每个研究轮次中嵌入自动评审循环。草稿完成后，系统将其提交给跨模型评审员进行结构化评分，评分维度包括方法论合理性、实验充分性、结论严谨性等。

评审模型提取可操作的修改项后，执行模型根据反馈修改受影响章节。系统同时检查收敛性指标，当评审评分达到阈值或修改项趋于稳定时，自动终止循环。这一机制避免了无限迭代带来的资源浪费。必要时，系统会运行GPU实验获取新证据以支持结论。整个评审循环以纯文本形式运行，不依赖任何专有API。

References

转载请注明出处，支持我请扫码打赏💰或点击广告🪧

一分钟读论文：《基于对抗性多智能体协作的自主研究》

跨模型对抗协作架构

轻量设计哲学

自动评审循环机制

References

Related

Featured

一分钟读论文：《Scratch Copilot：用 AI 支持青少年创意编程》推荐

一分钟读论文：《技术债的普遍性、原因和影响：业界系统调查》推荐

一分钟读论文：《玩转 GitHub 开源软件社区的必备技能树》推荐