上海交通大学和上海创新研究院的论文《ARIS: Autonomous Research via Adversarial Multi-Agent Collaboration》,提出了一种面向自主机器学习研究的开源研究工具链。该系统通过跨模型对抗协作架构,实现了从研究问题到论文成稿的端到端自动化流程,GitHub仓库已获8300+星标。
跨模型对抗协作架构
传统单模型研究工具容易陷入自我强化的闭环:同一模型既是研究者又是评审者,对自身的输出缺乏批判性。ARIS的核心设计是将研究执行和批判评审角色分离给不同模型,形成对抗性协作。
执行模型(以Claude Code为代表)负责推进研究进展,包括文献调研、实验设计、代码实现和论文撰写。评审模型则来自不同模型家族,负责对中间产物进行结构化审查,提取可操作的修改项并请求进一步修改。这种角色分离确保研究过程始终受到外部视角的约束,避免研究者陷入确认偏误。
模型差异在此架构中不是缺陷而是优势。不同模型在推理方式、知识覆盖和批判风格上的互补,使得评审环节能够覆盖单模型难以察觉的漏洞。通过引入来自不同模型家族的评审者,ARIS避免了单模型自嗨的风险,确保研究结论的稳健性。研究者在实验过程中可以灵活切换评审模型,以获得多样化的批判视角。这种设计也降低了单一模型供应商锁定带来的风险。
轻量设计哲学
ARIS采用纯Markdown技能文件实现整个研究流水线,零框架依赖。系统包含31个SKILL.md文件,每个文件定义一个研究子任务的具体执行步骤,涵盖文献综述、实验设计、数据分析、论文撰写等完整环节,覆盖研究全流程。
这种设计带来两个关键优势。一是部署极简,无需安装额外依赖,clone仓库即可运行。二是可定制性强,研究者可以通过修改或替换SKILL.md文件快速适配不同研究场景,无需修改底层代码。31个技能文件覆盖了从选题到发表的完整研究周期。
自动评审循环机制
ARIS在每个研究轮次中嵌入自动评审循环。草稿完成后,系统将其提交给跨模型评审员进行结构化评分,评分维度包括方法论合理性、实验充分性、结论严谨性等。
评审模型提取可操作的修改项后,执行模型根据反馈修改受影响章节。系统同时检查收敛性指标,当评审评分达到阈值或修改项趋于稳定时,自动终止循环。这一机制避免了无限迭代带来的资源浪费。必要时,系统会运行GPU实验获取新证据以支持结论。整个评审循环以纯文本形式运行,不依赖任何专有API。