可复现性:AI治理的新前沿
核心发现
一篇来自ICML 2026的论文“Reproducibility: The New Frontier in AI Governance”尖锐地指出:AI研究的可复现性危机正在严重削弱政策制定者的治理能力。
关键数据
- AI论文增长率:2019-2024年间,信息与计算机科学领域论文增长72%,是所有学科中最快的
- 经济学可复现率:顶级期刊中只有不到一半的论文能够被成功复现
- 癌症生物学可复现率:只有2%的研究有开放数据,0%有完整的实验方案
- 心理学可复现率:只有36%的研究能够被成功复现,效应量平均只有原始研究的一半
历史教训:可复现性危机的代价
论文通过三个历史案例警示我们:
1. 经济学:”债务时代的增长”灾难
- 原始论文(2010):Reinhart & Rogoff声称”当外债达到GDP的60%时,经济增长下降约2%”
- 政策影响:这一结论被用来支持欧洲的紧缩政策,导致英国数万人超额死亡
- 复现结果(2014):Bell等人发现原始研究存在数据缺失和计算错误,重新分析后没有发现债务与增长之间的趋势
2. 癌症生物学:8年复现项目的惊人发现
- 项目规模:Center for Open Science用8年时间尝试复现53篇高影响力论文的193个实验
- 结果:只有50个实验能够被复现,效应量平均比原始研究小85%
- 代价:20种癌症药物中只有1种能够成功上市,造成巨大的经济和机会成本
3. 心理学:100篇论文的复现挑战
- 结果:只有36%的研究能够被成功复现
- 根源:发表压力导致研究者优先追求新颖性而非可复现性
AI领域的现状
论文指出AI研究正处于一个危险的十字路口:
- 发表速度:AI论文增长速度比其他领域快约50%
- 代码分享:虽然NeurIPS论文中提到GitHub的比例在增加,但仍有大量论文不提供代码
- 可复现性:ICML 2024的顶级论文中,只有24%能够被LLM复现,博士生复现率不到50%
最危险的是:在缺乏可复现性标准的情况下,行业参与者可能利用信息污染环境进行监管捕获,通过信息不对称 undermine AI治理和民主制度。
三大解决方案
论文提出三个核心的可复现性协议:
1. 预注册(Preregistration)
- 问题:后见之明偏差导致研究者将事后解释伪装成预测
- 解决方案:在实验前公开注册假设和实验方案
- 权衡:虽然会增加研究压力和项目时长,但整体上研究者推荐这一做法
2. 统计效能(Statistical Leverage)
- 优势:AI研究(除以人为中心的研究外)没有参与瓶颈,可以使用大量样本
- 现状:许多论文使用不同数量的样本或完全不报告样本量
- 建议:提供开放获取的计算资源,支持基于计算的实验的统计显著性
3. 负面结果报告(Negative Result Reporting)
- 问题:发表偏见导致只报告显著或正面结果
- 后果:AI研究者和治理专家对AI的局限性缺乏全面了解
- 希望:NeurIPS 2024的”Debunking Challenge”是一个积极的方向
治理意义
论文的核心论点是:提高AI研究的可复现性标准是赋予政策制定者执行有意义和有效治理机制的核心。
没有统一的行动来解决可复现性问题,AI可能传播的许多危害将成为现实。因此,科学家、政策制定者和政府的共同责任是将可复现性作为AI治理的新前沿来解决。
结论
这篇论文不仅仅是关于学术规范的讨论,更是关于AI治理基础设施的根本性思考。当AI正在重塑社会各个领域时,我们必须确保其研究基础是坚实的——否则,基于不可靠研究的政策可能会重蹈经济学紧缩政策的覆辙。
“提高AI的可复现性标准对于赋予政策制定者执行有意义和有效的治理机制至关重要。” —— Mason-Williams & Mason-Williams, 2026
论文链接:https://arxiv.org/abs/2510.11595 代码仓库:https://github.com/IFMW01/reproducibility-the-new-frontier-in-ai-governance