“我现在一天能完成过去三个月的工作!” 这是一位顶级研究机构学者的感慨。他说的是”vibe coding”——用自然语言与大语言模型交互,让 AI 写代码、测试、优化,速度远超人类。
但来自 SISSA 和帝国理工学院的 Roberto Trotta 却发出严厉警告:AI 在科学研究中的无节制使用,正在威胁学术存在的根本理由——为人类推进知识。
核心数据
论文揭示了多个令人警醒的趋势:
- 论文数量爆炸:NeurIPS 2020 到 2025 年,投稿量翻倍
- 评审系统崩溃:AAAI 2026 正在试点 AI 辅助评审来处理创纪录的 31,000 篇投稿
- 复现能力低下:最好的 AI 代理在天体物理学论文复现任务上得分不到 20%
- 认知能力下降:使用 LLM 辅助写作的参与者,神经连接和认知能力出现长期衰退
三个层面的风险
1. 科学质量的风险
- 衍生性工作:LLM 最终依赖训练数据中已有的概念,难以产生真正原创的科学思想
- 幻觉问题:即使最新版本的 LLM 仍然会编造内容
- 可解释性丧失:LLM 的”思维链”被证明只是事后 retrofit,不反映真实推理过程
- “AI 科学垃圾”:错误将越来越难以发现和纠正
2. 人类科学家的风险
- 科学敏锐度下降:将深度思考外包给 LLM 代理会削弱我们自己的科学能力
- 创造力受抑制:对比实验显示,使用 LLM 的被试在聚合思维和发散思维上都表现更差
- 下一代危机:如果学习像科学家一样思考的艰难过程被 chatbot 提示取代,研究生可能变成”提示工程师”
3. 系统性风险
- 经费结构变化:昂贵的博士奖学金可能迅速被更便宜的 API 额度取代
- 科学素养衰退:可能在数年内而非数十年内发生
- AI 军备竞赛:学生、科学家和机构可能都感到被困在这场竞赛中
争议与反思
诺贝尔得主 Venki Ramakrishnan 的话令人不寒而栗:”最终这些论文都将由 AI 代理撰写,然后另一个 AI 代理阅读、分析并为人类生成摘要。”
但作者并不反对 AI 本身——他承认 AI 在处理海量数据时将不可或缺。问题在于”无节制”的采用。
论文呼吁就 AI 驱动的研究展开一场包括科学家和人文学者在内的辩论,确保未来的科学保持其本质的人类品质。
这篇论文最深刻的警示是:我们不应该急于实现 Turing 在 1950 年的愿景——”机器最终将在所有纯智力领域与人类竞争”——因为这会破坏学术存在的根本理由:为人类推进知识、教育年轻心灵、增进我们对自身在世界中位置的理解。