一分钟读论文：《递归自改进警告：Anthropic 为何呼吁全球暂停 AI 研发》

By Unbug Follow Jun 20, 2026 · 2 mins read

一分钟读论文：《递归自改进警告：Anthropic 为何呼吁全球暂停 AI 研发》

Claude 的 52x 加速比意味着什么

Anthropic Institute 的文章提供了迄今为止最量化的证据，证明 AI 正在以指数级速度接管 AI 研发本身。核心数据来自一项名为 W2S（Weak-to-Strong）的研究项目——这是一个开放式的 AI 安全研究问题：较弱的模型能否可靠地监督较强的模型？

论文记录了两个关键实验组的表现对比。第一组由两名人类研究人员组成，他们在大约一周的时间内完成了这个任务，仅恢复了约 23% 的性能差距（即弱监督者与强模型之间的性能鸿沟）。第二组由 Claude-powered agents 组成，它们在 800 累计小时内恢复了 97% 的性能差距，且仅消耗了约 18,000 美元的算力成本。

[配图: W2S 研究中人类与 AI agent 的性能恢复对比柱状图]

这个 52x 的加速比并非来自某个单一指标的提升，而是多个维度的叠加效应。在代码生成方面，Anthropic CFO 公开估计超过 90% 的代码由 Claude 编写——包括脚本和实验性代码。GitHub 的数据提供了更宏观的背景：2025 年全年 GitHub 上约有 10 亿次代码提交，而到 2026 年中，这一数字已飙升至每周约 2.75 亿次，按此速度全年将达到约 140 亿次。

加速比的另一个维度体现在研究判断能力上。Anthropic 分析了 129 个真实 Claude Code 会话中的”偏离时刻”——即研究人员在开放式调查过程中选择了一个导致会话偏离正轨的方向。在这些场景中，研究者故意选择了有改进空间的决策路径，以便公平比较模型与人类的下一步判断力。

结果显示：Opus 4.5（2025 年 11 月）在这些场景中以 51% 的概率优于人类选择；而 Claude Mythos Preview（2026 年 4 月）则提升至 64%。这意味着在研究工作的日常决策链中——每一步都是”下一步做什么”的判断——AI 已经超越了人类的平均水平。

[配图: Opus 4.5 vs Mythos Preview 研究判断能力对比图]

这种加速比带来的直接后果是：Anthropic 内部的人均产出正在急剧膨胀。每个工程师或研究人员现在能够指挥的工作量远超以往，因为执行层面的工作（写代码、运行实验、生成结果）在人类时间成本上几乎趋近于零——尽管算力成本仍然存在。

但 Amdahl 定律在此刻显现了它的威力：加速一个环节往往会将瓶颈转移到另一个环节。Anthropic 已经遇到了这一现象的签名特征——随着组织内部代码流转量的激增，人工代码审查已成为新的瓶颈。当 Claude 生成代码的速度超过人类审查的速度时，AI 开发的整体节奏反而被卡住了。

递归自改进：从科幻到工程现实

递归自改进（RSI）的概念并非新概念。自 1965 年 I.J. Good 提出”智能机器可以被设计得比其设计师更聪明”以来，这一思想一直是 AI 安全领域的核心关切。但 Anthropic Institute 的文章首次将 RSI 从哲学讨论转化为可测量的工程现实。

文章提出了三个递进的能力层级，每一层都对应着不同的自主程度：

第一层是实验执行自动化。Claude-powered agents 已经能够独立完成完整的实验设计流程——提出假设、测试假设、与并行 agent 共享发现并迭代优化。在这个层级中，人类仍然设定研究方向和评分标准，但实验的每一个具体步骤都由 AI 完成。这是目前最接近现实的能力层级。

第二层是研究判断辅助。Claude Mythos Preview 在”下一步做什么”的判断任务上已经达到 64% 的胜率——超过人类研究者。这意味着 AI 不再仅仅是执行工具，而是开始具备研究品味（research taste）的雏形：知道哪些方向值得探索、哪些结果可信、何时应该放弃某个路径。

第三层是架构和训练流程自主改进。这是 Anthropic 明确指出的”接近阈值”的能力层级。如果技术趋势继续推进，AI 系统可能不仅执行实验和改进判断力，还能设计并优化自身的模型架构和训练流程。在这个层级中，AI 开发的速度将完全由算力可用性（或算法效率的提升速度）决定，人类的作用将大幅缩减为监督、验证和确认。

[配图: RSI 三阶段能力演进图]

Anthropic 在文章中坦承了一个令人不安的事实：即使 Claude 永远无法达到优秀的研究品味，保守解读现有证据仍然意味着复利式加速。如果人类将大部分时间花在方向设定这一占工作总量个位数百分比的任务上，而 Claude 处理其余部分——这意味着每个工程师或研究人员能够指挥的工作量呈指数级增长。

文章还提出了三种可能的未来场景：

场景一：趋势停滞但能力广泛扩散。 AI 发展曲线可能实际上是 S 型曲线——我们正接近拐点，规模效应的回报开始递减。区分优秀研究者和普通研究者的判断力可能是一种无法通过扩大训练输入（算力和数据）来获得的能力。即使模型能力冻结在当前水平，世界仍会发生重大变化：Anthropic 的 Project Glasswing 在最初几周就发现了超过一万种高危和严重级软件漏洞——网络安全防御的瓶颈已经从发现漏洞转移到了快速修补。

场景二：AI 实验室持续获得复利效率增益。 AI 开发变得高度自动化，但人类继续设定研究方向和评判结果。100 人的公司可能完成 10,000 人或 100,000 人组织的产出。这将彻底改变知识工作和政府服务，但也可能被用于有害目的——从对整个人口的极权监控到针对每个个体的定制化操纵行动。

场景三：AI 系统实现完整的递归自改进。 AI 系统不仅执行实验和改进判断力，还能设计并优化自身的模型架构和训练流程。在这个世界中，AI 开发的速度完全由算力可用性决定，人类的作用大幅缩减为监督、验证和确认。Anthropic 承认这是他们最不确定的场景——”我们对这个世界的外观没有好的直觉”。

Anthropic 的全球暂停呼吁：诚意还是策略？

在披露了 AI 正在加速自身进化的证据之后，Anthropic Institute 提出了一个出人意料的结论：如果能够有效减缓这项技术的发展速度以给自己更多时间应对其巨大影响，这很可能是好事。

但文章同时指出了协调减速的核心困境：如果减速仅仅让最不谨慎的行为者在技术上赶上领先者，那么每个人都会变得更不安全。在没有全球协调机制的情况下，公司和政府将不得不在竞争和地缘政治压力下做出艰难的安全决策。

Anthropic 提出的解决方案包含三个层次：

第一层是验证系统。 Anthropic Institute 将与多方合作开展研究，构建能够支持可信减速或暂停的系统。这些系统将使前沿 AI 开发者能够验证其他全球参与者是否真的停止或减缓了发展，并防止不良行为者利用协调减速的掩护秘密超越他人。

第二层是多国多实验室协议。 有意义的减速或暂停需要多个处于或接近前沿的、位于不同国家的资源充足的实验室在相同条件下同意停止。每个参与者必须能够验证其他人确实已经停止。由于 AI 系统的独特特性，这一军备控制问题的可检测性（低于可验证性的标准）比其他技术更具挑战性——训练运行比导弹发射井更容易隐藏，其输入是通用目的的，而秘密违约的激励极其巨大，因为谁在他人暂停时继续谁就能继承领先地位。

第三层是单边暂停作为起点。 Anthropic 承认，一个实验室的单边暂停在原则上是可以立即实现的，但实际效果有限：它只会改变谁是领先者，而无法创造当前缺失的更广泛的审议过程。

[配图: 全球 AI 协调减速机制框架图]

从策略角度分析，Anthropic 发出这一呼吁的时机值得玩味。文章发表于 Anthropic 即将 IPO（估值约 9650 亿美元）的关键节点。一方面，这可以被视为真诚的风险分析——作为即将成为公众公司的企业，Anthropic 有动力展示其对 AI 安全的负责任态度。另一方面，这也可能是一种策略性定位：通过倡导全球协调减速，Anthropic 可以利用其当前在技术上的领先地位建立行业壁垒，同时塑造有利于自身利益的监管框架。

文章作者 Marina Favaro 和 Jack Clark 在结尾处明确表示：”窗口期就在这里，AI 公司之外的人应该参与这一审议过程。”这种开放姿态与 Anthropic 一贯的透明化策略一致——通过公开讨论最坏场景来建立信任，同时推动符合其价值观的治理框架。

技术视角：RSI 的真正风险是什么

理解 RSI 的风险需要区分两个不同的问题：能力风险和对齐风险。

能力风险相对直观：如果 AI 系统能够递归地改进自身，那么进步速度将不再受人类研发能力的限制，而是由算力规模和算法效率决定。这种加速可能远超社会适应的速度——即使实验室层面的进步是可控的，其下游应用的影响可能是不可预测的。

对齐风险则更为复杂和危险。Anthropic 在文章中提出了三种可能的对齐轨迹：

轨迹一：模型足够对齐且具备研究品味。 AI 系统发现并实施了人类尚未达到的新颖解决方案，甚至可能”足够明智地”在不对齐时停止开发。这是最乐观的假设——AI 不仅有能力，而且有正确的价值观。

轨迹二：当前模型中罕见的不对齐现象在递归改进过程中被放大。 随着模型构建其继任者，不对齐现象可能变得越来越频繁但越来越难以理解，直到我们失去对它们的控制。这是 Anthropic 明确指出的最担忧的场景——”少数当前的不对齐可能在递归改进中被指数级放大”。

轨迹三：我们无法构建、集成和验证所需的工具。 即使我们知道需要什么样的监控和验证机制，我们也可能无法在 RSI 加速的时间尺度上实现它们。Anthropic 承认：”我们没有好的直觉来预测我们实际处于哪条趋势线上。”

[配图: RSI 对齐风险三种轨迹图]

一个常被忽视的技术细节是：RSI 的威胁不仅限于 AI 模型本身。一旦系统具备自动化 AI 研发的能力，这些技能将转移到其他科学领域——允许它们开始革命化其他学科。这意味着 RSI 的影响范围可能远超 AI 安全领域的传统关注点。

另一个技术挑战来自 Amdahl 定律的双重适用性：即使递归智能在实验室层面实现了指数级加速，现实世界的许多瓶颈（药物临床试验需要数十年观察、选举不能比宪法规定更快进行、人际关系不能在周末建立）仍然以人类时间尺度运行。这种”递归智能与人类世界之间的碰撞”——Anthropic 称之为”另一个我们无法预测的未来部分”——可能是 RSI 最深刻的技术悖论：实验室跑得越快，与社会节奏的脱节就越严重。

治理框架：如何设计”暂停机制”

如果 Anthropic 的呼吁是认真的，那么我们需要回答一个前所未有的问题：如何在没有中央权威的情况下协调全球 AI 研发？

文章提到了几个关键的设计原则：

可验证性（Verifiability）高于可检测性（Detectability）。 与核武器不同，AI 训练运行的输入是通用目的的——同一套算力可以用于无害的研究也可以用于危险的开发。这意味着简单的”检测是否在进行大规模训练”是不够的，我们需要能够验证”训练目标是什么”的机制。

触发条件和解除条件必须明确定义。 一个可信的暂停协议需要明确规定什么情况下触发暂停、什么条件下解除暂停、由谁来判断和裁决。这些规则必须在暂停发生之前就被各方同意——事后协商在竞争压力下几乎不可能达成共识。

多边参与是必要条件。 单一实验室的单边暂停虽然可以实现，但效果有限。有意义的协调减速需要多个处于或接近前沿的、位于不同国家的资源充足的实验室同时参与。这涉及到复杂的地缘政治协调——特别是中美之间的 AI 竞争格局。

[配图: 全球 AI 治理框架设计原则图]

文章还提到了一个重要的历史参照：世界已经为其他复杂技术建立了验证机制（例如《中程核力量条约》），但这些机制花了数十年时间才建立起基础设施和信任。Anthropic 明确表示：”我们没有那么长的时间。”

从工程角度看，构建这样的协调机制需要解决几个具体的技术问题：如何设计跨边界的算力监控协议、如何建立去中心化的验证网络、如何在保护商业机密的同时提供足够的透明度、如何处理违约检测和制裁的自动化问题。这些都不是纯政策问题——它们需要新的技术基础设施来支撑。

总结与行动清单

Anthropic Institute 的文章提供了一个罕见的机会：一家即将 IPO 的前沿 AI 公司，在披露自身技术突破的同时，公开呼吁全球协调减速。这种坦诚本身就是一个值得关注的信号。

核心结论可以概括为三点：第一，AI 正在加速自身研发——52x 的加速比不是理论预测而是已测量的事实；第二，递归自改进的能力阈值正在接近，但何时跨越仍不确定；第三，在没有全球协调机制的情况下，单边行动的效果有限。

对于政策制定者、研究人员和 AI 从业者，以下是具体的行动清单：

建立跨实验室的算力监控协议：在 RSI 能力成熟之前，建立可验证的训练运行报告机制
推动多边治理框架设计：将”暂停机制”从理论讨论转化为具体协议草案
投资对齐研究基础设施：确保验证和监控工具能够跟上 AI 能力的加速曲线
保持技术乐观但行动谨慎：RSI 的三种未来场景中，最坏的情况并非不可避免——关键在于我们现在做什么

窗口期正在关闭。Anthropic 在文章结尾写道：”窗口就在这里。”问题不在于我们是否有时间准备——而在于我们是否愿意在领先者还在加速的时候选择减速。

References

转载请注明出处，支持我请扫码打赏💰或点击广告🪧

Featured

一分钟读论文：《Agent记忆的遗忘架构学》

一分钟读论文：《重新思考还是延长预算？面向推理预算的选择性验证》