当人工智能自我构建：我们在递归式自我改进方面的进展

一句话看懂：Anthropic 公开披露并量化了 AI 在加速自身研发的趋势：数据显示，到 2026 年，其工程师平均每季度产出的代码量是 2021-2025 年期间的 8 倍。这标志着 AI 系统正从“辅助工具”向“自主参与者”转变，其极限是“递归式自我改进”——AI 无需人类干预就能自行设计和迭代下一代模型。

事件核心：发生了什么

Anthropic 通过内部数据和外部基准测试，论证了 AI 系统在软件工程和实验研究两个维度上的能力提升速度。在外部基准 SWE-bench 上，模型从两年前的低个位数得分，已达到几乎满分（饱和）。CORE-Bench 测试显示，AI 复制已有论文实验结果的成功率在 15 个月内从约 20% 提升至饱和。内部案例中，Anthropic 工程师的代码产出效率提升了 8 倍；Claude 已经在多数场景下从“辅助写代码”进化到“自主运行代码”并代理数小时的任务。

该趋势呈指数级加速：AI 可靠完成的任务时长从每七个月翻倍，加速至每四个月翻倍。2024 年 3 月 Claude Opus 3 能处理约 4 分钟的人类任务；到 2025 年 Claude Sonnet 3.7 提升至 90 分钟；2026 年的 Claude Opus 4.6 则可以处理 12 小时的任务。按此推演，2026 年内 AI 可能胜任持续数天的工作，2027 年则可能胜任持续数周的工作。

为什么重要

核心意义在于“递归式自我改进”的可能性由理论进入可观测区间。以往 AI 研发的每个环节都由人类驱动，而现在 Anthropic 正将越来越多的开发步骤（编码、架构、训练监督）交给 AI。这颠覆了传统的 AI 研发成本曲线：如果 AI 能自行设计并训练出更强的后继者，技术迭代速度将打破线性增长，进入自我加速循环。

这也引发了控制权风险。一旦系统可自主构建新一代，人类对其行为监控、对齐调整和安全性测试的手段将变得极其关键。Anthropic 同时承认，完全自主的递归式自我改进既非必然，但可能“比大多数机构准备得更早到来”。

对用户/开发者/创作者的影响

对企业开发者与 AI 应用工程师：AI 不仅是代码补全工具，而是能承担完整任务流的“代理”。开发 AI 应用时，需考虑如何给 AI 开放更长时域、更模糊的任务定义（不指定具体方法，只提供目标）。

AI 工具推荐

想把多个 AI 模型放在一个入口？

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型，适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接：通过此链接购买，我可能获得佣金，不影响你的价格。

对普通用户：AI 产品的能力跃迁频率正在加快，未来一年内可能体验到能连续工作数天的 AI 代理。但需警惕：越强的自主能力伴随越高的控制难度，用户应关注模型提供方的安全框架与审计机制。

对内容创作者与研究机构：AI 复制实验结果的能力已趋于饱和，这意味着 AI 辅助原创研究的前置条件成熟。但复制不等于创新，原创性、突破性的实验设计仍依赖人类。

值得关注的后续

1. Anthropic 是否会公布 Claude 实现完整“闭环”的具体时间表或产品路线图。目前“20XX”仍是占位符，但公开数据已强烈暗示其可观测性。

2. 其他大模型厂商（如 OpenAI、Google DeepMind）是否会披露类似的内部效率数据。目前公开信息仅来自 Anthropic，行业整体递归自改进的真实进度仍需更多证据。

3. 监管机构与安全组织的应对。Anthropic 明确提及“人类可能失去控制”，后续可能会有关于自主模型训练安全标准、审计协议的新讨论或政策提案。

来源：www.anthropic.com

当人工智能自我构建：我们在递归式自我改进方面的进展