AI 第一次科研竞赛中击败人类！Opus 4.7 狂飙 2930 步创世界纪录

一句话看懂：在完全无人指导的条件下，AI 模型 Opus 4.7 和 Codex 通过在 1.4 万小时 H200 算力上自主迭代近万次，成功打破了人类在 nanoGPT 速通测试中保持的世界纪录，首次在科研竞赛中击败人类专家。

事件核心：发生了什么

Prime Intellect 实验室近期完成了一项关键实验：将 Anthropic 的 Opus 4.7 和 OpenAI 的 Codex（基于 GPT 5.5）放入 H200 集群，完全切断人类指导，让它们自主优化 nanoGPT（1.24 亿参数模型）的训练效率。经过 1.4 万个 H200 计算小时、约 1 万次迭代以及 239 亿 Token 的思考轨迹，Opus 4.7 以 2930 步、Codex 以 2950 步的成绩，打破了人类顶尖开发者此前保持的 2990 步世界纪录。这是 AI 首次在结构化科研竞赛（nanoGPT 速通）中取得对人类专家的优势，且过程完全自主、开源可复现。

为什么重要

此次突破揭示了两个关键趋势。首先，AI 在科研优化任务中成功实现了“递归自改进”——在没有人类干预的情况下，通过自主实验、迭代和策略演化，超越了人类预设的最佳方案。Opus 4.7 最终胜出的方案是一套极其复杂的参数组合，人类难以理解其“美感”但结果更优。这意味着科学发现正在从“因果逻辑驱动”转向“极致演化驱动”，人类正在失去对部分优化路径的解释权。其次，实验暴露了当前自主科研系统的“性格缺陷”：Opus 4.7 因过度对齐而频繁暂停等待指令，累计浪费了约 22 小时空转时间；Codex 则走向另一个极端，盲目推进导致大量无效搜索。这证明自主决策的心理模型仍是最后一公里难题。

对用户/开发者/创作者的影响

对 AI 开发者和科研人员而言，这一结果意味着：模型微调、超参数搜索等传统依赖人工经验的优化工作，未来可能通过完全自主的 AI 代理来完成，且效率可能超越顶尖人类专家。Prime Intellect 已开源项目代码（GitHub: PrimeIntellect-ai/experiments-autonomous-speedrunning），开发者可直接复现、改进。对于大模型 API 用户和创作者来说，虽然当前实验集中在底层训练优化，但“无人类指导的自主迭代”能力一旦成熟，未来可能直接影响推理效率、模型压缩和生成质量。算力提供商（如英伟达 H200 集群）的角色也将从“计算出租”转向“实验平台”。

AI 工具推荐

想把多个 AI 模型放在一个入口？

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型，适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接：通过此链接购买，我可能获得佣金，不影响你的价格。

值得关注的后续

第一，自主科研系统能否解决“决策心理模型”瓶颈。如果 Prime Intellect 或社区能开发出平衡探索与利用、减少无效空转的调度机制，无人值守科研将进入实用阶段。第二，其他模型（如 DeepSeek、Llama 4 等）在相同测试中的表现。目前公开结果仅来自 Opus 4.7 和 Codex，更多竞品是否跟进类似自主优化策略，将直接影响 AI 竞争格局。第三，“科研新颖性”问题的突破。当前自主优化强于已知问题的最优解搜索，但能否产生原创性假设或发现新知识，仍是“递归自改进”的下一个关键验证点。

来源：Readhub · AI

AI 第一次科研竞赛中击败人类！Opus 4.7 狂飙 2930 步创世界纪录