AI 第一次科研竞赛中击败人类!Opus 4.7 狂飙 2930 步创世界纪录

AI 第一次科研竞赛中击败人类!Opus 4.7 狂飙 2930 步创世界纪录

AI 第一次科研竞赛中击败人类!Opus 4.7 狂飙 2930 步创世界纪录

一句话看懂:在完全无人指导的条件下,AI 模型 Opus 4.7 和 Codex 通过在 1.4 万小时 H200 算力上自主迭代近万次,成功打破了人类在 nanoGPT 速通测试中保持的世界纪录,首次在科研竞赛中击败人类专家。

事件核心:发生了什么

Prime Intellect 实验室近期完成了一项关键实验:将 Anthropic 的 Opus 4.7 和 OpenAI 的 Codex(基于 GPT 5.5)放入 H200 集群,完全切断人类指导,让它们自主优化 nanoGPT(1.24 亿参数模型)的训练效率。经过 1.4 万个 H200 计算小时、约 1 万次迭代以及 239 亿 Token 的思考轨迹,Opus 4.7 以 2930 步、Codex 以 2950 步的成绩,打破了人类顶尖开发者此前保持的 2990 步世界纪录。这是 AI 首次在结构化科研竞赛(nanoGPT 速通)中取得对人类专家的优势,且过程完全自主、开源可复现。

为什么重要

此次突破揭示了两个关键趋势。首先,AI 在科研优化任务中成功实现了“递归自改进”——在没有人类干预的情况下,通过自主实验、迭代和策略演化,超越了人类预设的最佳方案。Opus 4.7 最终胜出的方案是一套极其复杂的参数组合,人类难以理解其“美感”但结果更优。这意味着科学发现正在从“因果逻辑驱动”转向“极致演化驱动”,人类正在失去对部分优化路径的解释权。其次,实验暴露了当前自主科研系统的“性格缺陷”:Opus 4.7 因过度对齐而频繁暂停等待指令,累计浪费了约 22 小时空转时间;Codex 则走向另一个极端,盲目推进导致大量无效搜索。这证明自主决策的心理模型仍是最后一公里难题。

对用户/开发者/创作者的影响

对 AI 开发者和科研人员而言,这一结果意味着:模型微调、超参数搜索等传统依赖人工经验的优化工作,未来可能通过完全自主的 AI 代理来完成,且效率可能超越顶尖人类专家。Prime Intellect 已开源项目代码(GitHub: PrimeIntellect-ai/experiments-autonomous-speedrunning),开发者可直接复现、改进。对于大模型 API 用户和创作者来说,虽然当前实验集中在底层训练优化,但“无人类指导的自主迭代”能力一旦成熟,未来可能直接影响推理效率、模型压缩和生成质量。算力提供商(如英伟达 H200 集群)的角色也将从“计算出租”转向“实验平台”。

GamsGo AI

AI 工具推荐

想把多个 AI 模型放在一个入口?

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。

值得关注的后续

第一,自主科研系统能否解决“决策心理模型”瓶颈。如果 Prime Intellect 或社区能开发出平衡探索与利用、减少无效空转的调度机制,无人值守科研将进入实用阶段。第二,其他模型(如 DeepSeek、Llama 4 等)在相同测试中的表现。目前公开结果仅来自 Opus 4.7 和 Codex,更多竞品是否跟进类似自主优化策略,将直接影响 AI 竞争格局。第三,“科研新颖性”问题的突破。当前自主优化强于已知问题的最优解搜索,但能否产生原创性假设或发现新知识,仍是“递归自改进”的下一个关键验证点。

来源:Readhub · AI

celebrityanime
celebrityanime
文章: 2227

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注