
专家预测年底才到,Claude Mythos今天就跑出3小时6分
一句话看懂:Anthropic 的 Claude Mythos 模型在 METR 基准测试中,以 80% 成功率实现了长达 3 小时 6 分钟的自主任务执行,这一成绩直接追平了超级预测者对 2026 年底的预期。长时程 AI Agent 能力的落地,比此前最乐观的判断提前了约两年。
事件核心:发生了什么
据 METR 基准测试结果,Anthropic 推出的 Claude Mythos 模型在自主任务时长上取得了突破:在 80% 成功率条件下,最长连续工作时间达到了 186 分钟(3 小时 6 分钟)。这一数据恰好吻合超级预测者和行业专家中位数预测的“2026 年底实现 3-4 小时自主任务”目标,意味着 AI 长时程任务能力的进化速度已经显著超出此前的行业共识。值得注意的是,早在 2026 年 4 月,预测机构仍将基线设定在 1.5 小时附近,仅两个月后便被事实数据超越,显示出模型能力爬升的加速势头。
为什么重要
长时程自主任务的突破,意味着 AI Agent 正从概念验证阶段向可规模化部署过渡。过去,AI 模型只能处理秒级或分钟级的单步指令;当模型能以较高成功率连续自主运行数小时,企业级任务(如代码审查、数据处理、客户服务全流程)的自动化将具备实际可行性。从 Opus 4 到 Opus 4.5 在 ARC-AGI-2 分数上的粗略估算显示,能力翻倍的时间间隔正在缩短,这进一步压缩了《AI 2027》报告中对于通用人工智能(ASI)的时间线预测。这种“自催化式”的能力加速,使得原本留给法律、教育和就业市场调整的缓冲期大幅收窄。
对用户/开发者/创作者的影响
对于企业技术决策者,该突破意味着可以开始规划将重复性、结构化的长流程任务(如日常运维、批量文本生成、复杂报表生成)交给 AI Agent 执行,而人类只需在关键节点进行审核与纠偏。
对于独立开发者,Claude Mythos 的能力展示表明,打造“数字分身”类应用的技术门槛正在降低——模型已具备连续数小时自主工作的基础,开发者可以聚焦于前端交互和任务拆解逻辑的设计。
对于内容创作者,目前公开信息显示长时程能力更多聚焦于任务执行而非内容生成,但借助 API 将多步骤创作流程(如调研、初稿撰写、多轮修订)串联为单一 Agent 任务的可行性显著提高。不过这也意味着,对模型输出质量和安全性的依赖将更加集中,任何一个环节的失误都可能被放大。
AI 工具推荐
想把多个 AI 模型放在一个入口?
GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。
推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。
值得关注的后续
1. 产品落地节奏: Anthropic 是否会将 Claude Mythos 的能力通过 API 开放给开发者,以及定价和速率限制如何设计——这将直接影响 Agent 应用的商业化成本。
2. 竞品跟进速度: OpenAI、Google DeepMind、Meta 等主流模型厂商是否会在未来 1-2 个季度内公布类似的长时程任务基准成绩,以及开源社区能否快速复现此类能力。
3. 安全与对齐压力: 一个能自主运行 3 小时的 Agent,如果出现目标设定错误或被注入恶意指令,后果可能比单步指令模型严重一个数量级。监管机构对长时程自主 Agent 的合规要求是否会提前到来,值得持续观察。
来源:36氪 · 24小时热榜


