专家预测年底才到，Claude Mythos今天就跑出3小时6分

一句话看懂：Anthropic 的 Claude Mythos 模型在 METR 基准测试中，以 80% 成功率实现了长达 3 小时 6 分钟的自主任务执行，这一成绩直接追平了超级预测者对 2026 年底的预期。长时程 AI Agent 能力的落地，比此前最乐观的判断提前了约两年。

事件核心：发生了什么

据 METR 基准测试结果，Anthropic 推出的 Claude Mythos 模型在自主任务时长上取得了突破：在 80% 成功率条件下，最长连续工作时间达到了 186 分钟（3 小时 6 分钟）。这一数据恰好吻合超级预测者和行业专家中位数预测的“2026 年底实现 3-4 小时自主任务”目标，意味着 AI 长时程任务能力的进化速度已经显著超出此前的行业共识。值得注意的是，早在 2026 年 4 月，预测机构仍将基线设定在 1.5 小时附近，仅两个月后便被事实数据超越，显示出模型能力爬升的加速势头。

为什么重要

长时程自主任务的突破，意味着 AI Agent 正从概念验证阶段向可规模化部署过渡。过去，AI 模型只能处理秒级或分钟级的单步指令；当模型能以较高成功率连续自主运行数小时，企业级任务（如代码审查、数据处理、客户服务全流程）的自动化将具备实际可行性。从 Opus 4 到 Opus 4.5 在 ARC-AGI-2 分数上的粗略估算显示，能力翻倍的时间间隔正在缩短，这进一步压缩了《AI 2027》报告中对于通用人工智能（ASI）的时间线预测。这种“自催化式”的能力加速，使得原本留给法律、教育和就业市场调整的缓冲期大幅收窄。

对用户/开发者/创作者的影响

对于企业技术决策者，该突破意味着可以开始规划将重复性、结构化的长流程任务（如日常运维、批量文本生成、复杂报表生成）交给 AI Agent 执行，而人类只需在关键节点进行审核与纠偏。
对于独立开发者，Claude Mythos 的能力展示表明，打造“数字分身”类应用的技术门槛正在降低——模型已具备连续数小时自主工作的基础，开发者可以聚焦于前端交互和任务拆解逻辑的设计。
对于内容创作者，目前公开信息显示长时程能力更多聚焦于任务执行而非内容生成，但借助 API 将多步骤创作流程（如调研、初稿撰写、多轮修订）串联为单一 Agent 任务的可行性显著提高。不过这也意味着，对模型输出质量和安全性的依赖将更加集中，任何一个环节的失误都可能被放大。

AI 工具推荐

想把多个 AI 模型放在一个入口？

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型，适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接：通过此链接购买，我可能获得佣金，不影响你的价格。

值得关注的后续

1. 产品落地节奏： Anthropic 是否会将 Claude Mythos 的能力通过 API 开放给开发者，以及定价和速率限制如何设计——这将直接影响 Agent 应用的商业化成本。
2. 竞品跟进速度： OpenAI、Google DeepMind、Meta 等主流模型厂商是否会在未来 1-2 个季度内公布类似的长时程任务基准成绩，以及开源社区能否快速复现此类能力。
3. 安全与对齐压力： 一个能自主运行 3 小时的 Agent，如果出现目标设定错误或被注入恶意指令，后果可能比单步指令模型严重一个数量级。监管机构对长时程自主 Agent 的合规要求是否会提前到来，值得持续观察。

来源：36氪 · 24小时热榜

专家预测年底才到，Claude Mythos今天就跑出3小时6分