专家预测年底才到，Claude Mythos 今天就跑出 3 小时 6 分！

一句话看懂：Anthropic 的 Claude Mythos 模型在 80% 成功率下，最长自主任务时长达到 3 小时 6 分钟，直接提前兑现了行业专家对 2026 年底的预测中位数。这一结果意味着 AI 长时程任务能力的加速超出预期，AI Agent 的商业化部署节点被大幅提前。

事件核心：发生了什么

根据 METR 基准测试结果，Anthropic 实验室发布的 Claude Mythos 模型在 80% 成功率下，完成了长达 186 分钟的自主任务。此前，业内超级预测家和专家的共识是，3-4 小时长时程自主任务里程碑将在 2026 年底达成。然而，Mythos 在 2024 年就已实现这一目标，时间提前了约两年。若按照从 Opus 4 到 Opus 4.5 在 ARC-AGI-2 分数上的估算，这种进步速度可能进一步压缩 AI 能力翻倍的时间间隔。

为什么重要

长时程自主任务的突破，直接证明 AI 的能力曲线正在加速而非线性增长。过去从 GPT-2（仅能完成几秒任务）到如今，只用了约 6 年时间。这一突破不仅验证了模型自身能力的跃升，更意味着 AI Agent 从概念验证阶段正式进入真正可规模化部署的阶段。企业级应用将有能力将连续数小时的重复性、结构化工作交给 AI，这直接降低了人力依赖，并可能重新定义多个行业的生产流程。同时，安全与对齐问题被同步推至前沿——长时程自主 Agent 在目标设定错误或遭受恶意指令时的潜在风险，远高于短时任务。

对用户/开发者/创作者的影响

对企业决策者：需要重新评估内部工作流程，哪些原本需要人类工程师连续工作半天到一天的标准化任务，现在可以交由 AI Agent 处理，从而大幅降低人力成本并提升效率。
对开发者：应关注 Anthropic 是否会将 Claude Mythos 的能力通过 API 开放，以及其定价策略。开发者可能很快就能调用一个能连续工作数小时的“数字分身”来执行复杂多步骤任务，如代码审查、数据清洗、报告生成等。
对个人创作者：这意味着未来可能只需设定关键目标和监督节点，就能让 AI 深度参与长达数小时的创作或分析工作，极大地解放个人时间。

AI 工具推荐

想把多个 AI 模型放在一个入口？

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型，适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接：通过此链接购买，我可能获得佣金，不影响你的价格。

值得关注的后续

1. 产品落地与定价：Claude Mythos 模型是否会通过 Anthropic 的 API 或 Chat 产品直接开放给公众？若开放，其 token 消耗和定价策略是否会与长时程任务挂钩，值得关注。
2. 竞品反应：OpenAI、Google 等巨头是否会快速跟进，推出类似或更强长时程自主能力的模型，以维持竞争格局？
3. 安全与对齐演进：随着 Agent 自主时长的增加，行业对模型纠错、遗忘和可解释性机制的需求会急剧上升。监管机构与行业标准组织可能加速出台针对长时程自主 Agent 的测试规范。

来源：Readhub · AI

专家预测年底才到，Claude Mythos 今天就跑出 3 小时 6 分！