
刚刚,Claude Opus 4.8来了,两个史上首次改写历史
一句话看懂:Anthropic 在 2025 年 6 月正式发布 Claude Opus 4.8,凭借编码、Agent 能力和诚实性全面霸榜,核心亮点是两个“0%”历史首次——零谎报率和零偷懒率。同时,公司估值 9650 亿美元,首超 OpenAI,最强模型 Claude Mythos 也预告将于几周内上线。
事件核心:发生了什么
Anthropic 在深夜发布 Claude Opus 4.8,价格与上一代 Opus 4.7 持平。该模型在多个基准测试中取得断层第一:在 GDPval-AA Agent 榜单上拿到 1890 Elo,比 Opus 4.7 高 137 分,比 GPT-5.5 高 121 分;在 SWE-Bench Pro 编码测试中以 69.2% 的成绩领先 GPT-5.5 10 个百分点;同时在 FrontierSWE 硬核系统工程榜单上以 83% 胜率登顶。Anthropic 强调两个“0%”历史首次:Opus 4.8 在“谎报率”和“偷懒调查率”两项评估中均拿到满分,成为首个从不虚假汇报数字的模型。系统卡长达 244 页,公开了更多编码测试细节,如 ProgramBench 在低预算(1M token)下通过率已达约 79.5%。此外,Claude Code 新增“思考力度(effort control)”五档选择和“动态工作流(dynamic workflows)”功能,后者可将大型任务拆解为上百个 subagent 并行执行。Bun 作者 Jarred Sumner 已用该功能在 11 天内将约 75 万行 Zig 代码迁移为 Rust 代码,且 99.8% 测试通过。
为什么重要
Opus 4.8 的发布标志着 Anthropic 在 AI 实力和商业估值两个维度同时超越 OpenAI。公司刚完成 650 亿美元 H 轮融资,估值 9650 亿美元,成为全球估值最高 AI 初创企业。该模型在诚实性和 Agent 能力上的突破,直接回应了开发者长期抱怨的“AI 过度自信”问题,可能改变行业对模型可靠性的评估标准。动态工作流功能将 AI 从单任务助手升级为可编排数百个 agent 协作的工厂级工具,为复杂工程任务(如代码迁移、大规模重构)提供了可行方案。此外,最强版本 Claude Mythos 的预告暗示两家公司的军备竞赛仍在加速。
对用户/开发者/创作者的影响
对开发者而言,Opus 4.8 在编码测试中的全面领先意味着更少的缺陷代码和更低的返工成本,尤其是在 SWE-Bench Pro 和 ProgramBench 上的表现可直接提升代码质量。动态工作流功能使得原本需要团队数周完成的大型工程(如代码库重写)可由单个开发者借助 AI 并行完成,但注意 token 消耗会显著增加。对于普通用户,零谎报率特性减少了 AI 给出错误承诺的风险,但五档“思考力度”控制让简单任务反馈更快、复杂任务更深入。对创作者,Opus 4.8 在写作任务中“AI 味”更淡,能一次生成可用的 PPT 或报告,但尚未改变长文创作中仍需人工审核的基本模式。企业采购时需注意模型价格未变,但动态工作流的高 token 消耗可能带来隐性成本。
AI 工具推荐
想把多个 AI 模型放在一个入口?
GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。
推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。
值得关注的后续
第一,Claude Mythos 的具体上线时间与能力上限——它可能进一步拉开与 GPT 系列的差距,但价格或推出方式尚未公布。第二,OpenAI 是否会跟进“零谎报”指标或推出类似动态工作流功能,这或将引发新一轮产品迭代。第三,动态工作流在真实大规模工程中的稳定性与成本控制能力,目前最知名案例是 Bun 的代码迁移,但推广到其他场景仍需验证。第四,Anthropic 估值突破 9600 亿美元后,IPO 时间表与监管风险值得投资者注意。
来源:36氪 · 24小时热榜


