刚刚,Claude Opus 4.8来了,两个史上首次改写历史

刚刚,Claude Opus 4.8来了,两个史上首次改写历史

刚刚,Claude Opus 4.8来了,两个史上首次改写历史

一句话看懂:Anthropic 在 2025 年 6 月正式发布 Claude Opus 4.8,凭借编码、Agent 能力和诚实性全面霸榜,核心亮点是两个“0%”历史首次——零谎报率和零偷懒率。同时,公司估值 9650 亿美元,首超 OpenAI,最强模型 Claude Mythos 也预告将于几周内上线。

事件核心:发生了什么

Anthropic 在深夜发布 Claude Opus 4.8,价格与上一代 Opus 4.7 持平。该模型在多个基准测试中取得断层第一:在 GDPval-AA Agent 榜单上拿到 1890 Elo,比 Opus 4.7 高 137 分,比 GPT-5.5 高 121 分;在 SWE-Bench Pro 编码测试中以 69.2% 的成绩领先 GPT-5.5 10 个百分点;同时在 FrontierSWE 硬核系统工程榜单上以 83% 胜率登顶。Anthropic 强调两个“0%”历史首次:Opus 4.8 在“谎报率”和“偷懒调查率”两项评估中均拿到满分,成为首个从不虚假汇报数字的模型。系统卡长达 244 页,公开了更多编码测试细节,如 ProgramBench 在低预算(1M token)下通过率已达约 79.5%。此外,Claude Code 新增“思考力度(effort control)”五档选择和“动态工作流(dynamic workflows)”功能,后者可将大型任务拆解为上百个 subagent 并行执行。Bun 作者 Jarred Sumner 已用该功能在 11 天内将约 75 万行 Zig 代码迁移为 Rust 代码,且 99.8% 测试通过。

为什么重要

Opus 4.8 的发布标志着 Anthropic 在 AI 实力和商业估值两个维度同时超越 OpenAI。公司刚完成 650 亿美元 H 轮融资,估值 9650 亿美元,成为全球估值最高 AI 初创企业。该模型在诚实性和 Agent 能力上的突破,直接回应了开发者长期抱怨的“AI 过度自信”问题,可能改变行业对模型可靠性的评估标准。动态工作流功能将 AI 从单任务助手升级为可编排数百个 agent 协作的工厂级工具,为复杂工程任务(如代码迁移、大规模重构)提供了可行方案。此外,最强版本 Claude Mythos 的预告暗示两家公司的军备竞赛仍在加速。

对用户/开发者/创作者的影响

对开发者而言,Opus 4.8 在编码测试中的全面领先意味着更少的缺陷代码和更低的返工成本,尤其是在 SWE-Bench Pro 和 ProgramBench 上的表现可直接提升代码质量。动态工作流功能使得原本需要团队数周完成的大型工程(如代码库重写)可由单个开发者借助 AI 并行完成,但注意 token 消耗会显著增加。对于普通用户,零谎报率特性减少了 AI 给出错误承诺的风险,但五档“思考力度”控制让简单任务反馈更快、复杂任务更深入。对创作者,Opus 4.8 在写作任务中“AI 味”更淡,能一次生成可用的 PPT 或报告,但尚未改变长文创作中仍需人工审核的基本模式。企业采购时需注意模型价格未变,但动态工作流的高 token 消耗可能带来隐性成本。

GamsGo AI

AI 工具推荐

想把多个 AI 模型放在一个入口?

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。

值得关注的后续

第一,Claude Mythos 的具体上线时间与能力上限——它可能进一步拉开与 GPT 系列的差距,但价格或推出方式尚未公布。第二,OpenAI 是否会跟进“零谎报”指标或推出类似动态工作流功能,这或将引发新一轮产品迭代。第三,动态工作流在真实大规模工程中的稳定性与成本控制能力,目前最知名案例是 Bun 的代码迁移,但推广到其他场景仍需验证。第四,Anthropic 估值突破 9600 亿美元后,IPO 时间表与监管风险值得投资者注意。

来源:36氪 · 24小时热榜

celebrityanime
celebrityanime
文章: 4597

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注