
一句话看懂:Anthropic 的最新模型 Claude Sonnet 5 虽然在多项基准测试中分数提升至 53 分,追平 GPT-5.5,但其实际使用成本已经悄悄超过高端模型 Opus 4.8,主要原因在于模型在完成任务时消耗了远超预期的 token 数量,而官方公布的 token 单价并未上涨。
事件核心:发生了什么
根据独立评测机构 Artificial Analysis 在 2026 年 7 月 1 日发布的测试结果,Claude Sonnet 5 在其 Intelligence Index v4.1 中得分 53 分,与 GPT-5.5(高配置)并列第五,较前代 Sonnet 4.6 的 47 分提升 6 分。然而,评价机构指出,Sonnet 5 的实际每任务成本高达 2.29 美元,比 Opus 4.8 的 1.97 美元还要贵约 16%。
产生这一现象的关键在于,Sonnet 5 在执行任务时采用了更强的推理循环。在 AA-Briefcase 和 GDPval-AA 等代理任务基准中,它需要的代理循环次数是上一代的三倍。在最大性能模式下,其输出 token 消耗量比 Sonnet 4.6 多出约 40%。尽管 Anthropic 官方给出的 token 价格与上一代完全相同——输入每百万 token 3 美元、输出每百万 token 15 美元——但用户为完成相同任务实际支付的费用几乎翻倍。
Anthropic 目前推出推广优惠价(输入每百万 2 美元、输出每百万 10 美元),有效期至 2026 年 9 月 1 日,但上述评测使用的是官方常规定价。
为什么重要
这并非 Anthropic 第一次通过调整模型行为来隐蔽提价。此前 Opus 4.7 发布时,虽然官方 token 单价未变,但其采用的新分词器导致同一段文本被切分成“约 30% 更多”的 token,社区对 483 个请求的分析显示 token 数量平均增加了 37.4%。Sonnet 5 在此基础上又叠加了更“主动”的推理模式,进一步放大实际开支。
这种“原价不变、用量翻倍”的做法,在竞争加剧的背景下尤其引人关注。当前,中国竞品如 Deepseek V4 Pro 和 GLM-5.2 在 Sonnet 所处的中间价位段,已能提供相近的推理性能但其 API 成本远低于 Anthropic 的隐蔽定价。当开发者实际测试后才发现支出远超预期,这很可能影响生态信任。
业界一直呼吁,AI 模型的定价应转向更透明的标准,比如“每标准任务成本”或“每知识工作单成本”,而非对普通用户毫无意义的原始 token 价格。
对用户/开发者/创作者的影响
对 API 开发者:如果急需部署代理类应用(Agent-Based),需在原型阶段实测每任务的真实 token 消耗量,不能仅凭官方单价做预算。建议在 2026 年 9 月 1 日促销结束前完成成本评估。
AI 工具推荐
想把多个 AI 模型放在一个入口?
GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。
推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。
对企业采买/IT 决策者:若原计划将应用从 Opus 4.8 切换到 Sonnet 5 以节省成本,实际结果可能相反。应要求厂商提供每任务成本报告,而非仅关注 token 单价。
对内容创作者/终端用户:直接使用 Claude Sonnet 5 对话或写作时,不容易直观感知成本上升。但在批量处理、定时任务或商用场景中,月度账单可能显著高出预期。
值得关注的后续
1. Anthropic 是否会针对 Sonnet 5 的“隐性提价”作出官方解释或发布新的定价模型,还是在下一个版本继续沿用此类策略。2. 主流第三方评测平台(如 Artificial Analysis、LMSYS)是否会引入“每任务成本”作为固定评测维度,从而推动行业定价透明化。3. 在 9 月促销到期前,DeepSeek 或 GLM 等竞品是否会发起新一轮价格战,进一步挤压 Anthropic 在中端模型领域的市场空间。


