Claude Opus 4.8 上线：提升 AI 编程可靠性，减少无依据结论

一句话看懂：Anthropic 于 5 月 29 日发布 Claude Opus 4.8，重点优化了智能体编程和多步骤推理中的可靠性，能主动识别并标记自身错误，将无依据结论的出现率大幅降低至前代的四分之一。这款模型在多个基准测试中超过了 GPT-5.5 和 Gemini 3.1 Pro，同时将快速模式运行速度提升至 2.5 倍，成本降至原来的三分之一。

事件核心：发生了什么

Anthropic 今天宣布推出旗舰模型 Claude Opus 4.8，相较于 4.7 版本，这是一次较小的增量更新，售价保持不变。官方评估显示，Opus 4.8 放任自己所写代码缺陷却不加说明的概率降低至四分之一，并更愿意主动标出不确定性，减少缺乏依据的结论。在对齐表现上，该模型在支持用户自主性、按用户最佳利益行动等亲社会指标上创下新高，同时欺骗等失配行为的发生率低于 Opus 4.7。

基准测试方面，Opus 4.8 在 SWE-Bench Pro 上获得了 69.2% 的成绩，并在该测试和其他多项基准中超过 GPT-5.5 与 Gemini 3.1 Pro，但在终端编程基准上 GPT-5.5 仍然领先。配套功能上，claude.ai 新增了 effort 程度控制，用户可在默认 high 档基础上选择 extra 或 max 档位，以消耗更多 tokens 换取更优结果。

价格调整方面，常规模式维持每 100 万输入令牌 5 美元、每 100 万输出令牌 25 美元；快速模式为每 100 万输入令牌 10 美元、每 100 万输出令牌 50 美元，运行速度提升到 2.5 倍，成本降至前代的 1/3。

为什么重要

这次更新反映了 AI 模型从单纯追求“更好性能”转向“更可靠交付”的重要趋势。Opus 4.8 主动识别和标注自身错误的能力，对于编程和复杂推理这类高风险场景尤为关键——减少无依据结论意味着模型在产生幻觉、胡编代码等常见问题上有实质性改进。同时，Anthropic 选择在保持价格不变的基础上提升可靠性和速度，并在多个基准测试中超越 GPT-5.5 和 Gemini 3.1 Pro，表明闭源模型间的竞争正进入以“可控性”和“性价比”为核心的新阶段。此外，effort 程度控制功能的引入，让用户可以根据任务紧急程度灵活权衡质量与响应速度，这是产品化思路上的务实创新。

对用户/开发者/创作者的影响

对于使用 Claude 进行编程的开发者，Opus 4.8 的改进意味着更少需要反复排查 AI 生成的错误代码，模型在复杂多步骤任务中能主动提问、识别自身错误并在计划不合理时提出异议，这降低了开发者在调试和验证上的时间成本。对于企业采购方，快速模式在降低成本的同时提升 2.5 倍速度，适合对延迟敏感的生产环境。创作者在使用 claude.ai 时需要关注 effort 控制功能，在快速问答时选择 low 档节省 token 消耗，在处理长篇文档或复杂推理任务时调高 effort 档位以获得更佳效果。不过目前公开信息显示，在终端编程基准上 GPT-5.5 仍然领先，开发者应结合自身场景选择合适模型。

AI 工具推荐

想把多个 AI 模型放在一个入口？

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型，适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接：通过此链接购买，我可能获得佣金，不影响你的价格。

值得关注的后续

第一，Opus 4.8 的 effort 程度控制是否会推广到 Anthropic 的其他模型如 Sonnet 和 Haiku，这将直接影响 API 调用成本策略。第二，在终端编程基准上 GPT-5.5 仍然领先，需要观察 Anthropic 后续是否会在该领域针对性优化。第三，Anthropic 提到的“亲社会指标创下新高”是对齐研究的最新成果，可能影响行业对 AI 安全评估标准的定义，值得跟踪监管层面的反馈。

来源：IT之家 (ITHome)

Claude Opus 4.8 上线：提升 AI 编程可靠性，减少无依据结论