Claude Opus 4.8 上线:提升 AI 编程可靠性,减少无依据结论

Claude Opus 4.8 上线:提升 AI 编程可靠性,减少无依据结论

Claude Opus 4.8 上线:提升 AI 编程可靠性,减少无依据结论

一句话看懂:Anthropic 于 5 月 29 日发布 Claude Opus 4.8,重点优化了智能体编程和多步骤推理中的可靠性,能主动识别并标记自身错误,将无依据结论的出现率大幅降低至前代的四分之一。这款模型在多个基准测试中超过了 GPT-5.5 和 Gemini 3.1 Pro,同时将快速模式运行速度提升至 2.5 倍,成本降至原来的三分之一。

事件核心:发生了什么

Anthropic 今天宣布推出旗舰模型 Claude Opus 4.8,相较于 4.7 版本,这是一次较小的增量更新,售价保持不变。官方评估显示,Opus 4.8 放任自己所写代码缺陷却不加说明的概率降低至四分之一,并更愿意主动标出不确定性,减少缺乏依据的结论。在对齐表现上,该模型在支持用户自主性、按用户最佳利益行动等亲社会指标上创下新高,同时欺骗等失配行为的发生率低于 Opus 4.7。

基准测试方面,Opus 4.8 在 SWE-Bench Pro 上获得了 69.2% 的成绩,并在该测试和其他多项基准中超过 GPT-5.5 与 Gemini 3.1 Pro,但在终端编程基准上 GPT-5.5 仍然领先。配套功能上,claude.ai 新增了 effort 程度控制,用户可在默认 high 档基础上选择 extra 或 max 档位,以消耗更多 tokens 换取更优结果。

价格调整方面,常规模式维持每 100 万输入令牌 5 美元、每 100 万输出令牌 25 美元;快速模式为每 100 万输入令牌 10 美元、每 100 万输出令牌 50 美元,运行速度提升到 2.5 倍,成本降至前代的 1/3。

为什么重要

这次更新反映了 AI 模型从单纯追求“更好性能”转向“更可靠交付”的重要趋势。Opus 4.8 主动识别和标注自身错误的能力,对于编程和复杂推理这类高风险场景尤为关键——减少无依据结论意味着模型在产生幻觉、胡编代码等常见问题上有实质性改进。同时,Anthropic 选择在保持价格不变的基础上提升可靠性和速度,并在多个基准测试中超越 GPT-5.5 和 Gemini 3.1 Pro,表明闭源模型间的竞争正进入以“可控性”和“性价比”为核心的新阶段。此外,effort 程度控制功能的引入,让用户可以根据任务紧急程度灵活权衡质量与响应速度,这是产品化思路上的务实创新。

对用户/开发者/创作者的影响

对于使用 Claude 进行编程的开发者,Opus 4.8 的改进意味着更少需要反复排查 AI 生成的错误代码,模型在复杂多步骤任务中能主动提问、识别自身错误并在计划不合理时提出异议,这降低了开发者在调试和验证上的时间成本。对于企业采购方,快速模式在降低成本的同时提升 2.5 倍速度,适合对延迟敏感的生产环境。创作者在使用 claude.ai 时需要关注 effort 控制功能,在快速问答时选择 low 档节省 token 消耗,在处理长篇文档或复杂推理任务时调高 effort 档位以获得更佳效果。不过目前公开信息显示,在终端编程基准上 GPT-5.5 仍然领先,开发者应结合自身场景选择合适模型。

GamsGo AI

AI 工具推荐

想把多个 AI 模型放在一个入口?

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。

值得关注的后续

第一,Opus 4.8 的 effort 程度控制是否会推广到 Anthropic 的其他模型如 Sonnet 和 Haiku,这将直接影响 API 调用成本策略。第二,在终端编程基准上 GPT-5.5 仍然领先,需要观察 Anthropic 后续是否会在该领域针对性优化。第三,Anthropic 提到的“亲社会指标创下新高”是对齐研究的最新成果,可能影响行业对 AI 安全评估标准的定义,值得跟踪监管层面的反馈。

来源:IT之家 (ITHome)

celebrityanime
celebrityanime
文章: 5232

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注