[Claude] 为什么 claude opus4.6 越用蠢了是我的错觉嘛。

[Claude] 为什么 claude opus4.6 越用蠢了是我的错觉嘛。

[Claude] 为什么 claude opus4.6 越用蠢了是我的错觉嘛。

一句话看懂:多位用户在 V2EX 反映 Claude Opus 4.6 近期出现明显质量下降,官方曾将此归因于“bug”,但用户怀疑是主动降智。目前 Opus 4.7 已上线,但体验改善并不显著,部分用户因此转向 CX 等替代服务。

事件核心:发生了什么

2026 年 5 月 11 日,V2EX 用户 codcodcod 发帖称 Claude Opus 4.6 近期“越用越蠢”,简单问题也需反复沟通才能得到满意结果,与早期“超出预期”的体验形成鲜明对比。帖子引发多人共鸣,累计超 1200 次浏览。

有用户指出,Opus 4.6 在 Opus 4.7 发布前就已出现降智现象,官方起初否认,后承认是“bug”导致。部分用户怀疑实际原因是模型经过量化压缩或推理资源配置缩减。另有用户提到,升级 Claude Code 版本可修复旧版中官方承认的“变蠢 bug”。

关于模型可用性存在争议:多数中转站和协作工具(如 Cursor、Copilot)已撤下 Opus 4.6,仅保留 Opus 4.7;但 API 和旧版 Claude Code 中 4.6 仍可调用。不过,有多位用户质疑中转站可能已将请求替换为其他模型(如 GLM),导致“假货”体验。

为什么重要

Claude Opus 系列长期被视作大模型推理能力的标杆之一,其感知质量下降直接冲击用户对 Anthropic 产品稳定性的信任。当前多模态大模型竞争激烈,OpenAI 的 GPT-4o 系列、Google Gemini、以及部分开源模型持续迭代,Anthropic 若因成本优化或部署策略导致体验退化,将加速用户流失。此事也暴露了“模型降智”在业内已非孤例——用户对比历史评测数据发现,Opus 4.6 的幻觉控制等能力排名已从顶尖滑落至普通,这背后涉及推理成本、模型蒸馏和商业部署的深层权衡。

对用户/开发者/创作者的影响

对个人用户,若仍在使用 4.6 且未感知到变化,可能已经接入量化版本;若近期感觉效果不稳定,可检查官方更新日志以及 API 端点是否指向 4.7。对 API 开发者,需注意模型版本号与真实能力可能存在落差,应在代码中明确指定模型版本、定期进行基准测试,而非依赖“单一模型一直好用”的假设。对内容创作者而言,如果使用 Claude 进行长文生成或代码编写,建议同时搭配其他模型交叉验证结果,避免单一模型回归导致输出质量波动。

值得关注的后续

第一,Anthropic 是否会在未来几周发布针对 Opus 4.6 降智问题的官方说明或修复补丁。第二,Opus 4.7 能否在实际部署中恢复用户期望的顶尖推理水平,还是同样会因量化/成本控制而“重蹈覆辙”。第三,中转站和第三方 API 服务商是否会增加透明标注(如标明实际调用的模型版本及其基准测试得分),以减少用户信息不对称。

来源:V2EX (创意工作者社区)

celebrityanime
celebrityanime
文章: 2936

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注