[程序员] 大家目前觉得最聪明的大模型还是 Claude Opus 4.6 吗？

一句话看懂：在 V2EX 程序员社区的实时讨论中，围绕“最聪明的大模型”的当前排名存在明显分歧，多数早期用户倾向于认为 OpenAI 的 GPT-5.5 在峰值能力上更胜一筹，而 Claude Opus 系列（尤其是 4.6 和 4.8）凭借更稳定的表现和更少的“降智”时刻，赢得了更多“放手去做”的信任。这场讨论背后，反映的是大模型从“炫技”到“可信赖生产力工具”的评判标准迁移。

事件核心：发生了什么

2026 年 6 月 4 日晚，V2EX 上一条题为“大家目前觉得最聪明的大模型还是 Claude Opus 4.6 吗？”的帖子引发了程序员群体的快速投票。帖子发表于 3 小时内，浏览量达 828 次，收到 14 条直接回复。讨论焦点集中在两大阵营：一是支持 Claude Opus 4.6 的社区用户认为其通过 Claude Desktop 的 CoWork 模式（区别于普通 Code 模式的内置提示词）使用体验“神中神”，二是明确站队 GPT-5.5 的用户认为它是“全能模型”，且开启 xhigh（极致输出）模式后的表现可达“opus 4.6 max > opus 4.8 max”的相同或更优水平。有用户列出了主观排名：GPT-5.5 xhigh > opus 4.6 max > opus 4.8 max > opus 4.7 max，也有用户反馈 Claude Opus 常有“自己的想法”而偏离需求，GPT 则存在“不降智时远超 Claude、但发挥不稳定”的问题。

为什么重要

这场程序员圈子的自发投票，实际上是当前大模型商业化中最关键问题的一次压力测试：跑分和参数已不再是唯一标准，在真实开发场景中的“稳定性”和“可靠性”正成为开发者在付费订阅时的核心考量。Claude Opus 系列（4.6/4.7/4.8）与 GPT-5.5 的对比，不是简单的模型参数竞赛，而是两种产品哲学的碰撞：OpenAI 倾向于通过推理时增强（xhigh 模式）打造偶尔超常表现的“上限模型”，而 Anthropic 则通过 CoWork 等产品化手段，让 Opus 系列在日常复杂任务中维持更一致的下限。如果 Claude 继续因政策限制“束手束脚”，而 GPT 无法解决“降智”波动，长期来看将影响开发者在多模型订阅之间的选择——目前已有用户表示计划退订 GPT，原因正是“发挥太不稳定”。

对用户/开发者/创作者的影响

对于使用 AI 辅助编码的程序员，直接建议是：如果追求峰值智慧（如一次性生成完整复杂架构），GPT-5.5 的 xhigh 模式值得尝试；但若任务要求高可靠性（如修复已有 bug、持续迭代代码），Claude Opus 4.6 或 4.8 搭配 CoWork 模式可能是更稳妥的选择。有用户指出，Codex（开发代理）5.5 版本在特定场景下“过于好用”，但需要等到 OpenAI 将独立 Codex 与旗舰模型合并在同一超级应用中才能真正比较。对于日常内容创作和数据分析的普通用户，Claude 的“稳定”与 GPT 的“偶尔高光”分别对应不同的创作节奏：有时间反复打磨的创作者可以依赖 Claude 的稳定输出；而时间可控、愿意承担一次失败的用户，可优先尝试 GPT-5.5 的高峰值。目前公开信息显示，用户的“主观体感”仍然是主要判断依据，尚无第三方基准测试专门对比这种“稳定性的商业价值”。

AI 工具推荐

想把多个 AI 模型放在一个入口？

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型，适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接：通过此链接购买，我可能获得佣金，不影响你的价格。

值得关注的后续

第一，产品端融合进度：OpenAI 何时如用户预期将 Codex 5.5 和 GPT-5.5 旗舰版“二合一”打包为一个超级应用，将直接影响比较的公平性，也是决定是否多模型订阅的重要节点。第二，价格与限制变化：若 Claude 继续因政策限制限制用户行为（已有用户抱怨“限制太多”），而 GPT 保持订阅价格不变，开发者可能用脚投票。第三，稳定性量化：当前缺乏业界公认的“降至基准测试”，若未来出现像 Arena elo 排行榜那样衡量模型输出变异系数的指标，很可能改写当前“opus 4.6 vs gpt 5.5”的主观排名逻辑。

来源：V2EX (创意工作者社区)

[程序员] 大家目前觉得最聪明的大模型还是 Claude Opus 4.6 吗？