[程序员] GPT 完胜 Claude

一句话看懂：据 DeepSWE 编码基准最新排名，GPT-5.5 xHigh 版本全面超越 Claude Opus-4.8 Max，引发开发者对“选 Codex 还是 Claude Code”的热议；但部分用户指出，PASS@1 排名并不能反映真实可用性，简单修正后 Claude 结果更实用。

事件核心：发生了什么

在 V2EX 社区，用户 LonelyM 引用 DeepSWE（最佳编码基准）的公开排名数据，指出 OpenAI 的 GPT-5.5 xHigh 版本在代码生成任务的 PASS@1 指标上，完胜 Anthropic 的 Claude Opus-4.8 Max。该排名发布于 2026 年 6 月 3 日，帖子获得上千次浏览，并引发 11 条技术讨论。关键争议点在于：排名基于单次尝试的正确率（PASS@1），但多位开发者反馈，经过简单手动修正后，Claude 生成代码的最终可用性更高。Anthropic 方面则被指出 4.8 版本可能正在经历付费用户测试期，后续性能有望回升。

为什么重要

这次排名对比不仅是两个旗舰模型的简单较量，更反映了当前 AI 编码工具竞争的核心矛盾。一方面，OpenAI 通过提升 xHigh 等级，在首次准确率上取得领先，这对自动化流水线和无人工介入的场景意义重大；另一方面，Anthropic 的 Claude 在可修正性和最终产出质量上仍有口碑优势，说明“一次击中”和“可修改性”是两条不同的技术路线。商业上，Codex（OpenAI 的编码工具）与 Claude Code（Anthropic 的产品）的直接对抗，正在加速开发者生态的分化——用户被迫在“快且准”和“灵活且可靠”之间做选择。此外，有用户提及 Google 的 Gemini 3.5 Flash 以超过 300 tokens/s 的推理速度吸引了一部分关注，显示多模态高吞吐模型也在侵蚀编码工具市场。

对用户/开发者/创作者的影响

对开发者而言：如果你的工作流高度依赖无人工审查的自动生成（如 CI/CD 管道中的代码补全），GPT-5.5 xHigh 的 PASS@1 优势更值得优先考虑。但若你习惯手动微调输出（如重构或调试复杂逻辑），Claude Opus-4.8 的“可修正性”可能会节省更多时间。建议根据自身项目中频繁出现的错误类型做实测，而非只看基线排名。
对 AI 工具采购者：需要警惕单一代际评估指标（如 PASS@1）带来的误导。目前公开信息显示，两大模型的差距并非不可逾越，短期内更应关注各自的定价策略、API 响应速度以及是否提供本地部署选项。
对创作者和副驾驶用户：这类竞争会加速模型迭代，预计未来 1-2 个月内双方会推出针对性的补丁或新版本，使编码准确率向“一次通过率+修正后质量”双维度演进。

AI 工具推荐

想把多个 AI 模型放在一个入口？

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型，适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接：通过此链接购买，我可能获得佣金，不影响你的价格。

值得关注的后续

1. Anthropic 的 4.8 版本回滚或升级：若付费测试发现 PASS@1 确实落后，Anthropic 很可能快速推出 Opus-4.9 或调整训练后处理策略，这将是观察其技术响应速度的关键窗口。
2. Codex 与 Claude Code 的定价博弈：随着排名舆论发酵，OpenAI 可能借势调整 Codex 的免费额度或企业套餐，Anthropic 则可能通过推出“修正补偿”策略来吸引流失用户。
3. Gemini 3.5 Flash 的异军突起：如果 Google 在下一版编码基准中显著提升低延迟模型的准确率，三方竞争将进一步加剧，最终受益者将是追求工具选择权的开发者群体。

来源：V2EX (创意工作者社区)

[程序员] GPT 完胜 Claude