[程序员] GPT 完胜 Claude

[程序员] GPT 完胜 Claude

[程序员] GPT 完胜 Claude

一句话看懂:据 DeepSWE 编码基准最新排名,GPT-5.5 xHigh 版本全面超越 Claude Opus-4.8 Max,引发开发者对“选 Codex 还是 Claude Code”的热议;但部分用户指出,PASS@1 排名并不能反映真实可用性,简单修正后 Claude 结果更实用。

事件核心:发生了什么

在 V2EX 社区,用户 LonelyM 引用 DeepSWE(最佳编码基准)的公开排名数据,指出 OpenAI 的 GPT-5.5 xHigh 版本在代码生成任务的 PASS@1 指标上,完胜 Anthropic 的 Claude Opus-4.8 Max。该排名发布于 2026 年 6 月 3 日,帖子获得上千次浏览,并引发 11 条技术讨论。关键争议点在于:排名基于单次尝试的正确率(PASS@1),但多位开发者反馈,经过简单手动修正后,Claude 生成代码的最终可用性更高。Anthropic 方面则被指出 4.8 版本可能正在经历付费用户测试期,后续性能有望回升。

为什么重要

这次排名对比不仅是两个旗舰模型的简单较量,更反映了当前 AI 编码工具竞争的核心矛盾。一方面,OpenAI 通过提升 xHigh 等级,在首次准确率上取得领先,这对自动化流水线和无人工介入的场景意义重大;另一方面,Anthropic 的 Claude 在可修正性和最终产出质量上仍有口碑优势,说明“一次击中”和“可修改性”是两条不同的技术路线。商业上,Codex(OpenAI 的编码工具)与 Claude Code(Anthropic 的产品)的直接对抗,正在加速开发者生态的分化——用户被迫在“快且准”和“灵活且可靠”之间做选择。此外,有用户提及 Google 的 Gemini 3.5 Flash 以超过 300 tokens/s 的推理速度吸引了一部分关注,显示多模态高吞吐模型也在侵蚀编码工具市场。

对用户/开发者/创作者的影响

对开发者而言:如果你的工作流高度依赖无人工审查的自动生成(如 CI/CD 管道中的代码补全),GPT-5.5 xHigh 的 PASS@1 优势更值得优先考虑。但若你习惯手动微调输出(如重构或调试复杂逻辑),Claude Opus-4.8 的“可修正性”可能会节省更多时间。建议根据自身项目中频繁出现的错误类型做实测,而非只看基线排名。
对 AI 工具采购者:需要警惕单一代际评估指标(如 PASS@1)带来的误导。目前公开信息显示,两大模型的差距并非不可逾越,短期内更应关注各自的定价策略、API 响应速度以及是否提供本地部署选项。
对创作者和副驾驶用户:这类竞争会加速模型迭代,预计未来 1-2 个月内双方会推出针对性的补丁或新版本,使编码准确率向“一次通过率+修正后质量”双维度演进。

GamsGo AI

AI 工具推荐

想把多个 AI 模型放在一个入口?

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。

值得关注的后续

1. Anthropic 的 4.8 版本回滚或升级:若付费测试发现 PASS@1 确实落后,Anthropic 很可能快速推出 Opus-4.9 或调整训练后处理策略,这将是观察其技术响应速度的关键窗口。
2. Codex 与 Claude Code 的定价博弈:随着排名舆论发酵,OpenAI 可能借势调整 Codex 的免费额度或企业套餐,Anthropic 则可能通过推出“修正补偿”策略来吸引流失用户。
3. Gemini 3.5 Flash 的异军突起:如果 Google 在下一版编码基准中显著提升低延迟模型的准确率,三方竞争将进一步加剧,最终受益者将是追求工具选择权的开发者群体。

来源:V2EX (创意工作者社区)

celebrityanime
celebrityanime
文章: 5207

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注