刚刚，中国AI闯入全球编程前二，前面只剩Claude

一句话看懂：阿里发布的Qwen3.7-Max编程模型在Code Arena评测中以1541分位列全球第四，超越GPT-5.5和Gemini 3.5 Flash，成为目前唯一进入前五的非Claude模型，仅次于Anthropic的Opus 4.7和Opus 4.6。

事件核心：发生了什么

根据Code Arena最新榜单，Qwen3.7-Max在编程能力测试中取得1541分，排在其前的是Claude Opus 4.7和Opus 4.6。在海外开发者的实测对比中，Qwen3.7-Max完成“自训练俄罗斯方块AI”任务的token成本仅为1.32美元，性能提升56%，同时优于Opus 4.7和GPT-5.5。在3D宇宙模型和像素宝塔生成任务中，输出速度和质量也全面胜出。阿里在发布时将这款模型定位为“Agent基座模型”，强调其长时间自主执行任务的能力——内测数据显示，它在一次自主编程任务中连续运行35小时、执行1158次工具调用，生成了10倍几何平均加速的代码，且全程无上下文退化或指令漂移。

为什么重要

这次排名变化打破了Claude在编程领域长期主导的局面，证明中国厂商在Agent级编程能力上追平甚至部分超越了GPT-5.5和Claude。Qwen3.7-Max的表现并非偶然：其训练引入了环境扩展（同一任务在不同框架和验证方式下训练）和动态累积生存博弈框架（模拟超1000步连续决策），这使得模型在多种编程框架（Claude Code、OpenClaw、Qwen Code）中表现稳定，且具备长程推理能力。在YC-Bench模拟中，该模型经营一家创业公司一年后实现208万美元营收，是上一代的两倍。这些技术积累意味着编程竞争已从单一评测进入Agent自主执行的持久战阶段。

对用户/开发者/创作者的影响

对开发者而言，Qwen3.7-Max的低成本与高完成度降低了编程AI的使用门槛：实测中，一段赛车游戏Prompt仅经一轮修正即可生成含开始界面、音效和完整机制的HTML文件，而GPT-5.5、Claude Opus 4.6、Gemini 3.5 Flash在相同任务中均需多轮调试且功能有短板。目前公开信息显示，该模型在Hermes Agent和OpenCode框架下的集成替代能力已获部分开发者认可。对于经常需要AI辅助完成完整项目、自动化脚本或UI生成的用户，这提供了一个成本更低（token成本仅为几分之一）、首轮成功率更高的选项。

AI 工具推荐

想把多个 AI 模型放在一个入口？

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型，适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接：通过此链接购买，我可能获得佣金，不影响你的价格。

值得关注的后续

一是阿里是否将Qwen3.7-Max以API或开源形式提供给更广泛的开发者群体，价格策略如何设定；二是Anthropic和OpenAI是否会针对该模型的编程实测表现更新各自的模型版本或调整定价；三是该模型在Agent基座定位下的跨任务泛化能力，能否从编程领域延伸到金融分析、企业自动化等其他长程推理场景。此外，海外开发者社区的采用速度和反馈，将是检验其实际竞争力的关键。

来源：36氪 · 24小时热榜

刚刚，中国AI闯入全球编程前二，前面只剩Claude