编程权威榜单：千问3.7仅次于Claude，阿里全球第二

一句话看懂：2026年5月26日，第三方编程榜单Code Arena公布最新排名，阿里旗下Qwen3.7-Max模型得分1541，超越GPT-5.5、Gemini-3.5-Flash等模型，排名全球第二，仅次于Claude系列。这是国产大模型在该权威评测中首次进入前四，并突破1540分大关。

事件核心：发生了什么

Code Arena是由知名第三方盲测平台LMArena推出的编程能力榜单，其评测方式并非传统算法题或片段生成，而是由开发者出题，要求模型从零生成完整的、可交互的Web应用，再经用户对匿名模型进行两两PK投票后综合排名。最新放榜结果显示，阿里旗舰模型Qwen3.7-Max得分为1541，超过GPT-5.5、GLM-5.1、Kimi-K2.6等模型，打破由Claude-Opus-4.7和4.6垄断的前四格局，成为目前榜单中唯一突破1540分的国产模型。据阿里云介绍，该模型面向Agent场景设计，可独立完成专业团队耗时2周的复杂项目，持续运行35小时、累计执行超1000次工具调用，用于自我编程优化芯片内核。

为什么重要

编程能力被业界视为衡量模型智能水平的核心指标之一。Code Arena因其“真实开发者出题+用户盲测”机制，被认为是最具公信力的AI编程评测之一。Qwen3.7-Max在此榜单中取得全球第二，表明国产大模型在代码理解与生成领域已跻身第一梯队，并具备了与Claude系列直接竞争的能力。同时，该模型突出的长程自主执行能力与低成本推理，对AI Agent商业化落地和企业级自动化部署具有实质意义——较低推理成本意味着更低的部署门槛，长程任务能力则让模型在复杂工作流（如自动化软件开发、芯片内核优化）中具备实用价值。目前公开信息显示，该模型在输出速度和生成质量两个维度上均较上代有显著提升。

对用户/开发者/创作者的影响

对于开发者而言，Qwen3.7-Max的API在实际编程任务中可能提供更高性价比的选择，尤其在需要完整项目生成、长周期自动化Agent的场景中，性能提升与成本优势结合，有望降低AI编程工具的使用成本。对于企业用户，该模型具备在企业级生产力场景（如办公自动化、复杂项目端到端交付）中进行部署的潜力，其长程任务稳定性值得关注。对于AI应用开发者，该模型的Agent能力——尤其是自主完成数小时连续任务和千次工具调用——为构建更复杂的自动化工作流提供了技术基础。

AI 工具推荐

想把多个 AI 模型放在一个入口？

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型，适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接：通过此链接购买，我可能获得佣金，不影响你的价格。

值得关注的后续

1. Qwen3.7-Max是否将以API或开源形式向开发者开放，以及具体定价策略，将直接影响其开发者生态规模；2. 从榜单格局看，Claude系列仍占据前两位，OpenAI、Google等竞品是否会推出针对Agent的长程编程能力更新；3. 该模型在长程任务中的稳定性与可靠性，是否能在更多企业级场景中得到验证，包括金融、医疗等高合规要求领域。

来源：量子位 · 每日最新

编程权威榜单：千问3.7仅次于Claude，阿里全球第二