编程权威榜单:千问3.7仅次于Claude,阿里全球第二

编程权威榜单:千问3.7仅次于Claude,阿里全球第二

编程权威榜单:千问3.7仅次于Claude,阿里全球第二

一句话看懂:2026年5月26日,第三方编程榜单Code Arena公布最新排名,阿里旗下Qwen3.7-Max模型得分1541,超越GPT-5.5、Gemini-3.5-Flash等模型,排名全球第二,仅次于Claude系列。这是国产大模型在该权威评测中首次进入前四,并突破1540分大关。

事件核心:发生了什么

Code Arena是由知名第三方盲测平台LMArena推出的编程能力榜单,其评测方式并非传统算法题或片段生成,而是由开发者出题,要求模型从零生成完整的、可交互的Web应用,再经用户对匿名模型进行两两PK投票后综合排名。最新放榜结果显示,阿里旗舰模型Qwen3.7-Max得分为1541,超过GPT-5.5、GLM-5.1、Kimi-K2.6等模型,打破由Claude-Opus-4.7和4.6垄断的前四格局,成为目前榜单中唯一突破1540分的国产模型。据阿里云介绍,该模型面向Agent场景设计,可独立完成专业团队耗时2周的复杂项目,持续运行35小时、累计执行超1000次工具调用,用于自我编程优化芯片内核。

为什么重要

编程能力被业界视为衡量模型智能水平的核心指标之一。Code Arena因其“真实开发者出题+用户盲测”机制,被认为是最具公信力的AI编程评测之一。Qwen3.7-Max在此榜单中取得全球第二,表明国产大模型在代码理解与生成领域已跻身第一梯队,并具备了与Claude系列直接竞争的能力。同时,该模型突出的长程自主执行能力与低成本推理,对AI Agent商业化落地和企业级自动化部署具有实质意义——较低推理成本意味着更低的部署门槛,长程任务能力则让模型在复杂工作流(如自动化软件开发、芯片内核优化)中具备实用价值。目前公开信息显示,该模型在输出速度和生成质量两个维度上均较上代有显著提升。

对用户/开发者/创作者的影响

对于开发者而言,Qwen3.7-Max的API在实际编程任务中可能提供更高性价比的选择,尤其在需要完整项目生成、长周期自动化Agent的场景中,性能提升与成本优势结合,有望降低AI编程工具的使用成本。对于企业用户,该模型具备在企业级生产力场景(如办公自动化、复杂项目端到端交付)中进行部署的潜力,其长程任务稳定性值得关注。对于AI应用开发者,该模型的Agent能力——尤其是自主完成数小时连续任务和千次工具调用——为构建更复杂的自动化工作流提供了技术基础。

GamsGo AI

AI 工具推荐

想把多个 AI 模型放在一个入口?

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。

值得关注的后续

1. Qwen3.7-Max是否将以API或开源形式向开发者开放,以及具体定价策略,将直接影响其开发者生态规模;2. 从榜单格局看,Claude系列仍占据前两位,OpenAI、Google等竞品是否会推出针对Agent的长程编程能力更新;3. 该模型在长程任务中的稳定性与可靠性,是否能在更多企业级场景中得到验证,包括金融、医疗等高合规要求领域。

来源:量子位 · 每日最新

celebrityanime
celebrityanime
文章: 4081

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注