刚刚,中国AI闯入全球编程前二,前面只剩Claude

刚刚,中国AI闯入全球编程前二,前面只剩Claude

刚刚,中国AI闯入全球编程前二,前面只剩Claude

一句话看懂:阿里发布的Qwen3.7-Max编程模型在Code Arena评测中以1541分位列全球第四,超越GPT-5.5和Gemini 3.5 Flash,成为目前唯一进入前五的非Claude模型,仅次于Anthropic的Opus 4.7和Opus 4.6。

事件核心:发生了什么

根据Code Arena最新榜单,Qwen3.7-Max在编程能力测试中取得1541分,排在其前的是Claude Opus 4.7和Opus 4.6。在海外开发者的实测对比中,Qwen3.7-Max完成“自训练俄罗斯方块AI”任务的token成本仅为1.32美元,性能提升56%,同时优于Opus 4.7和GPT-5.5。在3D宇宙模型和像素宝塔生成任务中,输出速度和质量也全面胜出。阿里在发布时将这款模型定位为“Agent基座模型”,强调其长时间自主执行任务的能力——内测数据显示,它在一次自主编程任务中连续运行35小时、执行1158次工具调用,生成了10倍几何平均加速的代码,且全程无上下文退化或指令漂移。

为什么重要

这次排名变化打破了Claude在编程领域长期主导的局面,证明中国厂商在Agent级编程能力上追平甚至部分超越了GPT-5.5和Claude。Qwen3.7-Max的表现并非偶然:其训练引入了环境扩展(同一任务在不同框架和验证方式下训练)和动态累积生存博弈框架(模拟超1000步连续决策),这使得模型在多种编程框架(Claude Code、OpenClaw、Qwen Code)中表现稳定,且具备长程推理能力。在YC-Bench模拟中,该模型经营一家创业公司一年后实现208万美元营收,是上一代的两倍。这些技术积累意味着编程竞争已从单一评测进入Agent自主执行的持久战阶段。

对用户/开发者/创作者的影响

对开发者而言,Qwen3.7-Max的低成本与高完成度降低了编程AI的使用门槛:实测中,一段赛车游戏Prompt仅经一轮修正即可生成含开始界面、音效和完整机制的HTML文件,而GPT-5.5、Claude Opus 4.6、Gemini 3.5 Flash在相同任务中均需多轮调试且功能有短板。目前公开信息显示,该模型在Hermes Agent和OpenCode框架下的集成替代能力已获部分开发者认可。对于经常需要AI辅助完成完整项目、自动化脚本或UI生成的用户,这提供了一个成本更低(token成本仅为几分之一)、首轮成功率更高的选项。

GamsGo AI

AI 工具推荐

想把多个 AI 模型放在一个入口?

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。

值得关注的后续

一是阿里是否将Qwen3.7-Max以API或开源形式提供给更广泛的开发者群体,价格策略如何设定;二是Anthropic和OpenAI是否会针对该模型的编程实测表现更新各自的模型版本或调整定价;三是该模型在Agent基座定位下的跨任务泛化能力,能否从编程领域延伸到金融分析、企业自动化等其他长程推理场景。此外,海外开发者社区的采用速度和反馈,将是检验其实际竞争力的关键。

来源:36氪 · 24小时热榜

celebrityanime
celebrityanime
文章: 3991

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注