
国产AI编程冲上全球第二,实测五大模型,谁才是Vibe Coding神器
一句话看懂:国产大模型Qwen3.7 Max在编程能力榜单上拿下全球第二、国产第一,超越GPT-5.5。实测显示它在简单前端任务上表现稳定,但在复杂游戏和网站设计中,体验仍不如接入Codex工具的GPT-5.5以及Gemini 3.5 Flash。
事件核心:发生了什么
2026年5月28日,虎嗅旗下AppSo发布了一组横向评测,对象包括Qwen3.7 Max、DeepSeek V4、GPT-5.5、Claude Opus 4.7和Gemini 3.5 Flash。评测任务涵盖物理模拟(液体晃动动画)、六宫格2048游戏、地铁博物馆主题网站和浏览器操作系统四个场景。结果显示:Qwen3.7 Max在Terminal Bench和SWE Bench等传统编程评测中取得国产模型冠军,但在实际对话式网页生成中,简单单句提示词下表现与GPT-5.5、Gemini 3.5 Flash有差距;使用Agent工具Codex接入后,Qwen3.7 Max的表现明显提升,但存在API调用兼容性问题,偶尔出现400错误。
为什么重要
这轮评测揭示了两个趋势:一是模型能力评测与实际落地效果之间仍存在明显鸿沟——Qwen3.7 Max在固定榜单上领先,但在用户常见的“一句话生成网页”场景中,并非次次最优。二是Agent(如Codex)和Skills(如前端美化技能)对模型能力的释放作用远超模型本身。这也印证了行业共识:单靠一个强模型做不成好产品,需要记忆、编排、验证和推理可持续性等全套架构配合。Gemini 3.5 Flash在多项任务中因额外功能(如8-bit音效、纪念票生成)获得好评,说明模型产品化竞争中“工程细节”的重要性。
对用户/开发者/创作者的影响
普通用户:如果你只是用一句话让AI生成一个小工具或动画,Qwen3.7 Max值得尝试,尤其是在千问官网使用较长的提示词或结合“优化指令”功能时,效果更佳。但期望它在所有场景下超过GPT-5.5或Gemini 3.5 Flash,目前并不现实。
开发者:将Qwen3.7 Max接入Codex等Agent工具后,前端生成质量有明显提升,但需要额外处理环境变量配置和可能的流式输出兼容问题。目前官方尚未完全修复“function.arguments报错”,长任务或频繁读写文件时建议切回官方模型。
创作者:Gemini 3.5 Flash在创意和自定义能力上表现突出(如自动生成音效、定制票务),适合需要“高完成度”和“眼前一亮”效果的原型快速制作。
AI 工具推荐
想把多个 AI 模型放在一个入口?
GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。
推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。
值得关注的后续
1. Qwen团队是否会在短期内修复Codex接入中的400报错问题,这将直接影响开发者的采用意愿。
2. 阿里云是否会在百炼平台推出针对Qwen3.7 Max的官方Agent技能包,降低用户优化提示词的门槛。
3. GPT-5.5和Claude Opus 4.7在复杂游戏逻辑和规则理解上依然领先,Gemini 3.5 Flash的“加料”策略能否持续赢得用户口碑。
来源:虎嗅 (Huxiu)


