编程与GUI双向通吃!Qwen3.7-Plus 登场，11小时自主闭环开发真实APP

一句话看懂：阿里发布多模态大模型Qwen3.7-Plus，能在无人类干预下，11小时内自主完成一款真实APP从需求到测试部署的全流程开发，并在视觉模型排行Vision Arena进入全球前五。

事件核心：发生了什么

阿里巴巴于2026年6月正式推出Qwen3.7-Plus多模态大模型。该模型在Qwen3.7文本能力基础上，全面升级视觉-语言能力，统一为“多模态交互式混合Agent”。它能够无缝整合图形用户界面（GUI）和命令行界面（CLI），实现从前端原型到复杂软件工程的端到端自动化。在Vision Arena视觉模型排行榜中，阿里凭借该模型进入全球前五、中国第一。核心能力体现在三方面：在Terminal Bench2.0、SWE-bench等复杂软件工程和科学编程任务中表现强劲；具备将图像、视频、UI截图一键转化为可执行代码的能力（如SVG重构、交互式网页设计）；覆盖文档解析、高级OCR、长短视频事件流理解和驾驶场景动态空间关系理解（如LingoQA）。

为什么重要

Qwen3.7-Plus将“看、想、写、做、验”整合为统一循环，这意味着大模型不再只是语言生成工具，而是具备了从理解界面、编写代码、执行操作到验证结果的闭环自动化能力。在阿里公开的测试中，基于该模型的Hybrid-Agent系统连续运行超11小时、触发超1000次调用、自主生成超10000行代码，完整完成了英语词汇学习APP的开发周期且无需人类干预。这种能力打破了此前多模态模型在GUI操作和编程之间的割裂，让AI可以真正像人类开发者一样同时操控图形界面和代码逻辑，对现有软件工程工作流和低代码开发范式构成实质性冲击。

对用户/开发者/创作者的影响

对于开发者，Qwen3.7-Plus通过阿里云百炼和Qwen Studio提供，并兼容Claude Code、OpenClaw、Qwen Code等框架，意味着可以快速接入该模型构建自动化编程Agent。对于非技术用户，基于该模型的Chrome扩展“Qwen for Chrome”已能理解自然语言指令，自主进入阿里云控制台完成ECS服务器配置、选型、购买及维护升级，降低了云计算操作门槛。对于产品经理和设计师，该模型可将UI截图、视频画面一键生成可执行代码，大幅缩短原型到产品的转化周期。

AI 工具推荐

想把多个 AI 模型放在一个入口？

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型，适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接：通过此链接购买，我可能获得佣金，不影响你的价格。

值得关注的后续

1. 该模型在11小时全自动开发场景下的可靠性与代码可维护性如何，目前仅展示单次测试，需要更多第三方验证；2. 阿里将该模型定位为“多模态交互式混合Agent”，是否意味着阿里将以此构建开发者生态，与GitHub Copilot、Cursor等工具形成直接竞争；3. 模型在GUI操作中是否涉及对原生macOS应用等高权限场景的控制，其安全边界和合规框架如何设定，可能影响最终落地范围。

来源：AIbase

编程与GUI双向通吃!Qwen3.7-Plus 登场，11小时自主闭环开发真实APP