编程与GUI双向通吃!Qwen3.7-Plus 登场,11小时自主闭环开发真实APP

编程与GUI双向通吃!Qwen3.7-Plus 登场,11小时自主闭环开发真实APP

编程与GUI双向通吃!Qwen3.7-Plus 登场,11小时自主闭环开发真实APP

一句话看懂:阿里发布多模态大模型Qwen3.7-Plus,能在无人类干预下,11小时内自主完成一款真实APP从需求到测试部署的全流程开发,并在视觉模型排行Vision Arena进入全球前五。

事件核心:发生了什么

阿里巴巴于2026年6月正式推出Qwen3.7-Plus多模态大模型。该模型在Qwen3.7文本能力基础上,全面升级视觉-语言能力,统一为“多模态交互式混合Agent”。它能够无缝整合图形用户界面(GUI)和命令行界面(CLI),实现从前端原型到复杂软件工程的端到端自动化。在Vision Arena视觉模型排行榜中,阿里凭借该模型进入全球前五、中国第一。核心能力体现在三方面:在Terminal Bench2.0、SWE-bench等复杂软件工程和科学编程任务中表现强劲;具备将图像、视频、UI截图一键转化为可执行代码的能力(如SVG重构、交互式网页设计);覆盖文档解析、高级OCR、长短视频事件流理解和驾驶场景动态空间关系理解(如LingoQA)。

为什么重要

Qwen3.7-Plus将“看、想、写、做、验”整合为统一循环,这意味着大模型不再只是语言生成工具,而是具备了从理解界面、编写代码、执行操作到验证结果的闭环自动化能力。在阿里公开的测试中,基于该模型的Hybrid-Agent系统连续运行超11小时、触发超1000次调用、自主生成超10000行代码,完整完成了英语词汇学习APP的开发周期且无需人类干预。这种能力打破了此前多模态模型在GUI操作和编程之间的割裂,让AI可以真正像人类开发者一样同时操控图形界面和代码逻辑,对现有软件工程工作流和低代码开发范式构成实质性冲击。

对用户/开发者/创作者的影响

对于开发者,Qwen3.7-Plus通过阿里云百炼和Qwen Studio提供,并兼容Claude Code、OpenClaw、Qwen Code等框架,意味着可以快速接入该模型构建自动化编程Agent。对于非技术用户,基于该模型的Chrome扩展“Qwen for Chrome”已能理解自然语言指令,自主进入阿里云控制台完成ECS服务器配置、选型、购买及维护升级,降低了云计算操作门槛。对于产品经理和设计师,该模型可将UI截图、视频画面一键生成可执行代码,大幅缩短原型到产品的转化周期。

GamsGo AI

AI 工具推荐

想把多个 AI 模型放在一个入口?

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。

值得关注的后续

1. 该模型在11小时全自动开发场景下的可靠性与代码可维护性如何,目前仅展示单次测试,需要更多第三方验证;2. 阿里将该模型定位为“多模态交互式混合Agent”,是否意味着阿里将以此构建开发者生态,与GitHub Copilot、Cursor等工具形成直接竞争;3. 模型在GUI操作中是否涉及对原生macOS应用等高权限场景的控制,其安全边界和合规框架如何设定,可能影响最终落地范围。

来源:AIbase

celebrityanime
celebrityanime
文章: 5068

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注