Qwen3.7-Plus上线！多模态智能体新基座，一键复刻桌面端专业软件

一句话看懂：2026年6月2日，阿里云发布千问3.7系列多模态大模型Qwen3.7-Plus，该模型不仅在视觉榜单上跻身全球前五，更首次将“看、想、写、做、验”整合为统一智能体工作流，能从图片复刻出完整桌面端软件，已通过阿里云百炼开放API。

事件核心：发生了什么

阿里巴巴于6月2日发布Qwen3.7-Plus，这是千问3.7系列中一款多模态大模型，其文本和视觉能力均实现了显著提升。在全球权威视觉大模型榜单Vision Arena中，该模型排名全球前五、中国第一。官方介绍显示，Qwen3.7-Plus实现了多模态混合智能体架构的突破，支持统一处理图像、视频、屏幕、网页和文本输入。其核心能力包括：结合视觉理解和代码解释器的Visual Agent、从图像直接生成SVG和网页的Visual Coding、能在移动端和桌面端界面进行控件定位和任务规划的GUI Agent，以及在真实场景、OCR、视频和驾驶理解上的综合感知能力。目前模型已在阿里云百炼上线并对外提供付费API服务。

为什么重要

此次发布的根本意义在于，Qwen3.7-Plus将之前分散的视觉理解、编程执行和工具调用整合进同一工作流。这意味着大模型不再只是一个“看懂”图片的识别模型，而是一个能“看懂后行动”的智能体。这种从“感知”到“执行”的闭环能力，通常只在视觉智能体研究中有零散展示，如今被包装成了可调用的并发服务。在行业意义上，它直接挑战了当前多模态智能体的能力天花板——复刻一个桌面端GUI软件需要对界面元素进行精确的控件定位、任务分解和多步闭环操作，过去需要依赖专用Agent框架或大量手写规则，现在被端到端模型所替代。此外，Qwen3.7-Plus的快速开源（官博已发布论文和技术博客）也将推动更多开发者在其基础上进行行业垂直定制，进而加速Agent应用在金融、医疗、工业设计等领域的落地节奏。

对用户/开发者/创作者的影响

对普通用户：通过云服务，未来使用类似“从截图生成一个完整网页”或“用一段录屏自动写一个演示App”的操作将变得更简单。目前公开信息显示，其API性价比需结合定价和首批开发者反馈判断。

AI 工具推荐

想把多个 AI 模型放在一个入口？

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型，适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接：通过此链接购买，我可能获得佣金，不影响你的价格。

对开发者：可以直接调用阿里云百炼上提供的API（目前已支持百炼模型市场），用于构建一个能完成长程多步任务的GUI Agent，例如自动化测试、UI代码生成、屏幕阅读辅助工具等。Visual Coding能力的出现让“视觉参考到代码”的转化成为现成的端到端解决方案，开发者无需再在单独部署OCR、图像分割、代码生成管线之间做对接。

对创作者：可以通过Visual Coding直接复刻桌面端专业软件的效果，例如通过一张设计稿自动生成前端代码，显著降低原型开发成本。同时，其视频理解能力（覆盖驾驶场景等）也为视频内容编辑、交互式视频生成提供了新的Agent基础。

值得关注的后续

1. 模型开放程度与定价：虽然API已上线百炼，但模型是否开源、开源许可证如何，以及对开发者的调用成本（API单价、并发限制）将是决定生态规模的关键，建议关注阿里云百炼产品页的更新。

2. 竞品快速跟进的可能：Qwen3.7-Plus的GUI Agent能力直接对标目前主流视觉Agent框架（如GPT-4o的屏幕操作、Gemini的界面分析）。接下来1-2个月内，OpenAI、Google、国内的智谱/月之暗面等是否会在其多模态模型内加入类似的端到端“复刻软件”功能，将是市场角逐的焦点。

3. 实际任务拆解效果：目前模型演示了复刻桌面端软件的效果，但在复杂、不标准、有逻辑约束的真实GUI界面上的稳定性和错误容忍度，还需要更多开发者实际测试验证。建议关注Qwen社区和GitHub上首批开发者的一线实测报告。

来源：量子位 · 每日最新

Qwen3.7-Plus上线！多模态智能体新基座，一键复刻桌面端专业软件