
Qwen3.7-Plus上线!多模态智能体新基座,一键复刻桌面端专业软件
一句话看懂:2026年6月2日,阿里云发布千问3.7系列多模态大模型Qwen3.7-Plus,该模型不仅在视觉榜单上跻身全球前五,更首次将“看、想、写、做、验”整合为统一智能体工作流,能从图片复刻出完整桌面端软件,已通过阿里云百炼开放API。
事件核心:发生了什么
阿里巴巴于6月2日发布Qwen3.7-Plus,这是千问3.7系列中一款多模态大模型,其文本和视觉能力均实现了显著提升。在全球权威视觉大模型榜单Vision Arena中,该模型排名全球前五、中国第一。官方介绍显示,Qwen3.7-Plus实现了多模态混合智能体架构的突破,支持统一处理图像、视频、屏幕、网页和文本输入。其核心能力包括:结合视觉理解和代码解释器的Visual Agent、从图像直接生成SVG和网页的Visual Coding、能在移动端和桌面端界面进行控件定位和任务规划的GUI Agent,以及在真实场景、OCR、视频和驾驶理解上的综合感知能力。目前模型已在阿里云百炼上线并对外提供付费API服务。
为什么重要
此次发布的根本意义在于,Qwen3.7-Plus将之前分散的视觉理解、编程执行和工具调用整合进同一工作流。这意味着大模型不再只是一个“看懂”图片的识别模型,而是一个能“看懂后行动”的智能体。这种从“感知”到“执行”的闭环能力,通常只在视觉智能体研究中有零散展示,如今被包装成了可调用的并发服务。在行业意义上,它直接挑战了当前多模态智能体的能力天花板——复刻一个桌面端GUI软件需要对界面元素进行精确的控件定位、任务分解和多步闭环操作,过去需要依赖专用Agent框架或大量手写规则,现在被端到端模型所替代。此外,Qwen3.7-Plus的快速开源(官博已发布论文和技术博客)也将推动更多开发者在其基础上进行行业垂直定制,进而加速Agent应用在金融、医疗、工业设计等领域的落地节奏。
对用户/开发者/创作者的影响
对普通用户:通过云服务,未来使用类似“从截图生成一个完整网页”或“用一段录屏自动写一个演示App”的操作将变得更简单。目前公开信息显示,其API性价比需结合定价和首批开发者反馈判断。
AI 工具推荐
想把多个 AI 模型放在一个入口?
GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。
推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。
对开发者:可以直接调用阿里云百炼上提供的API(目前已支持百炼模型市场),用于构建一个能完成长程多步任务的GUI Agent,例如自动化测试、UI代码生成、屏幕阅读辅助工具等。Visual Coding能力的出现让“视觉参考到代码”的转化成为现成的端到端解决方案,开发者无需再在单独部署OCR、图像分割、代码生成管线之间做对接。
对创作者:可以通过Visual Coding直接复刻桌面端专业软件的效果,例如通过一张设计稿自动生成前端代码,显著降低原型开发成本。同时,其视频理解能力(覆盖驾驶场景等)也为视频内容编辑、交互式视频生成提供了新的Agent基础。
值得关注的后续
1. 模型开放程度与定价:虽然API已上线百炼,但模型是否开源、开源许可证如何,以及对开发者的调用成本(API单价、并发限制)将是决定生态规模的关键,建议关注阿里云百炼产品页的更新。
2. 竞品快速跟进的可能:Qwen3.7-Plus的GUI Agent能力直接对标目前主流视觉Agent框架(如GPT-4o的屏幕操作、Gemini的界面分析)。接下来1-2个月内,OpenAI、Google、国内的智谱/月之暗面等是否会在其多模态模型内加入类似的端到端“复刻软件”功能,将是市场角逐的焦点。
3. 实际任务拆解效果:目前模型演示了复刻桌面端软件的效果,但在复杂、不标准、有逻辑约束的真实GUI界面上的稳定性和错误容忍度,还需要更多开发者实际测试验证。建议关注Qwen社区和GitHub上首批开发者的一线实测报告。
来源:量子位 · 每日最新


