阿里发布 Qwen3.7-Plus 模型，升级多模态交互混合 AI 智能体

一句话看懂：阿里云在 2026 年 6 月 2 日推出 Qwen3.7-Plus 模型，这是一款在多模态交互和智能体任务上强化的版本，核心变化是让模型不仅能“看”和“想”，还能执行具体的软件操作和办公流程。该模型在视觉基准测试中帮助阿里进入全球前五，并已通过阿里云百炼平台提供服务。

事件核心：发生了什么

阿里千问团队发布 Qwen3.7-Plus，这是 Qwen3.7 系列的多模态升级版。官方将其定位为“视觉与语言统一的智能体基座”，意味着它不再是单纯的文本对话模型，而是能够同时理解图像、视频、屏幕截图和文字，并在 GUI（图形用户界面）、CLI（命令行界面）及工具环境中直接完成任务。该模型保留了 Qwen3.7 原有的文本编码、工具使用和生产工作流能力，同时重点增强了视觉推理和跨模态任务处理。在公开的 Vision Arena 评测中，Qwen3.7-Plus 帮助阿里获得了全球前五、中国第一的成绩。纯文本能力方面，它接近 Max 级别模型的表现，支持推理、指令遵循和多语言任务。目前，模型已通过阿里云百炼提供 API 服务，用户也可在 Qwen Studio 进行交互体验。

为什么重要

Qwen3.7-Plus 的推出表明，阿里云正将竞争焦点从单一的文本对话质量，转向“模型即智能体”的综合能力。区别于此前许多模型在静态图片描述或视频理解上的改进，Qwen3.7-Plus 强调“做得到”——即模型可以直接操作软件界面、执行流程任务。这一方向直接对标了当前业界对 AI 助手从信息提供者向行动执行者升级的预期。此外，在多个多模态评测集（如 BabyVision、MathVision、ScreenSpot Pro、OSWorld 等）中取得的显著提升，表明该模型在处理复杂视觉逻辑和跨模态任务上取得了可度量的进展，这对于企业级自动化、RPA（机器人流程自动化）和无代码开发领域具有直接参考价值。

对用户/开发者/创作者的影响

对于开发者而言，Qwen3.7-Plus 通过阿里云百炼提供 API 部署，降低了构建多模态智能体应用的门槛。开发者可以直接调用模型来完成诸如从截图生成代码、自动填写表单、理解视频内容并产出摘要等任务，而不需要分别训练视觉模型和文本模型。对于企业用户，该模型可用于文档审核、GUI 自动化测试以及跨系统数据迁移等场景。对于创作者和内容运营者，模型更强的视觉推理能力意味着它能够更准确地理解图像中的逻辑关系（例如图表解读、界面元素识别），从而辅助进行更复杂的图文创作和交互式内容生成。需要指出的是，目前模型的具体定价和上下文长度等参数尚未完全披露，用户在选择接入前需关注后续官方文档。

AI 工具推荐

想把多个 AI 模型放在一个入口？

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型，适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接：通过此链接购买，我可能获得佣金，不影响你的价格。

值得关注的后续

首先，Qwen3.7-Plus 的开源计划尚未公布。如果阿里后续选择开源该模型，将吸引更多社区开发者在本地或私有化环境中进行微调，从而快速验证其在特定行业（如金融、医疗、制造业）的应用价值。其次，模型的实际执行成功率仍是关键指标。目前评测成绩来自标准基准测试，其在真实办公软件（如复杂 Excel 宏操作、多步骤 ERP 流程）中的稳定性有待第三方验证。最后，竞品动向值得关注。字节、百度等国内厂商以及 OpenAI、Google 的多模态智能体路线均处于快速迭代阶段，阿里 Qwen3.7-Plus 的实际落地速度和用户反馈将在接下来数月内直接影响国内企业级 AI 助理市场的竞争态势。

来源：Readhub · AI

阿里发布 Qwen3.7-Plus 模型，升级多模态交互混合 AI 智能体