Step 3.7 Flash 重磅发布：Agent 效率新时代真正到来

一句话看懂：Step 3.7 Flash 于 5 月 29 日正式发布，一个基于 MoE 架构的开源模型（Apache 2.0 协议），在 Agent 任务、代码生成和视觉搜索等多项基准测试中取得领先，尤其通过强化感知-行动循环和提升工具调用可靠性，直接回应了 Agent 应用场景中效率低、易出错的核心痛点。

事件核心：发生了什么

Step 3.7 Flash 是专为 Agentic、编码、搜索和多模态工作流设计的模型。其核心架构为 198B 稀疏 MoE（混合专家模型），但推理时仅激活约 11B 参数，最高推理速度达到 400 TPS，支持高达 256K 的上下文长度，并提供三种推理等级。在基准测试中，它在 ClawEval-1.1（67.1 分）、SimpleVQA Search（79.2 分）和 SWE-PRO（56.3 分）上均排名前两位，在 V* Python 代码理解任务上得分 95.3。模型权重以 Apache 2.0 开源协议发布，并已兼容 Claude Code、KiloCode、Hermes Agent 等主流 Agent 框架及 MCP 协议，也支持在 Mac Studio M4Max、DGX Spark 等本地硬件上运行。

为什么重要

Step 3.7 Flash 的发布意义在于它从底层工程上解决了 Agent 落地时的两个关键瓶颈：一是通过稀疏 MoE 架构显著降低了推理成本，使得每秒 400 Token 的高吞吐能力在部署时变得经济可行；二是工具调用的可靠性得到实质提升，在所有难度级别的 τ²-bench 上成功率超过 98%，有效减少了“目标漂移”和调用失败等常见问题。这直接挑战了当前 Agent 市场对闭源模型（如 OpenAI 和 Anthropic 的方案）的依赖，为开发团队提供了一个高性能且开源可控的替代选择。

对用户/开发者/创作者的影响

对于开发者而言，Step 3.7 Flash 提供了“看见就能操作”的能力——既能理解 UI 界面、图表和文档，也能据此自主编写代码或调用工具。这降低了构建复杂 Agent 应用（如自主浏览器操作、自动化数据抓取、多步骤代码生成）的入门门槛。同时，由于其开源特性，团队可以在本地搭建或基于云 API 灵活部署，对隐私敏感场景（如金融、医疗）更具吸引力。对普通应用创作者而言，该模型的高成功率意味着可以更可靠地编排复杂的自动化流程，减少人工干预。

AI 工具推荐

想把多个 AI 模型放在一个入口？

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型，适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接：通过此链接购买，我可能获得佣金，不影响你的价格。

值得关注的后续

首先，开源社区对稀疏 MoE 模型在 Agent 场景下的工程优化（如显存调度与推理加速）将如何演进，直接影响本地部署的实际体验。其次，闭源模型厂商（如 OpenAI 的 GPT 系列和 Anthropic 的 Claude 系列）是否会因开源方案在效率和成本上的突破而调整 API 定价策略。最后，目前公开信息显示该模型在多模态理解与可靠执行之间的闭环能力正处于初期落地阶段，后续是否有第三方独立评测验证其在高复杂度、长链任务上的稳定性，是判断其长期竞争力的关键。

来源：AIbase

Step 3.7 Flash 重磅发布：Agent 效率新时代真正到来