蚂蚁百灵 Ring-2.6-1T 开源 Agent 执行能力全面增强

蚂蚁百灵 Ring-2.6-1T 开源 Agent 执行能力全面增强

蚂蚁百灵 Ring-2.6-1T 开源 Agent 执行能力全面增强

一句话看懂:蚂蚁百灵于 5 月 15 日开源了旗舰级推理模型 Ring-2.6-1T,权重已上线 Hugging Face 和 ModelScope。该模型通过引入可调节的“推理努力”机制,将 Agent(智能体)在真实生产场景中的执行能力推向新高度,尤其是高频工作流下的工具协作能力值得关注。

事件核心:发生了什么

5 月 15 日,蚂蚁百灵正式开源了其旗舰推理模型 Ring-2.6-1T,模型权重已同步上传至 Hugging Face 和 ModelScope 平台。此前,该模型已在 OpenRouter 上线并提供了限时免费的 API 体验。

Ring-2.6-1T 的设计核心是“按需思考”,它引入了可调节的 Reasoning Effort(推理努力)机制,包含 high 和 xhigh 两种模式。high 模式主要服务于高频的 Agent 工作流,如多轮对话、工具调用和任务分解;xhigh 模式则针对数学竞赛、科研分析等复杂任务。在关键评测上,high 模式下 PinchBench 得分 87.60,Tau2-Bench Telecom 达 95.32;xhigh 模式下 AIME 26 得分 95.83,GPQA Diamond 达到 88.27。

训练层面,该模型采用了异步强化学习(Async RL)架构,将策略采样与参数更新解耦,以解决传统同步训练中 GPU 资源闲置的问题。同时,百灵将此前在 Ring-1T 中验证的“棒冰算法”引入该架构以稳定训练过程,相关技术细节预计将在后续技术报告中公开。

为什么重要

这一开源举措的价值体现在两个层面:第一,它并非单纯追求更高的评测分数,而是刻意强化模型在“真实生产环境”中的 Agent 执行能力。Ring-2.6-1T 的 high 模式在 Agent 场景评测中表现出显著领先性,这为将大模型接入企业级工作流提供了更可靠的底层模型选择。

第二,“按需推理”的工程化设计降低了算力浪费。开发者可以根据任务复杂度灵活分配计算资源,这种从“追求上限”到“优化性价比”的思路转变,可能推动行业从单纯比拼模型尺寸转向比拼实际应用中的推理效率。市场反馈已经显现:此前百灵发布的 Ling-2.6-flash 匿名测试版本“Elephant Alpha”在 OpenRouter 上连续多日位居 Trending 榜首,日均 tokens 调用量达到 100B 级别。

对用户/开发者/创作者的影响

对开发者:获得了一个可直接在本地部署、无需依赖第三方 API 的强推理模型,尤其适合构建 Agent 类应用(如自动化客服、代码辅助、数据分析)。通过切换 high 或 xhigh 模式,开发者可以在响应速度和推理深度之间找到灵活平衡。

GamsGo AI

AI 工具推荐

想把多个 AI 模型放在一个入口?

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。

对企业用户:如果企业正在评估将大模型用于内部工作流自动化(如电信客服、金融数据分析),Ring-2.6-1T 在 Tau2-Bench Telecom 上 95.32 的得分意味着它在特定行业场景下可能有更强的执行稳定性。

对 AI 技术关注者与创作者:开源权重允许更深入的技术复现与二次开发,但当前模型的推理资源管理(如节点配置、显存需求)尚需实践检验,建议在进行大规模部署前先通过 OpenRouter 限时免费 API 进行测试试错。

值得关注的后续

  • 训练细节公开进度:百灵承诺将发布包含异步强化学习及“棒冰算法”的技术报告,报告的具体发布时间和稳定性论证将是社区判断其技术路线是否可复现的关键依据。
  • 商业化路径:开源后是否影响百灵商业 API 的定价策略?Ring-2.6-1T 在 OpenRouter 上的免费 API 窗口期结束后,价格如何设定值得观察。
  • 竞品反应:近期多个国产大模型密集开源,Ring-2.6-1T 强调“Agent 执行效率”,可能会促使同类模型调整评测侧重点和工程优化方向,尤其是在工具调用与多轮对话稳定性方面。

来源:量子位 · 每日最新

celebrityanime
celebrityanime
文章: 2052

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注