蚂蚁万亿参数思考模型来了!实测 AIME 真题难不倒,会写爽文、规划出行

蚂蚁万亿参数思考模型来了!实测 AIME 真题难不倒,会写爽文、规划出行

蚂蚁万亿参数思考模型来了!实测 AIME 真题难不倒,会写爽文、规划出行

一句话看懂:蚂蚁集团百灵大模型于5月9日推出万亿参数级思考模型Ring-2.6-1T,该模型在数学竞赛、路径规划等复杂推理任务中表现稳定,同时在Agent和代码生成等真实场景应用中已上线OpenRouter供限时免费体验,后续将开源。这一进展标志着中国AI企业在大规模推理模型和开源生态建设上的实质性突破。

事件核心:发生了什么

蚂蚁百灵大模型发布的Ring-2.6-1T是一款面向真实复杂任务场景的万亿参数级思考模型,已上线OpenRouter并提供限时一周免费体验,后续将正式开源。该模型的核心创新在于引入可调节的Reasoning Effort机制,允许开发者根据任务类型在high(面向Agent、编码、多步工具调用)与xhigh(面向数学、科研、复杂逻辑分析)两种推理强度间切换。

官方评测数据显示,Ring-2.6-1T在多项基准测试中表现抢眼:high模式下PinchBench得分87.60,高于Claude-Opus-4.7、GPT-5.4及Gemini-3.1-Pro等海外模型;xhigh模式下ARC-AGI-V2得分77.78,与Gemini-3.1-Pro和Claude-Opus-4.7处于同一水平,AIME 26得分95.83,GPQA Diamond达到88.27。

实测验证了其能力:在高难推理任务中,Ring-2.6-1T仅用1分钟便正确解答了一道AIME 2026真题,并在北京大兴机场至首都机场的公共交通路线规划中给出了与高德地图推荐一致的多方案比选;在长文本创作任务中,它能完整输出包含世界观、核心人物、100章大纲及开篇的都市异能小说,节奏紧凑。但在3D像素艺术编程任务中,模型虽然完成了HTML结构搭建,却未能正确理解“骑行”动作,导致画面呈现自行车轮旋转而非鹈鹕骑车,且画面比例失衡。

为什么重要

目前公开信息显示,Ring-2.6-1T是少数由中国公司开发的、达到万亿参数级别并计划开源的思考模型。其重要性体现在三个方面:第一,它直接挑战了OpenAI、Anthropic和Google在高端推理模型上的主导地位,在数学和科学推理等关键维度上已具备可比竞争力;第二,可调节的Reasoning Effort机制为开发者提供了更精细的成本与精度控制手段,有望推动Agent和自动化工具类应用的成本结构优化;第三,明确的开源路线将吸引全球开发者生态参与,加速中国AI模型在海外的部署与适配,这在当前中美AI竞争格局中具有战略价值。

对用户/开发者/创作者的影响

对开发者而言,Ring-2.6-1T的上线提供了又一个高性能、可定制的推理模型选择,尤其是其high模式在工具调用和多步推理任务中表现出色,可用于构建客服、自动化脚本、数据分析等Agent系统。开源计划则意味着未来可本地或私有化部署,减少对商用API的依赖。
对创作者(如网文作家、路线规划工具用户)而言,该模型在长文本规划与逻辑推演上的能力已通过实测验证,能够承担大纲设计、多方案比选等辅助工作,但编程和代码生成等任务仍存在细节缺陷,需谨慎用于生产级前端开发或复杂交互设计。
对普通用户而言,短期内影响有限,但若模型持续优化并进入下游应用(如智能理财助手、出行推荐),将间接改善使用体验。

值得关注的后续

首先,Ring-2.6-1T的开源时间表和技术细节(如模型大小、许可协议、微调门槛)尚未公布,这是决定其生态影响力的关键变量。其次,实测暴露的编程任务缺陷(如误解动作语义、比例失调)提示其在多模态或空间理解方面仍有短板,后续迭代能否修复将决定其应用边界。最后,竞品动态值得关注:在蚂蚁发布前,DeepSeek、阿里云等也在推动开源推理模型,该赛道竞争日趋激烈,价格和推理效率的比拼可能在未来数月内激化。

来源:Readhub · AI

celebrityanime
celebrityanime
文章: 879

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注