
蚂蚁万亿参数思考模型来了!实测 AIME 真题难不倒,会写爽文、规划出行
一句话看懂:蚂蚁集团于5月9日发布百灵大模型Ring-2.6-1T,一款面向复杂任务场景的万亿参数思考模型,已上线OpenRouter并开放一周免费体验。它在AIME数学竞赛、路线规划等推理任务中表现稳定,但在3D前端编程任务中仍有细节缺陷,暴露出当前万亿级模型在复杂执行场景中的共性问题。
事件核心:发生了什么
蚂蚁集团旗下百灵大模型正式推出Ring-2.6-1T,这是一款万亿参数级别的思考模型,目前已在OpenRouter平台开放限时一周免费体验,并承诺后续将正式开源。该模型最大的特点是引入了可调节的Reasoning Effort机制,开发者可在high和xhigh两种推理强度间切换:high面向Agent、Coding、多步工具调用等高频任务,强调效率与成本;xhigh则面向数学、科研、复杂逻辑分析等高难度任务。
官方评测数据显示,Ring-2.6-1T high在PinchBench(得分87.60)、ClawEval(63.82)和Tau2-Bench Telecom(95.32)等真实任务执行类测试中排名靠前,其中PinchBench表现高于Claude-Opus-4.7 xhigh、GPT-5.4 xHigh和Gemini-3.1-Pro high。xhigh版本在ARC-AGI-V2(77.78)、AIME 26(95.83)和GPQA Diamond(88.27)等高难推理任务中也取得不错分数,ARC-AGI-V2成绩与Gemini-3.1-Pro high和Claude-Opus-4.7 xhigh处于同一水平。
为什么重要
万亿参数思考模型历来是OpenAI、Google、Anthropic等海外巨头的竞技场,国内厂商此前更多聚焦于千亿级或对话模型。蚂蚁此次推出Ring-2.6-1T并承诺开源,意味着国产大模型在规模与推理能力上首次进入万亿级赛道。更重要的是,它提供了可调节的推理强度机制——这种设计思路试图在推理成本与效果之间找到平衡,让开发者根据任务复杂度动态分配算力,可能推动更多中小团队在实际业务中使用大模型。此外,该模型在真实任务执行类评测(如PinchBench)中优于Claude-Opus-4.7等海外竞品,说明其在工具调用、多步任务等场景具备商业化落地的竞争力。
对用户/开发者/创作者的影响
对于开发者:Ring-2.6-1T支持OpenRouter API调用,且提供一周免费试用,开发者可低成本测试模型在代码生成、Agent框架中的表现。值得关注的是,它支持high/xhigh两种推理模式,允许开发者根据Token预算灵活选择,这在万亿级模型中较为罕见,可能降低企业使用门槛。但实测显示,模型在复杂前端任务(如3D像素画)中仍有理解偏差和代码报错,说明编程能力尚未成熟,不适合对代码质量要求极高的场景。
对于创作者:模型在长文本创作任务中表现良好,能完成详细的小说设定、100章大纲及开篇正文,对世界观和角色刻画较为完整。对于需要大量内容大纲或素材框架的网文作者、剧本创作者,这是一个可用的效率工具。但需要注意,模型生成内容的质量仍需人工校验和润色。
对于普通用户:从路线规划测试看,模型能结合地铁线路网给出两套可行方案,并包含票价、换乘次数等细节,与主流地图推荐一致。作为日常问答或生活辅助工具,其推理能力基本可靠。不过目前免费体验期仅一周,后续定价和访问方式尚未公布。
值得关注的后续
1. 开源节奏与社区生态:蚂蚁承诺Ring-2.6-1T将正式开源。若如期开放,意味着万亿级思考模型的权重和实现细节将向社区公开,可能吸引研究者进行二次微调或任务适配,加速国内大模型在推理能力上的迭代。需关注开源许可证类型(是否商用友好)以及是否提供量化版本。
2. 成本与商业化落地:万亿参数模型推理成本远高于千亿级模型。蚂蚁目前未公布API定价,免费期后的收费标准将是企业采用的关键变量。能否推出类似DeepSeek的低成本蒸馏版本,或通过推理强度调节实现差异化定价,直接影响其市场竞争力。
3. 竞品反应与行业对标:蚂蚁此次在PinchBench等评测中超越Claude-Opus-4.7和GPT-5.4等海外模型。如果该成绩在第三方复测中稳定成立,可能改变行业对国产模型在复杂工具调用能力上的固有认知。后续需要关注Kimi、通义千问等其他国内厂商是否跟进万亿级思考模型,以及海外厂商在开源层面如何回应。
来源:Readhub · AI


