蚂蚁万亿参数思考模型来了！实测 AIME 真题难不倒，会写爽文、规划出行

一句话看懂：蚂蚁集团于5月9日发布百灵大模型Ring-2.6-1T，一款面向复杂任务场景的万亿参数思考模型，已上线OpenRouter并开放一周免费体验。它在AIME数学竞赛、路线规划等推理任务中表现稳定，但在3D前端编程任务中仍有细节缺陷，暴露出当前万亿级模型在复杂执行场景中的共性问题。

事件核心：发生了什么

蚂蚁集团旗下百灵大模型正式推出Ring-2.6-1T，这是一款万亿参数级别的思考模型，目前已在OpenRouter平台开放限时一周免费体验，并承诺后续将正式开源。该模型最大的特点是引入了可调节的Reasoning Effort机制，开发者可在high和xhigh两种推理强度间切换：high面向Agent、Coding、多步工具调用等高频任务，强调效率与成本；xhigh则面向数学、科研、复杂逻辑分析等高难度任务。

官方评测数据显示，Ring-2.6-1T high在PinchBench（得分87.60）、ClawEval（63.82）和Tau2-Bench Telecom（95.32）等真实任务执行类测试中排名靠前，其中PinchBench表现高于Claude-Opus-4.7 xhigh、GPT-5.4 xHigh和Gemini-3.1-Pro high。xhigh版本在ARC-AGI-V2（77.78）、AIME 26（95.83）和GPQA Diamond（88.27）等高难推理任务中也取得不错分数，ARC-AGI-V2成绩与Gemini-3.1-Pro high和Claude-Opus-4.7 xhigh处于同一水平。

为什么重要

万亿参数思考模型历来是OpenAI、Google、Anthropic等海外巨头的竞技场，国内厂商此前更多聚焦于千亿级或对话模型。蚂蚁此次推出Ring-2.6-1T并承诺开源，意味着国产大模型在规模与推理能力上首次进入万亿级赛道。更重要的是，它提供了可调节的推理强度机制——这种设计思路试图在推理成本与效果之间找到平衡，让开发者根据任务复杂度动态分配算力，可能推动更多中小团队在实际业务中使用大模型。此外，该模型在真实任务执行类评测（如PinchBench）中优于Claude-Opus-4.7等海外竞品，说明其在工具调用、多步任务等场景具备商业化落地的竞争力。

对用户/开发者/创作者的影响

对于开发者：Ring-2.6-1T支持OpenRouter API调用，且提供一周免费试用，开发者可低成本测试模型在代码生成、Agent框架中的表现。值得关注的是，它支持high/xhigh两种推理模式，允许开发者根据Token预算灵活选择，这在万亿级模型中较为罕见，可能降低企业使用门槛。但实测显示，模型在复杂前端任务（如3D像素画）中仍有理解偏差和代码报错，说明编程能力尚未成熟，不适合对代码质量要求极高的场景。

对于创作者：模型在长文本创作任务中表现良好，能完成详细的小说设定、100章大纲及开篇正文，对世界观和角色刻画较为完整。对于需要大量内容大纲或素材框架的网文作者、剧本创作者，这是一个可用的效率工具。但需要注意，模型生成内容的质量仍需人工校验和润色。

对于普通用户：从路线规划测试看，模型能结合地铁线路网给出两套可行方案，并包含票价、换乘次数等细节，与主流地图推荐一致。作为日常问答或生活辅助工具，其推理能力基本可靠。不过目前免费体验期仅一周，后续定价和访问方式尚未公布。

值得关注的后续

1. 开源节奏与社区生态：蚂蚁承诺Ring-2.6-1T将正式开源。若如期开放，意味着万亿级思考模型的权重和实现细节将向社区公开，可能吸引研究者进行二次微调或任务适配，加速国内大模型在推理能力上的迭代。需关注开源许可证类型（是否商用友好）以及是否提供量化版本。

2. 成本与商业化落地：万亿参数模型推理成本远高于千亿级模型。蚂蚁目前未公布API定价，免费期后的收费标准将是企业采用的关键变量。能否推出类似DeepSeek的低成本蒸馏版本，或通过推理强度调节实现差异化定价，直接影响其市场竞争力。

3. 竞品反应与行业对标：蚂蚁此次在PinchBench等评测中超越Claude-Opus-4.7和GPT-5.4等海外模型。如果该成绩在第三方复测中稳定成立，可能改变行业对国产模型在复杂工具调用能力上的固有认知。后续需要关注Kimi、通义千问等其他国内厂商是否跟进万亿级思考模型，以及海外厂商在开源层面如何回应。

来源：Readhub · AI

蚂蚁万亿参数思考模型来了！实测 AIME 真题难不倒，会写爽文、规划出行