
重磅!MiniMax M3 即将发布:稀疏注意力架构突破,百万 Token 上下文效率暴增
一句话看懂:国内 AI 独角兽 MiniMax 即将发布新一代大型模型 M3,核心采用稀疏注意力架构,在处理百万级 Token 的长文本时,将推理速度提升近 10 倍,解码速度提升超 15 倍,显著降低算力成本。这一技术路线变化,有望将大模型竞争从“参数规模”转向“效率与实际可用性”。
事件核心:发生了什么
据 MiniMax AI 工程负责人 Skyler Miao 在社交媒体上的预告,MiniMax M3 即将推出。公开信息显示,M3 的核心创新在于采用了稀疏注意力架构,即通过“索引分支”快速定位关键信息,再由“稀疏分支”进行精确计算,从而避免了传统 Transformer 模型在处理超长上下文时因注意力计算量呈二次增长而导致的算力瓶颈。与前代 M2(支持 100 万 Token 上下文)相比,M3 在预填充阶段的速度提升了 9.7 倍,在解码阶段的速度提升了 15.6 倍。MiniMax 尚未公布具体的参数规模和发布日期,但这一性能数据预示了其在长文本理解、长对话、多文档分析等场景的部署前景。
为什么重要
目前大模型行业普遍面临“长上下文、高算力”的矛盾。M3 的稀疏注意力架构是对这一问题给出的工程化解决方案:在不牺牲性能的前提下,大幅降低推理成本。这可能会推动行业从“堆参数”的竞赛,转向“效率与可用性”的竞争。对于国内 AI 生态而言,MiniMax 在架构创新上的这一突破,也表明国内团队在底层模型设计能力上的提升,有望在下一代长上下文应用中占据主动。
对用户/开发者/创作者的影响
对于开发者而言,M3 若能顺利落地,意味着可以在更小的算力预算下处理百万级 Token 的文档,无论是长合同审核、代码库分析,还是长时间对话,成本都将显著降低。对于企业采购方,这可能改变评估模型的维度:未来选型时,不仅要看模型能力,更需关注单位 Token 的处理成本和响应速度。对于内容创作者和普通用户,更低的推理成本通常意味着更快的响应速度和更低的使用门槛,尤其适合需要频繁进行超长文本摘要或问答的场景。
AI 工具推荐
想把多个 AI 模型放在一个入口?
GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。
推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。
值得关注的后续
第一,M3 的具体发布时间和开源策略如何制定?若开放 API 或模型权重,将对开发者生态产生直接影响。第二,稀疏注意力架构是否能真正在复杂、多轮、多文档场景中稳定运行,需要等待第三方评测验证。第三,以 OpenAI、Google 为代表的海外团队也在探索高效注意力机制,M3 是否能引发国内竞品(如智谱、月之暗面、阿里等)加速跟进,值得持续观察。
来源:AIbase
![[程序员] Trae 海外版使用 GPT 5.4 生成很慢](https://www.chat-gpts.plus/wp-content/uploads/2026/05/ai_cover_5-718-768x403.jpg)

