微软 109 页的技术报告真的，我哭死

一句话看懂：微软发布了一份长达 109 页的 MAI-Thinking-1 技术报告，详细披露了其在预训练和后训练阶段的系统化优化方法，以及一套“自蒸馏续训”的 RL 稳定性策略。这不仅是模型发布，更是一次方法论开源，展现了微软在大模型自研路线上重新发力的姿态。

事件核心：发生了什么

微软 AI 团队上周一口气推出了 7 款模型，其中主打推理的 MAI-Thinking-1 拥有 35B 激活参数 / 1T 总参数量。技术报告的一大看点是提出了三条设计原则：能力应通过自主学习而非蒸馏继承；策略应尽量简单可控；所有决策需经过严格的消融和验证。在训练方法上，微软通过“爬梯子”方式逐步验证架构效果，并使用 Efficiency Gain（EG） 替代传统 loss 对比来评估模型收益。在后训练中，通过 自适应 entropy 控制 和 外层 ratio 裁剪 改进 GRPO 算法，配合 自蒸馏续训 策略——即用 RL 产出的轨迹对一个中间 checkpoint 做 SFT，再以此为起点继续 RL——有效解决了训练过程中的数值不稳定问题。

为什么重要

这份报告的重要性不在于模型参数本身，而在于它公开了一套可复现、可工程化的系统方法论。许多团队在预训练中常遇到“小模型有效、大模型失效”的难题，微软的 EG 评估体系提供了一个更稳定的标尺；后训练中 RL 训练容易发散、回滚也带病根的问题，微软的“自蒸馏+重开”方案给出了一个低成本恢复路径。此外，微软明确选择了 1T 总参这一较大规模，说明其整套训练流程已经成熟到可以支持这样的模型尺寸，侧面反映了其技术储备和算力基础。此举或将推动行业从“模型竞赛”转向“方法论竞赛”，提升技术透明度和可借鉴性。

对用户/开发者/创作者的影响

对开发者而言，报告中关于 GRPO 算法的改进和采样策略（如 top-p masking 防发散、训练时逐渐增加 rollout 长度）可以直接复用在自有推理模型的训练中，降低 RL 训练崩溃的概率。对使用 API 的创作者和企业，MAI-Thinking-1 作为一款 35B 激活参数的推理模型，可能在未来提供成本更低、推理能力更强的 AI 服务，尤其是在 STEM、代码和 agentic 任务场景中。不过目前微软尚未公开 API 定价或模型权重，实际体验还需要等待产品落地。

AI 工具推荐

想把多个 AI 模型放在一个入口？

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型，适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接：通过此链接购买，我可能获得佣金，不影响你的价格。

值得关注的后续

报告内提到的“自蒸馏续训”策略依赖中途 checkpoint 和轨迹收集，这一过程对基础设施和算力要求较高，未来是否会有简化版本或开源实现值得跟踪。另外，MAI-Thinking-1 采用了交错布局的 MoE 结构，其实际推理速度与优化后的显存占用如何，将决定其能否在开发者社区中广泛使用。最后，微软当前将资源重新倾斜至自研路线，与 OpenAI 的竞争关系是否会影响其生态合作或模型商业化策略，是行业需要持续观察的变量。

来源：Readhub · AI

微软 109 页的技术报告真的，我哭死