GRPO 过时了吗？

一句话看懂：智谱在 6 月 13 日开源的 744B 参数模型 GLM-5.2，在长程强化学习阶段放弃了开源社区广泛使用的 GRPO 算法，转向带价值网络的 PPO。这一技术选择，第一次把“GRPO 在长程任务上不适用”这个业界传闻，摆在了公开且可复现的技术博客里。

事件核心：发生了什么

智谱于 2026 年 6 月 13 日完全开源了 GLM-5.2 模型。该模型采用 MIT 协议，参数规模 744B（激活 40B），支持 1M token 上下文，在长程任务基准 FrontierSWE 上以 74.4% 逼近 Claude Opus 4.8 的 75.1%。但技术社区更关注的，是智谱在技术博客中披露的一个细节：长程强化学习阶段，GLM-5.2 放弃了前代 GLM-5.1 使用的 GRPO，改用基于 critic 的 PPO。智谱解释，GRPO 要求将同一问题下的一组输出放在一起比较，但长程智能体任务执行轨迹长短不一，经压缩处理后仍参差不齐，无法形成公平的组内对比。

为什么重要

GRPO 由 DeepSeek 在 2024 年提出，经 R1 模型验证后，几乎成为开源社区训练推理模型的默认范式。其核心优势是无需训练价值网络，通过组内平均奖励做基线，在数学题、单元测试等短任务上既省显存又稳定。但 GLM-5.2 放弃了它，转向更传统、更重的 PPO 价值网络。这一选择将“强化学习算法选择日益任务相关”这一判断，从工业实践和学术实验两个方向（去年底有论文《Learning Without Critics?》在长程任务上也得出类似结论）正式摆上桌面。它说明，随着开源模型从答题选手走向干活的智能体，后训练阶段的算法选型必须跟着任务形态进化，而非停留在单一范式。

对用户/开发者/创作者的影响

对于普通用户，GLM-5.2 是第一个在长程智能体任务上认真考虑替换闭源旗舰（如 Opus、GPT）的开源模型，代码、网站设计等实操博主已开始测试其工作流。对于开发者，这件事意味着在部署开源模型做长程任务时，不应默认使用 GRPO：短程可验证任务（数学、代码单元测试）GRPO 仍够用且便宜；多轮工具调用、奖励稀疏的智能体任务，价值网络可能更优。对于企业采购，这意味着评测模型后训练选型时，需要区分“答题能力”和“干活能力”，前者 GRPO 够用，后者可能需重新评估 PPO 路线的性价比。

AI 工具推荐

想把多个 AI 模型放在一个入口？

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型，适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接：通过此链接购买，我可能获得佣金，不影响你的价格。

值得关注的后续

1. DeepSeek 在 2026 年 4 月发布的 V4 报告中，在分领域专家模型训练阶段仍使用 GRPO，只是合并时改用“在策略蒸馏”。这意味着 GRPO 并未被终结，而是与 PPO 形成分工，可关注后续是否出现统一调度的混合框架。2. 智谱用 slime 框架将训练和大规模推理 rollout 打通，将十余个专家模型并行蒸馏合并进最终模型，整个过程约两天，这套技术栈的开源程度值得关注。3. 学术界 GSPO、DAPO 等 GRPO 变体仍在涌现，但能否补上长程短板，需要更多公开的、可复现的对照实验。

来源：Readhub · AI

事件核心：发生了什么

为什么重要

对用户/开发者/创作者的影响

想把多个 AI 模型放在一个入口？

值得关注的后续

celebrityanime

发表回复取消回复

事件核心：发生了什么

为什么重要

对用户/开发者/创作者的影响

想把多个 AI 模型放在一个入口？

值得关注的后续

celebrityanime

相关文章

中信建投：国产模型加速迭代 算力景气度持续

希望送京东 70 万蓝领兄弟去培训！刘强东：技术壁垒本质上就是剥削 非京东想要 — 快科技 — 科技改变未来

WaterCrawl client rejects JSON responses with Content-Type parameters

发表回复取消回复

中信建投：国产模型加速迭代算力景气度持续

希望送京东 70 万蓝领兄弟去培训！刘强东：技术壁垒本质上就是剥削非京东想要 — 快科技 — 科技改变未来