GRPO 过时了吗?

智谱在 6 月 13 日开源的 744B 参数模型 GLM-5.2,在长程强化学习阶段放弃了开源社区广泛使用的 GRPO 算法,转向带价值网络的 PPO。这一技术选择,第一次把“GRPO 在长程任务上不适用”这个业界传闻,摆在了公开且可复现的技术博客里。

GRPO 过时了吗?

一句话看懂:智谱在 6 月 13 日开源的 744B 参数模型 GLM-5.2,在长程强化学习阶段放弃了开源社区广泛使用的 GRPO 算法,转向带价值网络的 PPO。这一技术选择,第一次把“GRPO 在长程任务上不适用”这个业界传闻,摆在了公开且可复现的技术博客里。

事件核心:发生了什么

智谱于 2026 年 6 月 13 日完全开源了 GLM-5.2 模型。该模型采用 MIT 协议,参数规模 744B(激活 40B),支持 1M token 上下文,在长程任务基准 FrontierSWE 上以 74.4% 逼近 Claude Opus 4.8 的 75.1%。但技术社区更关注的,是智谱在技术博客中披露的一个细节:长程强化学习阶段,GLM-5.2 放弃了前代 GLM-5.1 使用的 GRPO,改用基于 critic 的 PPO。智谱解释,GRPO 要求将同一问题下的一组输出放在一起比较,但长程智能体任务执行轨迹长短不一,经压缩处理后仍参差不齐,无法形成公平的组内对比。

为什么重要

GRPO 由 DeepSeek 在 2024 年提出,经 R1 模型验证后,几乎成为开源社区训练推理模型的默认范式。其核心优势是无需训练价值网络,通过组内平均奖励做基线,在数学题、单元测试等短任务上既省显存又稳定。但 GLM-5.2 放弃了它,转向更传统、更重的 PPO 价值网络。这一选择将“强化学习算法选择日益任务相关”这一判断,从工业实践和学术实验两个方向(去年底有论文《Learning Without Critics?》在长程任务上也得出类似结论)正式摆上桌面。它说明,随着开源模型从答题选手走向干活的智能体,后训练阶段的算法选型必须跟着任务形态进化,而非停留在单一范式。

对用户/开发者/创作者的影响

对于普通用户,GLM-5.2 是第一个在长程智能体任务上认真考虑替换闭源旗舰(如 Opus、GPT)的开源模型,代码、网站设计等实操博主已开始测试其工作流。对于开发者,这件事意味着在部署开源模型做长程任务时,不应默认使用 GRPO:短程可验证任务(数学、代码单元测试)GRPO 仍够用且便宜;多轮工具调用、奖励稀疏的智能体任务,价值网络可能更优。对于企业采购,这意味着评测模型后训练选型时,需要区分“答题能力”和“干活能力”,前者 GRPO 够用,后者可能需重新评估 PPO 路线的性价比。

GamsGo AI

AI 工具推荐

想把多个 AI 模型放在一个入口?

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。

值得关注的后续

1. DeepSeek 在 2026 年 4 月发布的 V4 报告中,在分领域专家模型训练阶段仍使用 GRPO,只是合并时改用“在策略蒸馏”。这意味着 GRPO 并未被终结,而是与 PPO 形成分工,可关注后续是否出现统一调度的混合框架。2. 智谱用 slime 框架将训练和大规模推理 rollout 打通,将十余个专家模型并行蒸馏合并进最终模型,整个过程约两天,这套技术栈的开源程度值得关注。3. 学术界 GSPO、DAPO 等 GRPO 变体仍在涌现,但能否补上长程短板,需要更多公开的、可复现的对照实验。

来源:Readhub · AI

celebrityanime
celebrityanime
文章: 9277

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注