
一句话看懂:智谱在 6 月 13 日开源的 744B 参数模型 GLM-5.2,在长程强化学习阶段放弃了开源社区广泛使用的 GRPO 算法,转向带价值网络的 PPO。这一技术选择,第一次把“GRPO 在长程任务上不适用”这个业界传闻,摆在了公开且可复现的技术博客里。
事件核心:发生了什么
智谱于 2026 年 6 月 13 日完全开源了 GLM-5.2 模型。该模型采用 MIT 协议,参数规模 744B(激活 40B),支持 1M token 上下文,在长程任务基准 FrontierSWE 上以 74.4% 逼近 Claude Opus 4.8 的 75.1%。但技术社区更关注的,是智谱在技术博客中披露的一个细节:长程强化学习阶段,GLM-5.2 放弃了前代 GLM-5.1 使用的 GRPO,改用基于 critic 的 PPO。智谱解释,GRPO 要求将同一问题下的一组输出放在一起比较,但长程智能体任务执行轨迹长短不一,经压缩处理后仍参差不齐,无法形成公平的组内对比。
为什么重要
GRPO 由 DeepSeek 在 2024 年提出,经 R1 模型验证后,几乎成为开源社区训练推理模型的默认范式。其核心优势是无需训练价值网络,通过组内平均奖励做基线,在数学题、单元测试等短任务上既省显存又稳定。但 GLM-5.2 放弃了它,转向更传统、更重的 PPO 价值网络。这一选择将“强化学习算法选择日益任务相关”这一判断,从工业实践和学术实验两个方向(去年底有论文《Learning Without Critics?》在长程任务上也得出类似结论)正式摆上桌面。它说明,随着开源模型从答题选手走向干活的智能体,后训练阶段的算法选型必须跟着任务形态进化,而非停留在单一范式。
对用户/开发者/创作者的影响
对于普通用户,GLM-5.2 是第一个在长程智能体任务上认真考虑替换闭源旗舰(如 Opus、GPT)的开源模型,代码、网站设计等实操博主已开始测试其工作流。对于开发者,这件事意味着在部署开源模型做长程任务时,不应默认使用 GRPO:短程可验证任务(数学、代码单元测试)GRPO 仍够用且便宜;多轮工具调用、奖励稀疏的智能体任务,价值网络可能更优。对于企业采购,这意味着评测模型后训练选型时,需要区分“答题能力”和“干活能力”,前者 GRPO 够用,后者可能需重新评估 PPO 路线的性价比。
AI 工具推荐
想把多个 AI 模型放在一个入口?
GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。
推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。
值得关注的后续
1. DeepSeek 在 2026 年 4 月发布的 V4 报告中,在分领域专家模型训练阶段仍使用 GRPO,只是合并时改用“在策略蒸馏”。这意味着 GRPO 并未被终结,而是与 PPO 形成分工,可关注后续是否出现统一调度的混合框架。2. 智谱用 slime 框架将训练和大规模推理 rollout 打通,将十余个专家模型并行蒸馏合并进最终模型,整个过程约两天,这套技术栈的开源程度值得关注。3. 学术界 GSPO、DAPO 等 GRPO 变体仍在涌现,但能否补上长程短板,需要更多公开的、可复现的对照实验。
来源:Readhub · AI

![[开源软件] 开源了一个自托管的 Agent 编排项目,不想再用拖拽画工作流了](https://www.chat-gpts.plus/wp-content/uploads/2026/06/ai_cover_4-832-768x403.jpg)
