
今日直播|NeurIPS/ACL/ICLR 顶会洞察:可扩展强化学习的三条边界
一句话看懂:清华大学何秉翔博士在智源 Talk 中,基于三篇顶会论文系统回答了强化学习规模化过程中的三个核心争议:训练配方是否必须越来越复杂、无监督 RLVR 能否超越人类专家、密集 token 监督是否存在隐性代价。这些问题直接关系到 OpenAI o3、DeepSeek-R1 等模型未来能否继续突破推理天花板。
事件核心:发生了什么
5 月 9 日,清华大学博士生何秉翔在智源社区进行线上分享,围绕“可扩展强化学习的三条边界”展开。他介绍了团队的三项最新工作:JustRL(探讨 Recipe 复杂度是否必然指数增长)、Unsupervised RLVR(研究无监督强化学习下模型在超越人类专家后的演进空间)以及 Rethinking OPD(分析 On-Policy Distillation 密集 token 级监督的隐性代价)。这些工作分别来自 NeurIPS、ACL、ICLR 等顶级会议,针对当前用大规模 RL 训练 OpenAI o3、DeepSeek-R1、Gemini 3 等模型时面临的关键瓶颈,给出了系统性的实验与理论回答。
为什么重要
目前,业界普遍通过增加 RL 训练规模来推动大模型推理能力提升,但“RL 到底能 scale 到哪里”一直没有明确答案。何秉翔团队的三项工作点出了三个容易忽视的陷阱:一是社区陷入“trick 军备竞赛”,Recipe 复杂度是否真的与提升效果成正比;二是人工标注成本暴涨,无监督 RLVR 一旦模型超越人类专家,评价信号是否还可靠;三是 On-Policy Distillation 看似提供“免费午餐”,但密集 token 级监督可能引入额外偏差。这些问题不仅影响学术研究方向,也直接关系到企业选择 RL 技术路线的成本与效率。
对用户/开发者/创作者的影响
对于使用大模型 API 的开发者而言,RL 规模化路径的清晰化意味着未来模型推理能力提升的确定性更高,同时可能降低对复杂调参技巧的依赖。对于从事大模型训练的团队,这三项工作提示了几个实际风险:投入大量算力做 On-Policy Distillation 未必划算;人工标注成本在模型逼近专家水平后可能急剧上升。目前公开信息显示,相关论文地址已在 arXiv 发布(JustRL: 2512.16649;Unsupervised RLVR: 2603.08660;Rethinking OPD: 2604.13016),研究者可直接查阅实验细节。
值得关注的后续
第一,这三项工作的实验结论是否会被其他团队复现和扩展,特别是在 DeepSeek、Google 等公司尚未公开自身 RL scaling 策略的情况下。第二,JustRL 提出的“Recipe 未必更复杂”观点是否会导致社区转向更简洁的训练方案,从而降低中小团队进入大模型 RL 的门槛。第三,无监督 RLVR 在超越人类专家场景下的实际效果,仍需看后续有没有在更大参数规模模型上进行验证的更新论文或报告。
来源:Readhub · AI


