SIGMOD 2027 | StaleFlow:面向数据滞后与长度偏斜的高效异步 RL 后训练系统

北京大学DAIR实验室提出的StaleFlow系统,通过轨迹级数据一致性协议和解耦架构,解决了大模型RL后训练中数据陈旧性与长度偏斜的矛盾,在128张H20 GPU上最高实现2.68倍吞吐提升,且不牺牲模型收敛质量。该工作已被数据库顶会SIGMOD 2027接收。

SIGMOD 2027 | StaleFlow:面向数据滞后与长度偏斜的高效异步 RL 后训练系统

一句话看懂:北京大学DAIR实验室提出的StaleFlow系统,通过轨迹级数据一致性协议和解耦架构,解决了大模型RL后训练中数据陈旧性与长度偏斜的矛盾,在128张H20 GPU上最高实现2.68倍吞吐提升,且不牺牲模型收敛质量。该工作已被数据库顶会SIGMOD 2027接收。

事件核心:发生了什么

随着DeepSeek-R1、OpenAI-o1等模型验证了RL后训练对提升推理能力的价值,业界普遍采用Rollout(生成轨迹)、Reward(打分)、Training(模型更新)三环节解耦的异步架构。但这种架构带来了两个数据管理难题:一是rollout使用的模型版本落后于training,数据陈旧度累积会破坏收敛;二是轨迹长度天然服从长尾分布,导致计算负载严重偏斜。

PKU-DAIR实验室的论文《StaleFlow: Staleness-Aware Data Management for Mitigating Data Skewness in Fully Disaggregated RL Post-Training》被SIGMOD 2027接收。StaleFlow的核心贡献是:引入一个虚拟陈旧性缓冲区(Staleness Buffer)抽象,通过Reserve/Occupy/Consume三个原语对每条轨迹做细粒度版本追踪,在不超过用户指定陈旧性上界的前提下,灵活执行路由、同步、迁移三种协调策略。实验数据显示,相比当前广泛使用的VeRL系统,StaleFlow吞吐量最高提升2.68倍(平均1.91倍),且在陈旧性上界≤3时奖励曲线与无陈旧性的同步系统基本一致。

为什么重要

目前公开信息显示,RL后训练已成为大模型能力提升的关键工序,但现有系统的数据管理方案长期在收敛性和吞吐量之间做零和取舍。StaleFlow从底层数据协议入手而非高层打补丁,首次在工业可接受的陈旧性约束内,实现了负载均衡的弹性调度。这意味着:第一,RL后训练的可扩展性瓶颈被打破,更大规模集群部署成为可能;第二,该方法对训练框架无侵入,可集成到VeRL等主流系统中,降低了技术落地门槛;第三,SIGMOD作为数据库顶会收录该工作,标志着AI训练系统的数据管理问题已成为数据库领域的新研究热点。

对用户/开发者/创作者的影响

对于大模型训练团队和AI基础设施开发者:StaleFlow提供了一种可验证的优化方向,未来可关注其开源代码是否发布,以及是否与DeepSeek、Qwen等主流训练框架集成。对于基于RL后训练的应用开发者:更高效的底层系统意味着推理能力增强模型的训练成本有望降低,进而可能降低API调用价格或缩短模型更新周期。对于算力运营商:StaleFlow在更长响应长度和更大batch size下相对优势更明显,建议关注硬件采购时GPU集群的负载均衡特性,而不仅是单卡算力。

GamsGo AI

AI 工具推荐

想把多个 AI 模型放在一个入口?

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。

值得关注的后续

一是StaleFlow是否会在PKU-DAIR实验室开源,以及能否被集成到VeRL或vLLM等主流推理训练框架中;二是能否在更大规模集群(如千卡级)上复现其可扩展性优势;三是其他训练基础设施团队(如Anyscale、Together AI等)是否会在协调层引入类似策略,形成新的业界标准。

来源:Readhub · AI

celebrityanime
celebrityanime
文章: 8876

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注