ICML 2026 | PKU-DAIR 实验室三项成果被 ICML 2026 录用

ICML 2026 | PKU-DAIR 实验室三项成果被 ICML 2026 录用

ICML 2026 | PKU-DAIR 实验室三项成果被 ICML 2026 录用

一句话看懂:北京大学数据与智能实验室(PKU-DAIR)的三项研究被机器学习顶会 ICML 2026 接收,分别解决了大模型强化学习训练效率、长视频生成算力瓶颈和长上下文推理加速三个关键工程难题。

事件核心:发生了什么

ICML(国际机器学习大会)2026 收录了 PKU-DAIR 团队的三篇论文,覆盖大语言模型(LLM)强化学习(RL)、视频生成和长文本推理三个方向:

首先,论文《DARTS》提出了一种“分布感知主动轨迹塑形”框架。在 LLM 强化学习训练中,模型生成响应轨迹长度呈长尾分布,少数超长响应会拖慢整个批次。DARTS 通过双端长度采样、自适应冗余分配和 token 级流式传输,在 64 张 NVIDIA H20 集群上,相比基线系统 VeRL 实现 1.29×–1.77× 的端到端吞吐量提升。

其次,论文《EchoAttention》针对长视频生成模型(如 Wan2.1、CogVideoX)的 3D 全注意力计算瓶颈。发现视频 DiT 中存在“帧块相似性”规律后,设计了包含 Sparse 算子和 Echo 算子的双算子加速框架,通过可学习路由自动选择最优算子。在 Wan2.1-1.3B 上实现 1.97× 端到端加速,CogVideoX1.5-5B 上实现 2.42× 加速,且视频质量(VBench 分数)与全注意力持平。

第三,论文《SALE》聚焦长上下文 LLM 预填充阶段的稀疏注意力加速,通过低比特估计降低计算复杂度,具体论文已在 arXiv 公开。

为什么重要

这三项成果分别对应大模型基础设施的三个关键“硬成本”:强化学习训练效率、视频生成的算力消耗和长上下文推理速度。目前业界在大模型研发中面临三难——追求更长输出、更高质量和更大上下文,但算力开销呈二次或更高增长。PKU-DAIR 团队的研究表明,通过算法-系统协同设计(而非单纯增加硬件),可以在不牺牲质量的前提下大幅降低计算需求。这对大模型从“模型竞赛”转向“工程化落地”阶段,提供了可量产的优化思路。

对用户/开发者/创作者的影响

对开发者而言,DARTS 框架意味着未来使用开源大模型(如 Qwen 系列)进行强化学习训练时,GPU 集群利用率能提升近一倍,直接降低单次训练成本。对视频创作者和工具开发者,EchoAttention 的加速比意味着在消费级显卡上运行长视频生成模型的延迟可能从分钟级缩短到秒级,有利于视频生成 API 的实用化。对于使用长上下文 LLM 的开发者,SALE 的稀疏注意力优化可降低预填充阶段的内存占用和耗时,提升长文档问答、代码补全等场景的响应体验。

值得关注的后续

第一,DARTS 是否会被集成到主流的强化学习训练框架(如 VeRL)中,以及其对 MoE 架构模型的适配效果。第二,EchoAttention 是否开源、能否直接替换现有视频生成模型(如 Open-Sora、Stable Video Diffusion)中的注意力模块,是开发者社区能否实际受益的关键。第三,SALE 的低比特稀疏注意力方案是否与即将推出的下一代 GPU(如 NVIDIA Blackwell 系列)的原生稀疏计算特性兼容,将决定其部署潜力的上限。

来源:Readhub · AI

celebrityanime
celebrityanime
文章: 869

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注