沿着何恺明团队「漂移模型」再走一步:奖励只需排名,单步文生图偏好优化提速 3.51 倍

西湖大学与香港中文大学(深圳)团队提出了 DrPO 方法,让单步文生图模型不再依赖奖励模型的梯度回传来优化偏好。训练时奖励模型只需对候选图像排序,便可构造漂移场指导模型更新,训练效率相比传统方法提升 3.51 倍,甚至适用于不可微的奖励信号。

沿着何恺明团队「漂移模型」再走一步:奖励只需排名,单步文生图偏好优化提速 3.51 倍

一句话看懂:西湖大学与香港中文大学(深圳)团队提出了 DrPO 方法,让单步文生图模型不再依赖奖励模型的梯度回传来优化偏好。训练时奖励模型只需对候选图像排序,便可构造漂移场指导模型更新,训练效率相比传统方法提升 3.51 倍,甚至适用于不可微的奖励信号。

事件核心:发生了什么

6 月 20 日,一项名为 DrPO(Drifting Preference Optimization)的技术研究引起关注。该工作来自西湖大学姜洲、温研东,以及香港中文大学(深圳)刘圳等人的团队。研究基于何恺明团队年初提出的“漂移模型”(Drifting Model)思路,专门针对单步生成模型(如 SD-Turbo、SDXL-Turbo)的偏好后训练问题。

现有单步模型训练常依赖预训练扩散模型的蒸馏步骤,无法直接套用传统偏好优化方法。DrPO 的解决思路是:让当前模型针对同一个提示词在线采样一批候选图像,奖励模型只对这些图像打分排序,不参与梯度反向传播。高分和低分样本分别在特征空间中产生吸引和排斥,构成“偏好漂移”;同时参考模型与当前模型样本的对比构成“参考漂移”,两者合并后确定更新方向。

关键数据:当目标奖励模型为 HPSv3 这类多模态大模型时,DrPO 相比需要反传梯度的 DRaFT 方法,单次更新时间从 21.62 秒降为 6.17 秒,提速 3.51 倍。此外,DrPO 还能接入 GenEval 等不可微的规则式奖励进行微调。

为什么重要

单步生成模型(一步出图)在速度上优势显著,但训练时因为缺少去噪轨迹,难以获得传统强化学习所需的策略似然信号。DrPO 通过“奖励只排序、不反传”的设计,大幅降低了大型奖励模型带来的训练开销。这意味着开发者可以在同等算力下,更频繁地迭代单步模型的偏好对齐能力。同时,不可微奖励的接入能力拓宽了训练信号来源,例如可以用规则打分、用户点击率等非神经网络信号来指导模型优化,这在工业场景中尤其实用。从技术路线看,DrPO 使单步模型的后训练更接近“黑盒优化”,降低了奖励模型本身成为算力瓶颈的可能性。

对用户/开发者/创作者的影响

对于图像生成应用开发者,DrPO 提供了一种更高效的微调路径。若已部署单步文生图服务(如基于 SD-Turbo 或 SDXL-Turbo),可利用用户反馈信号(如收藏、点赞)构成的排序数据,对模型在线微调,而不必为每个奖励信号训练一个可微模型。对于创作者,后续可能见到更快更新的图像生成工具——模型能更频繁地吸收新偏好、纠正生成缺陷。对企业而言,这意味着在强化学习后训练环节,算力消耗可能降低到原来的四分之一左右,同时还能集成传统上难以接入的评估体系(如质检规则、合规判定)。

GamsGo AI

AI 工具推荐

想把多个 AI 模型放在一个入口?

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。

值得关注的后续

第一,DrPO 的代码已在 GitHub 上开源,产品化落地速度值得观察。目前实验集中在文生图单步模型,延伸到视频生成或文生三维场域的可能性是技术社区关注的方向。第二,离线训练版本目前存在分布偏移和训练崩溃问题,这可能是从学术验证走向稳定训练的关键瓶颈,后续是否有改进方案值得留意。第三,随着单步模型质量提升,其与扩散模型在实际部署中的性价比差异可能进一步扩大,竞品(如 Stability AI 的后续模型)是否会跟进类似思路尚未披露。

来源:Readhub · AI

celebrityanime
celebrityanime
文章: 8979

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注