沿着何恺明团队「漂移模型」再走一步：奖励只需排名，单步文生图偏好优化提速 3.51 倍

一句话看懂：西湖大学与香港中文大学（深圳）团队提出了 DrPO 方法，让单步文生图模型不再依赖奖励模型的梯度回传来优化偏好。训练时奖励模型只需对候选图像排序，便可构造漂移场指导模型更新，训练效率相比传统方法提升 3.51 倍，甚至适用于不可微的奖励信号。

事件核心：发生了什么

6 月 20 日，一项名为 DrPO（Drifting Preference Optimization）的技术研究引起关注。该工作来自西湖大学姜洲、温研东，以及香港中文大学（深圳）刘圳等人的团队。研究基于何恺明团队年初提出的“漂移模型”（Drifting Model）思路，专门针对单步生成模型（如 SD-Turbo、SDXL-Turbo）的偏好后训练问题。

现有单步模型训练常依赖预训练扩散模型的蒸馏步骤，无法直接套用传统偏好优化方法。DrPO 的解决思路是：让当前模型针对同一个提示词在线采样一批候选图像，奖励模型只对这些图像打分排序，不参与梯度反向传播。高分和低分样本分别在特征空间中产生吸引和排斥，构成“偏好漂移”；同时参考模型与当前模型样本的对比构成“参考漂移”，两者合并后确定更新方向。

关键数据：当目标奖励模型为 HPSv3 这类多模态大模型时，DrPO 相比需要反传梯度的 DRaFT 方法，单次更新时间从 21.62 秒降为 6.17 秒，提速 3.51 倍。此外，DrPO 还能接入 GenEval 等不可微的规则式奖励进行微调。

为什么重要

单步生成模型（一步出图）在速度上优势显著，但训练时因为缺少去噪轨迹，难以获得传统强化学习所需的策略似然信号。DrPO 通过“奖励只排序、不反传”的设计，大幅降低了大型奖励模型带来的训练开销。这意味着开发者可以在同等算力下，更频繁地迭代单步模型的偏好对齐能力。同时，不可微奖励的接入能力拓宽了训练信号来源，例如可以用规则打分、用户点击率等非神经网络信号来指导模型优化，这在工业场景中尤其实用。从技术路线看，DrPO 使单步模型的后训练更接近“黑盒优化”，降低了奖励模型本身成为算力瓶颈的可能性。

对用户/开发者/创作者的影响

对于图像生成应用开发者，DrPO 提供了一种更高效的微调路径。若已部署单步文生图服务（如基于 SD-Turbo 或 SDXL-Turbo），可利用用户反馈信号（如收藏、点赞）构成的排序数据，对模型在线微调，而不必为每个奖励信号训练一个可微模型。对于创作者，后续可能见到更快更新的图像生成工具——模型能更频繁地吸收新偏好、纠正生成缺陷。对企业而言，这意味着在强化学习后训练环节，算力消耗可能降低到原来的四分之一左右，同时还能集成传统上难以接入的评估体系（如质检规则、合规判定）。

AI 工具推荐

想把多个 AI 模型放在一个入口？

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型，适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接：通过此链接购买，我可能获得佣金，不影响你的价格。

值得关注的后续

第一，DrPO 的代码已在 GitHub 上开源，产品化落地速度值得观察。目前实验集中在文生图单步模型，延伸到视频生成或文生三维场域的可能性是技术社区关注的方向。第二，离线训练版本目前存在分布偏移和训练崩溃问题，这可能是从学术验证走向稳定训练的关键瓶颈，后续是否有改进方案值得留意。第三，随着单步模型质量提升，其与扩散模型在实际部署中的性价比差异可能进一步扩大，竞品（如 Stability AI 的后续模型）是否会跟进类似思路尚未披露。

来源：Readhub · AI

沿着何恺明团队「漂移模型」再走一步：奖励只需排名，单步文生图偏好优化提速 3.51 倍

事件核心：发生了什么

为什么重要

对用户/开发者/创作者的影响

想把多个 AI 模型放在一个入口？

值得关注的后续

celebrityanime

发表回复取消回复

事件核心：发生了什么

为什么重要

对用户/开发者/创作者的影响

想把多个 AI 模型放在一个入口？

值得关注的后续

celebrityanime

相关文章

Anthropic 恰乌里称有信心“未来几天”重新开放 Mythos 及 Fable 5 AI 模型

[问与答] 有人在用 Cloudflare AI Gateway 吗，它的 Unified Billing 是一直不支持 gpt-image-2 吗? 充值完才发现不能用…

[Claude] 没天理啦。 Claude 昨天更新了额度。 今天又重置额度变成 0% 啦。

发表回复取消回复

[Claude] 没天理啦。 Claude 昨天更新了额度。今天又重置额度变成 0% 啦。