SFT 别急着接 RL!你的多模态大模型可能一直在「带伤训练」

SFT 别急着接 RL!你的多模态大模型可能一直在「带伤训练」

SFT 别急着接 RL!你的多模态大模型可能一直在「带伤训练」

一句话看懂:香港科技大学(广州)等机构研究发现,在多模态大模型(MLLM)后训练中,标准的“先监督微调(SFT),再强化学习(RL)”范式存在一个被忽视的断层:SFT 反而会显著拉低模型性能,导致后续 RL 阶段在“还债”而非真正提升。针对此问题,他们提出了一个三阶段方案 PRISM,在 SFT 和 RL 之间加入“分布对齐”步骤,已在 Qwen3-VL 等模型上取得明显增益。

事件核心:发生了什么

这项来自 HKUST(广州)、南洋理工大学、清华大学等机构的预印本研究(论文编号 arxiv:2604.28123)首先揭露了一个反直觉的现象:在 Qwen3-VL 系列模型上执行 SFT 后,模型在 7 个主流多模态基准上的平均准确率非但没有提升,反而下降。4B 模型从 59.7% 降至 56.8%,8B 模型从 63.3% 降至 58.1%。后续即使接入 GRPO 等先进的 RL 算法,8B 模型也仅是追回基线(63.3%),并未实现真正突破。论文分析认为,SFT 让模型去模仿 GPT/Gemini 等蒸馏数据带来的新分布,这会冲掉基座模型原有的广泛能力,同时引入两种偏差:一是 token 级 loss 让模型学会“表面模仿”而非真正推理;二是感知漂移(看错)和推理漂移(想错)被混杂优化,未被分开纠正。PRISM 的解决方案是,在 SFT 后增加一个“分布对齐”阶段,使用一个由“视觉感知专家”和“推理专家”组成的混合专家判别器,对模型的输出进行解耦判别,以对抗方式将模型输出分布拉向强模型(如 Gemini 3 Flash)的响应级别。该过程去掉了常规 RL 中的 KL 散度约束,以避免再次偏回有问题的 SFT 分布。实验结果显示:PRISM 搭配 GRPO/DAPO/GSPO 三种 RL 算法,在 4 个数学推理和 3 个通用多模态基准上取得全面提升,8B 模型平均提升约 6.0 个点,4B 模型平均提升约 4.4 个点。

为什么重要

这项发现动摇了多模态大模型后训练中“SFT→RL”的天经地义流程。它揭示了一个关键的基建问题:在模型能力已很强的今天,通用的 SFT 数据(尤其是来自闭源 API 的蒸馏数据)可能不是“打基础”,而是在“挖坑”。现有的 RL 算法(GRPO、DAPO 等)都在优化 RL 内部的效率与稳定性,却没有人回头处理 SFT 遗留的分布偏移。PRISM 的补丁式修正,实际上是在提醒行业:对于接近商用水平的多模态模型,后续训练的核心矛盾可能不是“如何让 RL 更强”,而是“如何确保启动 RL 时的模型处于一个正确的起点”。如果这一技术路径被验证可复现,它将直接影响开源社区和企业的后训练策略——可能从两阶段变为三阶段。

对用户/开发者/创作者的影响

对于开源模型的二次开发者和企业:如果你正计划基于 Qwen3-VL、DeepSeek-VL 等强基座做下游微调,这项研究提示你应谨慎对待 SFT 数据的分布选择。如果直接使用通用 GPT/Gemini 数据做 SFT,模型性能可能不升反降,导致后续任何 RL 投入都被浪费在修复 SFT 伤害上。开发者可以考虑借鉴 PRISM 的思路,在 SFT 与 RL 之间插入一个质量对齐步骤,或者直接选择提供 PRISM 生态的工具。对于 API 调用者:短期内不会感知到变化,但若模型厂商采纳三阶段训练,意味着同参数的模型推理能力可能进一步提升。对于创作者:该研究本身不直接影响内容创作流程,但它表明,多模态模型在数学推理、视觉理解等专业任务上的可靠性正在被更精细地校准。

GamsGo AI

AI 工具推荐

想把多个 AI 模型放在一个入口?

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。

值得关注的后续

第一,PRISM 是一个学术预印本,代码已在 GitHub 开源(XIAO4579/PRISM),开发者可以自行复现验证其在 4B/8B 以外的模型(如 Llama-3.2-Vision、InternVL)上的效果。第二,目前 PRISM 只发布在 Qwen3-VL 上的实验,其方法是否适配纯文本大模型,以及能否与更强的 RL 算法(如 REINFORCE++)做更深层整合,是下一阶段可能的扩展方向。第三,如果主流模型训练团队(如 Qwen、DeepSeek 团队)在正式版本中引入类似的对齐步骤,将标志着后训练范式的实质性转变。建议读者留意论文作者在 GitHub 上与模型厂家的互动以及是否出现相应的产品化更新。

来源:Readhub · AI

celebrityanime
celebrityanime
文章: 2372

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注