SFT别急着接RL!你的多模态大模型可能一直在“带伤训练”

SFT别急着接RL!你的多模态大模型可能一直在“带伤训练”

SFT别急着接RL!你的多模态大模型可能一直在“带伤训练”

一句话看懂:一项来自香港科技大学(广州)、南洋理工大学、清华大学等机构的研究发现,当前多模态大模型(MLLM)训练中“先SFT、再RL”的标准流程存在一个被长期忽视的断层——SFT不仅没有为强化学习打基础,反而引入了“感知漂移”和“推理漂移”两类偏差,导致后续RL算法的很大一部分精力是在“还债”而非提升。研究团队提出的PRISM三阶段方案,在SFT和RL之间加入分布对齐环节,可让模型在7个主流多模态基准上平均提升4.4至6.0个百分点。

事件核心:发生了什么

该研究(论文名为PRISM,超越SFT-to-RL范式)通过实验揭示了一个反直觉现象:在Qwen3-VL等强基座模型上,SFT阶段结束后,模型在7个主流多模态基准上的平均准确率反而出现下滑,例如8B版本从基线63.3%降至58.1%(下降5.2个百分点),后续即使经过GRPO强化学习,性能也才勉强回到基线水平(63.3%)。这意味着RL阶段的大部分收益被用于弥补SFT造成的“坑”。研究团队分析认为,SFT的多模态场景下存在两种复杂偏差:一是表面模仿(token级loss让模型学会“长得像”正确答案而非“想得出”),二是感知漂移和推理漂移被混在同一个loss中处理,导致模型“既看不准、又想不对”。现有的GRPO、DAPO、GSPO等RL算法均无法修复这一前置问题。PRISM的解法是在SFT和RL之间增加分布对齐阶段,核心组件是混合专家判别器(MoE Discriminator),分别由感知专家(评估视觉描述是否忠实于图像)和推理专家(评估逻辑推导是否一致)组成,以解耦两类错误信号。该方案为黑盒设计,仅需强模型API(如Gemini 3 Flash)的输出作为正样本,无需权重或内部logits。

为什么重要

这项研究直接挑战了多模态大模型后训练中“SFT→RL”的默认流程。在模型能力越来越强、越来越接近实际部署水平的背景下,SFT引入的分布偏移会更加猛烈——基座越强,可能被SFT“伤害”得越深。PRISM的发现意味着,许多团队花费算力和时间优化RL算法,可能是在一个出发时就偏了的方向上加速,并未真正挖掘模型潜力。它提供了一个低成本、可落地的修正方案:在SFT和RL之间插入一个以API驱动的分布对齐步骤,就可以显著提升最终效果,且该方案不依赖任何开源模型的内部状态,任何能调用API的团队均可部署。从行业竞争角度看,这或许会推动主流模型厂商重新评估后训练流程,甚至可能引出一个更通用的“对齐中间件”生态。

对用户/开发者/创作者的影响

对于使用多模态API(如Qwen3-VL、GPT-4V、Gemini等)进行开发或创作的团队,以下三点值得注意:
(1)如果你发现自己微调后的模型在推理类任务上“不升反降”,不要急于归因于数据量不够或RL超参调得不好——问题可能出在SFT阶段本身,即模型学到了错误的分布。PRISM提供了一个可用的诊断和修复工具(Github已开源)。
(2)对于需要控制部署成本的企业用户,PRISM对齐阶段仅需调用API而无需大规模重训,本质上是一种“轻量级后训练优化”,有望在保持模型基座不变的前提下提升输出质量,特别适合数学推理、视觉问答等强逻辑场景。
(3)内容创作者在利用多模态大模型生成图像描述、步骤推理等内容时,如果发现输出“看起来对但逻辑有硬伤”,很可能是SFT阶段产生的感知漂移和推理漂移未得到纠正。PRISM的对齐方法或许可作为后续改进方向。

GamsGo AI

AI 工具推荐

想把多个 AI 模型放在一个入口?

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。

值得关注的后续

(1)PRISM方案能否在更大规模模型(如14B、72B版本)上复现同样的增益?目前论文验证范围限于4B和8B,效果在更大参数规模下是否线性扩展需进一步观察。
(2)该团队已开源代码和Arxiv论文,是否会被主流模型训练框架(如Hugging Face TRL、DeepSpeed Chat等)集成,成为一个标准的后训练步骤?这取决于社区反馈和实际应用复杂度。
(3)对抗性博弈在分布对齐阶段是否存在收敛不稳定或过拟合风险?PRISM以去掉KL正则化为代价来加速对齐,长期来看是否会导致模型在其他任务上“忘记”原有能力,需要更广泛的通用性评估。

来源:量子位 · 每日最新

celebrityanime
celebrityanime
文章: 2367

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注