SFT别急着接RL！你的多模态大模型可能一直在“带伤训练”

一句话看懂：一项来自香港科技大学（广州）、南洋理工大学、清华大学等机构的研究发现，当前多模态大模型（MLLM）训练中“先SFT、再RL”的标准流程存在一个被长期忽视的断层——SFT不仅没有为强化学习打基础，反而引入了“感知漂移”和“推理漂移”两类偏差，导致后续RL算法的很大一部分精力是在“还债”而非提升。研究团队提出的PRISM三阶段方案，在SFT和RL之间加入分布对齐环节，可让模型在7个主流多模态基准上平均提升4.4至6.0个百分点。

事件核心：发生了什么

该研究（论文名为PRISM，超越SFT-to-RL范式）通过实验揭示了一个反直觉现象：在Qwen3-VL等强基座模型上，SFT阶段结束后，模型在7个主流多模态基准上的平均准确率反而出现下滑，例如8B版本从基线63.3%降至58.1%（下降5.2个百分点），后续即使经过GRPO强化学习，性能也才勉强回到基线水平（63.3%）。这意味着RL阶段的大部分收益被用于弥补SFT造成的“坑”。研究团队分析认为，SFT的多模态场景下存在两种复杂偏差：一是表面模仿（token级loss让模型学会“长得像”正确答案而非“想得出”），二是感知漂移和推理漂移被混在同一个loss中处理，导致模型“既看不准、又想不对”。现有的GRPO、DAPO、GSPO等RL算法均无法修复这一前置问题。PRISM的解法是在SFT和RL之间增加分布对齐阶段，核心组件是混合专家判别器（MoE Discriminator），分别由感知专家（评估视觉描述是否忠实于图像）和推理专家（评估逻辑推导是否一致）组成，以解耦两类错误信号。该方案为黑盒设计，仅需强模型API（如Gemini 3 Flash）的输出作为正样本，无需权重或内部logits。

为什么重要

这项研究直接挑战了多模态大模型后训练中“SFT→RL”的默认流程。在模型能力越来越强、越来越接近实际部署水平的背景下，SFT引入的分布偏移会更加猛烈——基座越强，可能被SFT“伤害”得越深。PRISM的发现意味着，许多团队花费算力和时间优化RL算法，可能是在一个出发时就偏了的方向上加速，并未真正挖掘模型潜力。它提供了一个低成本、可落地的修正方案：在SFT和RL之间插入一个以API驱动的分布对齐步骤，就可以显著提升最终效果，且该方案不依赖任何开源模型的内部状态，任何能调用API的团队均可部署。从行业竞争角度看，这或许会推动主流模型厂商重新评估后训练流程，甚至可能引出一个更通用的“对齐中间件”生态。

对用户/开发者/创作者的影响

对于使用多模态API（如Qwen3-VL、GPT-4V、Gemini等）进行开发或创作的团队，以下三点值得注意：
（1）如果你发现自己微调后的模型在推理类任务上“不升反降”，不要急于归因于数据量不够或RL超参调得不好——问题可能出在SFT阶段本身，即模型学到了错误的分布。PRISM提供了一个可用的诊断和修复工具（Github已开源）。
（2）对于需要控制部署成本的企业用户，PRISM对齐阶段仅需调用API而无需大规模重训，本质上是一种“轻量级后训练优化”，有望在保持模型基座不变的前提下提升输出质量，特别适合数学推理、视觉问答等强逻辑场景。
（3）内容创作者在利用多模态大模型生成图像描述、步骤推理等内容时，如果发现输出“看起来对但逻辑有硬伤”，很可能是SFT阶段产生的感知漂移和推理漂移未得到纠正。PRISM的对齐方法或许可作为后续改进方向。

AI 工具推荐

想把多个 AI 模型放在一个入口？

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型，适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接：通过此链接购买，我可能获得佣金，不影响你的价格。

值得关注的后续

（1）PRISM方案能否在更大规模模型（如14B、72B版本）上复现同样的增益？目前论文验证范围限于4B和8B，效果在更大参数规模下是否线性扩展需进一步观察。
（2）该团队已开源代码和Arxiv论文，是否会被主流模型训练框架（如Hugging Face TRL、DeepSpeed Chat等）集成，成为一个标准的后训练步骤？这取决于社区反馈和实际应用复杂度。
（3）对抗性博弈在分布对齐阶段是否存在收敛不稳定或过拟合风险？PRISM以去掉KL正则化为代价来加速对齐，长期来看是否会导致模型在其他任务上“忘记”原有能力，需要更广泛的通用性评估。

来源：量子位 · 每日最新

SFT别急着接RL！你的多模态大模型可能一直在“带伤训练”