SFT 别急着接 RL！你的多模态大模型可能一直在「带伤训练」

一句话看懂：香港科技大学（广州）等机构研究发现，在多模态大模型（MLLM）后训练中，标准的“先监督微调（SFT），再强化学习（RL）”范式存在一个被忽视的断层：SFT 反而会显著拉低模型性能，导致后续 RL 阶段在“还债”而非真正提升。针对此问题，他们提出了一个三阶段方案 PRISM，在 SFT 和 RL 之间加入“分布对齐”步骤，已在 Qwen3-VL 等模型上取得明显增益。

事件核心：发生了什么

这项来自 HKUST（广州）、南洋理工大学、清华大学等机构的预印本研究（论文编号 arxiv:2604.28123）首先揭露了一个反直觉的现象：在 Qwen3-VL 系列模型上执行 SFT 后，模型在 7 个主流多模态基准上的平均准确率非但没有提升，反而下降。4B 模型从 59.7% 降至 56.8%，8B 模型从 63.3% 降至 58.1%。后续即使接入 GRPO 等先进的 RL 算法，8B 模型也仅是追回基线（63.3%），并未实现真正突破。论文分析认为，SFT 让模型去模仿 GPT/Gemini 等蒸馏数据带来的新分布，这会冲掉基座模型原有的广泛能力，同时引入两种偏差：一是 token 级 loss 让模型学会“表面模仿”而非真正推理；二是感知漂移（看错）和推理漂移（想错）被混杂优化，未被分开纠正。PRISM 的解决方案是，在 SFT 后增加一个“分布对齐”阶段，使用一个由“视觉感知专家”和“推理专家”组成的混合专家判别器，对模型的输出进行解耦判别，以对抗方式将模型输出分布拉向强模型（如 Gemini 3 Flash）的响应级别。该过程去掉了常规 RL 中的 KL 散度约束，以避免再次偏回有问题的 SFT 分布。实验结果显示：PRISM 搭配 GRPO/DAPO/GSPO 三种 RL 算法，在 4 个数学推理和 3 个通用多模态基准上取得全面提升，8B 模型平均提升约 6.0 个点，4B 模型平均提升约 4.4 个点。

为什么重要

这项发现动摇了多模态大模型后训练中“SFT→RL”的天经地义流程。它揭示了一个关键的基建问题：在模型能力已很强的今天，通用的 SFT 数据（尤其是来自闭源 API 的蒸馏数据）可能不是“打基础”，而是在“挖坑”。现有的 RL 算法（GRPO、DAPO 等）都在优化 RL 内部的效率与稳定性，却没有人回头处理 SFT 遗留的分布偏移。PRISM 的补丁式修正，实际上是在提醒行业：对于接近商用水平的多模态模型，后续训练的核心矛盾可能不是“如何让 RL 更强”，而是“如何确保启动 RL 时的模型处于一个正确的起点”。如果这一技术路径被验证可复现，它将直接影响开源社区和企业的后训练策略——可能从两阶段变为三阶段。

对用户/开发者/创作者的影响

对于开源模型的二次开发者和企业：如果你正计划基于 Qwen3-VL、DeepSeek-VL 等强基座做下游微调，这项研究提示你应谨慎对待 SFT 数据的分布选择。如果直接使用通用 GPT/Gemini 数据做 SFT，模型性能可能不升反降，导致后续任何 RL 投入都被浪费在修复 SFT 伤害上。开发者可以考虑借鉴 PRISM 的思路，在 SFT 与 RL 之间插入一个质量对齐步骤，或者直接选择提供 PRISM 生态的工具。对于 API 调用者：短期内不会感知到变化，但若模型厂商采纳三阶段训练，意味着同参数的模型推理能力可能进一步提升。对于创作者：该研究本身不直接影响内容创作流程，但它表明，多模态模型在数学推理、视觉理解等专业任务上的可靠性正在被更精细地校准。

AI 工具推荐

想把多个 AI 模型放在一个入口？

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型，适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接：通过此链接购买，我可能获得佣金，不影响你的价格。

值得关注的后续

第一，PRISM 是一个学术预印本，代码已在 GitHub 开源（XIAO4579/PRISM），开发者可以自行复现验证其在 4B/8B 以外的模型（如 Llama-3.2-Vision、InternVL）上的效果。第二，目前 PRISM 只发布在 Qwen3-VL 上的实验，其方法是否适配纯文本大模型，以及能否与更强的 RL 算法（如 REINFORCE++）做更深层整合，是下一阶段可能的扩展方向。第三，如果主流模型训练团队（如 Qwen、DeepSeek 团队）在正式版本中引入类似的对齐步骤，将标志着后训练范式的实质性转变。建议读者留意论文作者在 GitHub 上与模型厂家的互动以及是否出现相应的产品化更新。

来源：Readhub · AI

SFT 别急着接 RL！你的多模态大模型可能一直在「带伤训练」