RL微调VLM的鲁棒性与思维链一致性研究

苹果最新研究发现,通过强化学习(RL)微调开源视觉语言模型(VLM)虽然能提升基准测试分数,但同时会削弱模型对视觉信息的真实依赖,并导致思维链(CoT)推理的可靠性和鲁棒性下降。这揭示了仅以准确率为目标的训练评价体系的局限性。

RL微调VLM的鲁棒性与思维链一致性研究

一句话看懂:苹果最新研究发现,通过强化学习(RL)微调开源视觉语言模型(VLM)虽然能提升基准测试分数,但同时会削弱模型对视觉信息的真实依赖,并导致思维链(CoT)推理的可靠性和鲁棒性下降。这揭示了仅以准确率为目标的训练评价体系的局限性。

事件核心:发生了什么

苹果机器学习研究团队在即将于ICML 2026发布的论文《On Robustness and Chain-of-Thought Consistency of RL-Finetuned VLMs》中,系统评估了RL微调对VLM鲁棒性的影响。实验表明,当向开源VLM输入误导性字幕或有缺陷的思维链(CoT)轨迹时,模型的推理正确率和置信度会显著下降。研究进一步发现,RL微调过程中存在一个“准确率-忠实度”权衡:模型虽然在标准视觉推理基准上分数上升,但其思维链推理过程可能开始依赖错误的文本线索或产生幻觉,对上下文变化的适应性反而变差。作为对比,闭源模型在类似故障模式下表现出更强的鲁棒性和推理一致性,暗示当前差距主要源于开源RL微调方法的不足,而非任务本身固有的限制。

为什么重要

这项工作直接挑战了当前VLM强化学习微调的主流实践。许多团队使用RL微调来提升模型在多模态推理任务上的表现,但苹果的研究表明,这种提升可能以牺牲推理过程的真实性和可靠性为代价。这一发现对于AI安全、可解释性以及防止模型产生错误输出至关重要。特别是,研究指出单纯依赖对抗性数据增强并不能阻止模型忠实度下降,而引入感知忠实度的奖励函数虽然能部分恢复效果,但微调与增强的组合极易诱发模型转向捷径策略。这意味着,现有的“刷榜”式评估无法衡量模型的真实视觉理解能力,产业界需要更全面的训练和评估协议,同时关注正确性、鲁棒性和视觉推理的忠实度。

对用户/开发者/创作者的影响

对使用开源VLM进行应用开发的开发者而言,这项研究提供了直接警示:在RL微调后,模型可能看似更强,但在面对生产环境中常见的、带有噪声或误导性提示的真实数据时,其推理链条可能变得不可靠。创作者和普通用户在使用此类模型(如AI图像解读或辅助决策系统)时,需要保持对“看起来很合理”的推理过程的审慎态度。大型闭源模型提供方(如OpenAI,其研究员也是本文作者之一)可能借此强调其API的服务质量优势。企业AI采购方在评估视觉理解解决方案时,应将模型在对抗性输入下的稳定表现,而非单一基准测试分数,纳入核心决策指标。

GamsGo AI

AI 工具推荐

想把多个 AI 模型放在一个入口?

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。

值得关注的后续

第一,苹果团队是否会基于此研究发布新的开源RL微调技术栈或评估基准,以推动行业标准的改善。第二,其他开源VLM主要项目(如LLaVA、InternVL等)是否会在后续版本中采纳“忠实度”作为训练优化目标之一。第三,闭源模型(如GPT-4V系列)在此类一致性测试中的具体表现差异是否会成为新的商业竞争力指标,进而影响开发者对模型选型的判断。

来源:Apple Machine Learning Research(RSS)

celebrityanime
celebrityanime
文章: 11060

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注