RLVR 可能在科学领域格外糟糕

一句话看懂：AI行业普遍认为，强化学习（RL）在数学和编程这类“快速验证”领域已经大获成功，但Dwarkesh Patel与Michael Nielson的访谈指出，科学理论的验证周期长达数十年甚至数百年，且“更好的理论”在早期可能反而预测精度更差。这意味着，将RL直接套用到科学发现上，可能是一条危险的道路。

事件核心：发生了什么

Dwarkesh Patel在一篇博客中梳理了他与Michael Nielson的访谈核心议题：如何识别科学进步。他指出，许多人认为AI将在科学领域取得突破，其逻辑是“科学是可验证的”，而AI已经在编程、数学等具有“紧验证循环”（tight verification loop）的领域通过RL大杀四方。

然而，科学史提供了大量反例。例如，公元前2世纪Aristarchus的日心说在1842年才首次得到恒星视差实验验证；1543年哥白尼的日心说模型在预测精度上甚至不如托勒密的地心说模型。更极端的案例是，针对天王星轨道偏离，Le Verrier预测并发现了海王星；但针对水星轨道的类似偏离，天文学家预测的“祝融星”并不存在，最终由爱因斯坦的广义相对论于1915年解决。在发现最终答案前，牛顿力学框架下的修补（预测新行星、猜测宇宙尘埃干扰等）从科学方法上看是完全合理的。

为什么重要

这个观点直接切中当前AI+科学的核心叙事。DeepMind、OpenAI等公司已经展示了AI在蛋白质折叠、数学定理证明上的威力，但这些成果大多依赖于定义清晰、反馈迅速的“考试型”问题。而前沿的科学发现往往面对的是长期无法被证伪或证实的理论选择，例如哥白尼理论在1543年时“确实比旧理论更差”。

如果行业盲目将RL作为科学发现的通用范式，可能会将大模型引导向一种“局部最优”的路径，即在短期内能通过“自洽性测试”但长期偏离真实物理世界的理论。这不仅可能浪费巨额算力（训练超大科学推理模型），更可能让AI系统在面临类似“水星进动”的模糊性时，无法做出有效的“科学品味”判断。目前公开信息显示，我们对人类科学史中那些判断力和启发式（heuristics）的理解，远未达到可以编码进RL循环的程度。

对用户/开发者/创作者的影响

对AI研究者和开发者：不要再把“可RL”作为衡量模型科学能力的唯一标准。在构建科学Agent时，需要设计更复杂的反馈信号，例如对理论简洁性、统一性、未来预测能力的长期评估，而不仅仅是“当前数据拟合度”。
对企业用户（药物研发、材料发现）：不要迷信AI给出的“最优解”。AI可能在一个验证周期短的子问题（如分子对接）上表现出色，但在整个研发流程中，其推荐的“突破性理论”可能和哥白尼1543年的模型一样，在短期内看起来比旧方案更差。需要建立混合决策机制：AI做高速筛选，人类科学家做长期判断。
对内容创作者/科普作者：这是一个非常有力的反“AI神话”素材。在撰写“AI革新科学”主题时，必须引入历史复杂性，避免过度简化。

AI 工具推荐

想把多个 AI 模型放在一个入口？

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型，适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接：通过此链接购买，我可能获得佣金，不影响你的价格。

值得关注的后续

1. 是否会有团队尝试构建“慢验证RL”框架？例如，训练模型在科学史数据集上模拟长达数十年的理论竞争过程，以学习更鲁棒的“科学研究策略”。
2. 主流闭源模型（如GPT系列、Claude）在回答“科学不一致”问题时的表现。如果模型天然倾向于给出符合现有范式的“确定性”答案，而不是解释当前理论的模糊性和长期不确定性，这将是其科学辅助角色的重大缺陷。
3. Michael Nielson本人或其他科学哲学家是否会提出可操作的替代方案。访谈明确指出了RL的局限，但并未给出解决方案。后续的学术讨论或技术提案值得密切关注。

来源：Dwarkesh Patel：Podcast & Blog（RSS）

RLVR 可能在科学领域格外糟糕