图灵奖得主查德 · 萨顿称普通生成式 AI 难以完成真正科学发现

一句话看懂：2024年图灵奖得主、强化学习奠基人理查德·萨顿公开指出，当前主流生成式AI（如大语言模型、图像模型）缺乏自我评估和持续筛选的能力，因此无法支撑真正的科学发现。这一观点直接挑战了“更大模型=更强大”的行业共识，并引发了关于AI技术路线到底该押注规模还是评估闭环的讨论。

事件核心：发生了什么

6月1日，科技媒体The Decoder报道了图灵奖得主理查德·萨顿（Richard Sutton）的最新观点。萨顿在人工智能基础理论领域地位极高，他曾是DeepMind研究科学家，也是强化学习领域的主要奠基人，2025年3月与安德鲁·巴托共同获得2024年图灵奖。

萨顿认为，虽然生成式AI（包括大语言模型、图像模型、视频模型）能从海量样本中学习并生成相似内容，但真正新颖的输出往往超出训练材料范围，此时这些“好结果”常被标注为“幻觉”。他将其总结为研究者中的笑话：“好的部分不新，新颖的部分不好。”

他指出，真正的科学发现需要经历变异、评估、选择性保留三步。生成式AI在“变异”阶段（生成大量候选）表现出色，但缺乏关键的评估和筛选环节——即从大量生成结果中找出更好的有效方案。他列举了AlphaGo、AlphaZero、AlphaFold、AlphaProof、Claude Code和GT-Sophy等案例，指出这些系统都包含评估闭环，因此能追踪更优解，而不只是产出候选答案。

为什么重要

萨顿的观点有两个重要含义。第一，它直接回应了AI行业对大语言模型的过度押注——单纯追求参数规模和训练数据量，未必能导向真正的创新能力。第二，它重新强调强化学习和评估闭环在科研场景中的不可替代性。当前行业普遍认为“生成式AI能加速科研”，但萨顿提醒，如果没有结构化评估，AI生成的大量结果仍无法自动转化为科学突破。

这对AI技术路线选择有明确影响：未来可能更多资源会流向AlphaFold、Claude Code这类具备智能评估与搜索能力的系统，而非纯文本或图像生成模型。

对用户/开发者/创作者的影响

对普通用户：不要将生成式AI（如ChatGPT、Midjourney）的输出直接视为科学发现或事实结论。AI更擅长提供候选方案和灵感，但在最终决策和验证环节，仍需要用户自行评估或借助专业工具验证。对AI生成内容的依赖需要保持警惕。

AI 工具推荐

想把多个 AI 模型放在一个入口？

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型，适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接：通过此链接购买，我可能获得佣金，不影响你的价格。

对开发者与AI从业者：当前主流的训练和微调策略可能无法支撑科学研究场景。萨顿建议关注具备“评估-反馈”闭环的系统（如强化学习框架、形式化证明工具、程序测试环境），或将评估机制嵌入现有生成式AI管线。这可能是下一个有实际价值的技术方向。

对内容创作者：在需要严谨性和可验证性的场景（如技术文档、科普文章、研究辅助）中，应避免仅依赖AI生成内容。AI在生产优质模仿内容上依然高效，但如需新颖结论或具有可追溯性的证据，仍需人工把关或引入专用验证工具。

值得关注的后续

1. 是否存在产品化路径：目前公开信息显示，萨顿列举的AlphaZero和GT-Sophy等案例多为学术界或特定实验室成果。未来是否有公司基于“评估闭环”思路推出面向普通开发者的AI工具，值得观察。

2. 行业对“更大模型”策略的态度变化：萨顿的批评是否会引发更多企业重新评估算力投入方向，或调整语言模型的商业化路线，是后续影响AI行业投资格局的关键信号。

3. 中国AI行业的反应：萨顿同时担任北京大学图灵导师，其观点可能影响国内学术团队和AI创业公司在强化学习、自我评估机制上的研究方向，特别是在基础科学发现工具（如蛋白质预测、材料模拟）领域的落地节奏。

来源：IT之家 (ITHome)

图灵奖得主查德 · 萨顿称普通生成式 AI 难以完成真正科学发现