
图灵奖得主查德 · 萨顿称普通生成式 AI 难以完成真正科学发现
一句话看懂:2024年图灵奖得主、强化学习奠基人理查德·萨顿公开指出,当前主流生成式AI(如大语言模型、图像模型)缺乏自我评估和持续筛选的能力,因此无法支撑真正的科学发现。这一观点直接挑战了“更大模型=更强大”的行业共识,并引发了关于AI技术路线到底该押注规模还是评估闭环的讨论。
事件核心:发生了什么
6月1日,科技媒体The Decoder报道了图灵奖得主理查德·萨顿(Richard Sutton)的最新观点。萨顿在人工智能基础理论领域地位极高,他曾是DeepMind研究科学家,也是强化学习领域的主要奠基人,2025年3月与安德鲁·巴托共同获得2024年图灵奖。
萨顿认为,虽然生成式AI(包括大语言模型、图像模型、视频模型)能从海量样本中学习并生成相似内容,但真正新颖的输出往往超出训练材料范围,此时这些“好结果”常被标注为“幻觉”。他将其总结为研究者中的笑话:“好的部分不新,新颖的部分不好。”
他指出,真正的科学发现需要经历变异、评估、选择性保留三步。生成式AI在“变异”阶段(生成大量候选)表现出色,但缺乏关键的评估和筛选环节——即从大量生成结果中找出更好的有效方案。他列举了AlphaGo、AlphaZero、AlphaFold、AlphaProof、Claude Code和GT-Sophy等案例,指出这些系统都包含评估闭环,因此能追踪更优解,而不只是产出候选答案。
为什么重要
萨顿的观点有两个重要含义。第一,它直接回应了AI行业对大语言模型的过度押注——单纯追求参数规模和训练数据量,未必能导向真正的创新能力。第二,它重新强调强化学习和评估闭环在科研场景中的不可替代性。当前行业普遍认为“生成式AI能加速科研”,但萨顿提醒,如果没有结构化评估,AI生成的大量结果仍无法自动转化为科学突破。
这对AI技术路线选择有明确影响:未来可能更多资源会流向AlphaFold、Claude Code这类具备智能评估与搜索能力的系统,而非纯文本或图像生成模型。
对用户/开发者/创作者的影响
对普通用户:不要将生成式AI(如ChatGPT、Midjourney)的输出直接视为科学发现或事实结论。AI更擅长提供候选方案和灵感,但在最终决策和验证环节,仍需要用户自行评估或借助专业工具验证。对AI生成内容的依赖需要保持警惕。
AI 工具推荐
想把多个 AI 模型放在一个入口?
GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。
推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。
对开发者与AI从业者:当前主流的训练和微调策略可能无法支撑科学研究场景。萨顿建议关注具备“评估-反馈”闭环的系统(如强化学习框架、形式化证明工具、程序测试环境),或将评估机制嵌入现有生成式AI管线。这可能是下一个有实际价值的技术方向。
对内容创作者:在需要严谨性和可验证性的场景(如技术文档、科普文章、研究辅助)中,应避免仅依赖AI生成内容。AI在生产优质模仿内容上依然高效,但如需新颖结论或具有可追溯性的证据,仍需人工把关或引入专用验证工具。
值得关注的后续
1. 是否存在产品化路径:目前公开信息显示,萨顿列举的AlphaZero和GT-Sophy等案例多为学术界或特定实验室成果。未来是否有公司基于“评估闭环”思路推出面向普通开发者的AI工具,值得观察。
2. 行业对“更大模型”策略的态度变化:萨顿的批评是否会引发更多企业重新评估算力投入方向,或调整语言模型的商业化路线,是后续影响AI行业投资格局的关键信号。
3. 中国AI行业的反应:萨顿同时担任北京大学图灵导师,其观点可能影响国内学术团队和AI创业公司在强化学习、自我评估机制上的研究方向,特别是在基础科学发现工具(如蛋白质预测、材料模拟)领域的落地节奏。


