Rich Sutton 谈人工智能创造力和发现

一句话看懂：在 Hacker News 的讨论中，AI 先驱 Rich Sutton 的核心观点被热议：当前生成式 AI 在获得外部硬评估（External Hard Evaluation）时，能在数学定理证明、内核代码优化等多元领域展现出类似 AlphaGo 的发现能力，但真正的突破往往不是来自“全新思想”，而是高质量重组已有工具与知识。

事件核心：发生了什么

围绕 Rich Sutton 关于 AI 创造力与发现的讨论，Hacker News 上涌现了一轮深度辩论。讨论者指出，生成式 AI 模型（如 GPT 系列、Claude 等）在特定任务上——例如前沿数学猜想反证、编写比人类更高效的 Linux 内核代码——表现出色。这些模型并非仅在训练数据中“随机抽取”，而是在外部评估信号（如正确性、效率指标）的引导下，通过强化学习（RL）和类似于演化轨迹选择的机制，产出有价值的新解决方案。一个关键类比被频繁提及：AlphaGo 的突破依赖于人类提供的外部奖励函数，大模型若获得类似的外部硬评估，也能在广泛领域实现“发现”。

为什么重要

这一讨论动摇了两个常见偏见：第一，驳斥了“大模型只会重复训练数据”的刻板印象——当评估反馈足够精确时，模型可以在逻辑密集型任务中实现类似人类科学发现的“探索性创造”。第二，提出了一个反直觉的洞察：技术进步在许多领域并非依赖“全新想法”，而是将已知方法、模型、工具进行高质量层叠组合（Layering）。正如论者所言，在集体知识极其稀疏和复杂的领域，能以 1% 与 3% 的选择质量差距，在有限的计算资源和时间窗口下产生“天壤之别”的效果。这直接冲击了当前关于 AGI（通用人工智能）的辩论——许多讨论脱离了“解决问题的务实性”，反而陷入了智慧定义的哲学空谈。

对用户/开发者/创作者的影响

对于开发者与创作者，这则讨论提供了清晰的行动指南：
1. 善用外部评估信号：不要只依赖模型生成一次结果，而是给模型提供多轮、具体的反馈（如代码测试通过率、诗歌押韵规则等），模型能在此基础上自发优化，产出远超单次生成的质量。
2. 重组而非原创：在软件架构、艺术创作、翻译等场景，优先考虑如何让 AI 整合现有技术栈和风格，而不是追求“彻头彻尾的新”——这种能力已被证明是当前模型最强大的实用优势。
3. 关注 RL 的潜力：尽管 RLHF 带来了对齐，但在编程、数学等可自动评估的领域，基于环境奖励的强化学习训练正催生出媲美甚至超越人类专家的工件（Artifact），这意味着 API 工具的评估维度（如成本、延迟、正确性）将成为下一轮竞争焦点。

AI 工具推荐

想把多个 AI 模型放在一个入口？

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型，适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接：通过此链接购买，我可能获得佣金，不影响你的价格。

值得关注的后续

1. 评估基础设施的爆发：如果外部硬评估是模型创造力的钥匙，那么开发更广泛、更自动化的评估框架（如代码沙箱、数学检验器、科学实验模拟器）会成为新的技术风口，相关创业公司或工具将迎来增长。
2. 开源与闭源的策略分化：开源模型能否通过社区贡献的多样化评估任务快速补上“发现”能力？闭源模型在优化奖励函数后的领先优势是否会持续扩大？这两者的路径差异将在未来 6-12 个月变得更加清晰。
3. 人类科学角色的再定义：讨论中提出了一个尖锐问题——当 AI 能在我们考 60-70 分的学科问题上表现更优时，人类智力的衡量标准是否需要重新定义？这可能引发生育教育、职业认证体系的深层调整。

来源：hackernews

Rich Sutton 谈人工智能创造力和发现