不更新参数就能强化学习！OpenAI 翁家翌提出新范式：决策只需 AI 手搓一个.py 文件

一句话看懂：OpenAI 研究员翁家翌提出了一种名为“启发式学习”（Heuristic Learning, HL）的强化学习新范式，彻底抛弃了神经网络参数更新，转而让 AI 通过自主编写和迭代 Python 代码来实现决策，并在 Atari 游戏和机器人仿真任务中达到了与主流算法 PPO 持平甚至更优的性能。

事件核心：发生了什么

翁家翌在研究中展示了 HL 的核心机制：智能体的决策策略被从神经网络权重中剥离，转化为可读的程序代码。在 HL 框架下，AI 维护的是一个包含状态检测器、规则逻辑、测试用例和版本历史的软件系统，而非单一策略文件。Codex 模型（基于 GPT-5.4）通过阅读失败录像、分析日志等方式进行结构性代码调整，从而迭代学习。实验结果显示，在 Atari 57 基准测试中，HL 的整体中位表现已与 PPO 持平，并在 Breakout 等游戏中达到人类玩家水平；在 MuJoCo 的连续控制任务中，HL 在 Ant 和 HalfCheetah 仿真上跑出了超过 6000 分和 11836 分的高分，性能对标专业深度强化学习模型。

为什么重要

HL 的提出从根本上挑战了深度强化学习“必须依赖神经网络和梯度下降”的长期假设。它直接回应了传统 DRL 的三大核心瓶颈：灾难性遗忘、决策黑箱不可解释、以及样本效率低下。通过将知识显式编码为代码模块和测试用例，HL 天然支持持续学习和可解释性，且无需海量环境交互数据与大算力训练。这意味着在小规模、动态变化的环境（如机器人实时控制、快速原型验证）中，HL 可能提供一种更高效、更可控的替代技术路线。虽然它目前在原始像素识别等任务上不及神经网络，但为“在线学习”与“持续学习”的融合研究提供了全新方向。

对用户/开发者/创作者的影响

对于强化学习开发者和研究人员，HL 显著降低了入门门槛——无需掌握复杂的深度学习框架与超参数调优，只需关注代码逻辑和规则设计。在机器人、游戏 AI 等需要快速迭代策略的场景中，开发者可以像写软件一样维护一个“可以学习的代码库”，大幅简化持续学习流程。对于 AI 应用创作者，HL 带来的可解释性使得人工干预策略逻辑成为可能，例如在仿真环境中调整规则以适配真实场景。然而，对于需要从原始传感器数据或图像中提取特征的任务（如自动驾驶感知、医学影像分析），HL 目前尚不适用，仍需依赖深度神经网络。目前公开信息显示，HL 框架及其代码尚未大规模开源，这将是影响其生态扩散的关键变量。

值得关注的后续

1. 开源与工具链：翁家翌是否会开源 HL 框架的核心代码和示例？这将直接决定社区能否快速复现并扩展其应用场景。2. 混合架构探索：文中提出的“HL 处理在线数据、神经网络做离线训练”的融合思路，是否会出现 Demo 或明确的 API 产品？若可行，可能催生一种新的“代码+权重”混合智能体开发范式。3. 竞品跟进：传统 DRL 社区（如 Google DeepMind、UC Berkeley）是否会针对 HL 的局限性发布对比研究或改进版本？这关系到该范式在学术界的认可度与落地节奏。

来源：Readhub · AI

不更新参数就能强化学习！OpenAI 翁家翌提出新范式：决策只需 AI 手搓一个.py 文件