不更新参数就能强化学习！OpenAI翁家翌提出新范式：决策只需AI手搓一个.py 文件

一句话看懂：OpenAI核心研究员翁家翌提出“启发式学习”（Heuristic Learning, HL），将强化学习的策略从神经网络权重转移到可读的Python代码中，AI通过GPT-5.4驱动的Codex自动编辑程序来迭代决策，无需任何梯度更新或参数训练。该方案在Atari游戏Breakout上取得理论满分864分，并在机器人控制任务中达到与经典PPO算法相当的性能。

事件核心：发生了什么

在2026年5月，OpenAI研究员翁家翌公开了强化学习新范式——启发式学习（HL）。其核心思路是放弃神经网络参数更新，转而让AI维护一套由Python代码构成的“决策软件系统”：包括状态检测器、规则逻辑、测试用例和版本历史。每次迭代时，由GPT-5.4驱动的Codex模型“阅读”失败记录和日志，直接修改这些代码文件来实现策略改进。

实验数据覆盖Atari 57基准测试的全部游戏，共生成342条编码迭代轨迹。在Breakout中AI获得864分理论满分；在MuJoCo的Ant和HalfCheetah等连续控制任务中，综合评分分别突破6000分和11836分，性能对标专业深度强化学习模型。

为什么重要

现行深度强化学习（DRL）面临三大瓶颈：灾难性遗忘（新任务覆盖旧参数）、决策黑箱不可解释、样本效率低下。HL通过将知识存储在“可读、可改、可测”的代码中，天然规避了参数更新带来的遗忘问题，每次调整都能明确追踪改动原因。这种思路将强化学习从“如何更新参数”重新定义为“如何维护一个持续吸收反馈的软件系统”，为在线学习和持续学习提供了一条非梯度化的可行路径。

值得注意的是，HL并非完全排斥梯度计算——其内部组件（如模型预测控制MPC）仍会使用梯度做局部搜索，但梯度不用于神经网络训练。翁家翌同时也承认，HL在原始像素识别（如ImageNet）上无法替代神经网络，二者的融合才是关键命题。

对用户/开发者/创作者的影响

对AI研究者而言：HL提供了一套可复现的工具链，开源项目允许开发者直接查看策略的源代码改动日志，而非解析黑箱权重，更适合需要严格审计或持续部署的场景。

对游戏与仿真开发者：传统强化学习需要大量环境交互和算力训练，而HL的代码迭代模式可能降低对GPU集群的依赖，使中小团队也能在机器人控制、自动化决策等领域尝试强化学习技术。

对企业采购决策者：HL的可解释性和抗遗忘特性，在需要持续运维的工业控制、动态定价策略等场景中具有潜在优势。但需注意目前其应用边界仍局限于“策略迭代”而非“感知抽象”，纯视觉任务仍需结合传统深度网络。

值得关注的后续

第一，HL能否在更多复杂连续控制任务（如灵巧手操作、自动驾驶决策）中找到稳定落地点；第二，OpenAI内部或外部社区是否将HL与神经网络融合方案（如用HL快速生产训练数据反哺神经网络）形成成熟开发框架；第三，该路线对现有强化学习训练云服务市场（如按GPU时间计费的模式）可能产生的成本结构影响，目前公开信息显示尚未有商业产品落地。

来源：量子位 · 每日最新

不更新参数就能强化学习！OpenAI翁家翌提出新范式：决策只需AI手搓一个.py 文件