不更新参数就能强化学习!OpenAI翁家翌提出新范式:决策只需AI手搓一个.py 文件

不更新参数就能强化学习!OpenAI翁家翌提出新范式:决策只需AI手搓一个.py 文件

不更新参数就能强化学习!OpenAI翁家翌提出新范式:决策只需AI手搓一个.py 文件

一句话看懂:OpenAI核心研究员翁家翌提出“启发式学习”(Heuristic Learning, HL),将强化学习的策略从神经网络权重转移到可读的Python代码中,AI通过GPT-5.4驱动的Codex自动编辑程序来迭代决策,无需任何梯度更新或参数训练。该方案在Atari游戏Breakout上取得理论满分864分,并在机器人控制任务中达到与经典PPO算法相当的性能。

事件核心:发生了什么

在2026年5月,OpenAI研究员翁家翌公开了强化学习新范式——启发式学习(HL)。其核心思路是放弃神经网络参数更新,转而让AI维护一套由Python代码构成的“决策软件系统”:包括状态检测器、规则逻辑、测试用例和版本历史。每次迭代时,由GPT-5.4驱动的Codex模型“阅读”失败记录和日志,直接修改这些代码文件来实现策略改进。

实验数据覆盖Atari 57基准测试的全部游戏,共生成342条编码迭代轨迹。在Breakout中AI获得864分理论满分;在MuJoCo的Ant和HalfCheetah等连续控制任务中,综合评分分别突破6000分和11836分,性能对标专业深度强化学习模型。

为什么重要

现行深度强化学习(DRL)面临三大瓶颈:灾难性遗忘(新任务覆盖旧参数)、决策黑箱不可解释、样本效率低下。HL通过将知识存储在“可读、可改、可测”的代码中,天然规避了参数更新带来的遗忘问题,每次调整都能明确追踪改动原因。这种思路将强化学习从“如何更新参数”重新定义为“如何维护一个持续吸收反馈的软件系统”,为在线学习和持续学习提供了一条非梯度化的可行路径。

值得注意的是,HL并非完全排斥梯度计算——其内部组件(如模型预测控制MPC)仍会使用梯度做局部搜索,但梯度不用于神经网络训练。翁家翌同时也承认,HL在原始像素识别(如ImageNet)上无法替代神经网络,二者的融合才是关键命题。

对用户/开发者/创作者的影响

对AI研究者而言:HL提供了一套可复现的工具链,开源项目允许开发者直接查看策略的源代码改动日志,而非解析黑箱权重,更适合需要严格审计或持续部署的场景。

对游戏与仿真开发者:传统强化学习需要大量环境交互和算力训练,而HL的代码迭代模式可能降低对GPU集群的依赖,使中小团队也能在机器人控制、自动化决策等领域尝试强化学习技术。

对企业采购决策者:HL的可解释性和抗遗忘特性,在需要持续运维的工业控制、动态定价策略等场景中具有潜在优势。但需注意目前其应用边界仍局限于“策略迭代”而非“感知抽象”,纯视觉任务仍需结合传统深度网络。

值得关注的后续

第一,HL能否在更多复杂连续控制任务(如灵巧手操作、自动驾驶决策)中找到稳定落地点;第二,OpenAI内部或外部社区是否将HL与神经网络融合方案(如用HL快速生产训练数据反哺神经网络)形成成熟开发框架;第三,该路线对现有强化学习训练云服务市场(如按GPU时间计费的模式)可能产生的成本结构影响,目前公开信息显示尚未有商业产品落地。

来源:量子位 · 每日最新

celebrityanime
celebrityanime
文章: 848

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注