强化学习之父 Sutton 联手毁灭战士之父 Carmack：让机器人进入真实世界打游戏

一句话看懂：由约翰·卡马克（John Carmack）的 Keen Technologies 联合阿尔伯塔大学和 Openmind 研究所，发布了 Physical Atari 系统——一台造价不到 1000 美元的机械手，通过真实打 Atari 游戏来训练强化学习算法。累计运行了 145 小时无人工干预，迈出了让机器人在真实世界中边干边学的关键一步。

事件核心：发生了什么

2026 年 6 月，Keen Technologies、阿尔伯塔大学和 Openmind 研究所发布论文《Physical Atari: A Robust and Accessible Platform for Real-time Reinforcement Learning on Robots》。该系统包含两个核心部件：一个基于树莓派 5 的 Atari Devbox（用于运行经典 Atari 游戏），以及一个名为 Robotroller 的 3D 打印机械手。机械手通过摄像头观察屏幕画面，用伺服电机操控真实摇杆和开火按钮来玩游戏，奖励信号也通过视觉方式获取。整套系统硬件成本控制在 1000 美元以内，可连续运行数周而不需人工干预。论文作者名单中包含了强化学习奠基人理查德·萨顿（Richard S. Sutton）与传奇程序员约翰·卡马克（John Carmack）。实验中，团队测试了 Pong、Seaquest 等六款游戏，每个游戏学习五到六小时，累计实验时间近 145 小时。更重要的是，团队发现即使两台一模一样的 Robotroller 机器人，训练好的策略在“陌生身体”上表现也会明显变差，而继续在目标机器人上学习可以修复这种偏差。

为什么重要

当前机器人领域的主流训练路线（在模拟器中训练后迁移到真机，或靠人工远程采集数据）都存在显著短板：模拟器与真实世界的差异直接导致机器人“摔倒”等事故；人工采集数据成本高、规模受限。Physical Atari 提供了一条更便宜、更直接的“第三条路”：让机器人直接在真实世界中持续学习，从根本上绕过仿真误差问题。这项工作的意义不在于让机器人学会打游戏，而在于提供了一个可复现、低成本、足够耐用的实物实验平台。如果该思路得以推广，将可能改变强化学习研究的标准范式——从依赖模拟器转向依赖真实的物理交互，更贴近机器人、自动驾驶等真实世界应用的需求。

对用户/开发者/创作者的影响

对机器人领域的开发者与研究者而言，Physical Atari 降低了真实世界强化学习的准入门槛。此前，要验证一个强化学习算法在真实场景中的表现，需要投入数万美元购置机器人硬件、搭建模拟环境或雇佣数据标注人员。现在，一台 1000 美元的 3D 打印机械手加树莓派，即可搭建一个可连续运行数周的真实实验环境。这意味着更多的实验室、初创公司甚至个人开发者可以开展真实世界的强化学习研究。但目前公开信息显示，该系统专为 Atari 游戏场景设计，尚不能直接用于人形机器人或工业机器人场景，短时间内还不会替代现有的仿真工具链。

值得关注的后续

开源与社区生态：论文已公开在 arXiv，如果 Keen Technologies 将全套设计文件（3D 打印图纸、电路图、控制软件）开源，可能会迅速形成一个真实世界强化学习的开发者社区。
商品化或出售套件：鉴于硬件成本低、制作简单，可能出现面向高校和实验室的平价套件，加速相关课程与科研项目的推进。
向更复杂任务的迁移：目前的系统只能打 2D 平面游戏，未来是否可能拓展到更复杂的 3D 任务或实际机器人操作（如抓取、装配），是观察该路线能否规模化的关键节点。

来源：Readhub · AI