
一句话看懂:OpenAI 首席研究官 Mark Chen 在接受专访时明确表示,AGI(通用人工智能)已“近在咫尺”,他预测模型将在不久后具备“自我维持的研究能力”——即自主提出实验、完成长周期科研任务。同时,他警告人类留下的能力窗口“很小”,因为 AI 正在将进化本身外包给硅基生命。
事件核心:发生了什么
在近日公开的访谈中,Mark Chen 详细阐述了 OpenAI 内部对 AGI 的最新判断。他认为,从 2016 年 AlphaGo 对战李世石的“第37手”开始,AI 已经在数学、计算机科学、编程等几乎所有领域不断输出“神之一手”。而现在,最关键的转变在于:模型已经可以在许多行业完成“有意义的、长周期的真实工作”(即 long-horizon work),而不仅仅是演示性质的 demo。他坚信预训练的 Scaling 曲线并未到头,并以 OpenAI 内部从“预训练+后训练”范式赌赢推理(o1 模型)的过程为例,说明新突破往往来自一开始没人相信的赌注。
关于模型自我研究的能力,Mark 提出了“Vibe Researcher(氛围研究员)”的概念:未来顶级研究员的核心工作不再是亲自写每一行 PyTorch 代码,而是“编排”(orchestration)——人出主意、判断方向,模型负责执行和实现。OpenAI 的三年路线图也将“让模型做端到端研究”作为明确终点。
为什么重要
这标志着 OpenAI 首次系统性地将“模型自主科研”从远期愿景升级为可预期的近期事实。Mark 的发言透露了两个关键信号:第一,OpenAI 相信预训练 Scaling 至少还能撑过接近 10 个数量级的增长,且推理能力是下一个核心突破方向;第二,AI 行业的竞争重心正从“模型能回答多少问题”转向“模型能在没有人类干预下完成多少闭环任务”。对于整个 AI 行业和算力生态而言,这意味着更长的推理链、更强的持续学习能力以及新的评测体系将成为下一轮军备竞赛的核心。
对用户/开发者/创作者的影响
开发者和 AI 工程师:“Vibe Researcher”的预测意味着,工作流正在从“写代码”转向“定义问题+监督结果”。开发者需要适应以编排为主的开发模式,并开始构建自动化的研究管道、评测链路,而不是单纯追求模型在静态 benchmark 上的分数。
AI 工具推荐
想把多个 AI 模型放在一个入口?
GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。
推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。
普通用户和创作者:如果模型能自主进行数周甚至数月的任务思考,它创作的代码、设计方案、数学公式可能已经超出人类专家的认知盲区。这意味着内容创作者的工具使用将从“辅助”转向“委托”——AI 直接生成可交付的成果,用户更多扮演“品味判断”的角色。但 Mark 也坦白承认,目前 AI 缺乏“生活”和“常识”,因此人类在提出真正问题、判断答案是否有“灵魂”这两端的价值反而会被放大。
值得关注的后续
一是 OpenAI 是否会发布支持持续学习(continual learning)的新模型或 API 功能。Mark 提到这是“必须解锁的基础能力”,而且瞄准了球门,预计不久会有技术落地。
二是“评测危机”如何解决。Mark 指出 SAT 等经典评测已全面饱和,OpenAI 正尝试将评估团队与优化团队分离,并依赖大规模真实部署来发现失败模式。这意味着模型评测标准可能发生根本性变化。
三是竞品是否跟进。谷歌 DeepMind、Anthropic 等企业是否也会在明年提出类似的“自主科研”路线图,将成为判断行业风向的重要指标。
来源:36氪 · 24小时热榜


