
智能体成新型攻击入口?模型上线前OpenAI内部到底审什么?董事会成员首次详解
一句话看懂:OpenAI董事会安全委员会主席Zico Kolter近期详解了模型发布前的审查流程,并指出随着AI智能体获得长期任务执行和工具调用能力,提示词注入正成为核心安全风险,模型并不会因变大而自动变得更安全。
事件核心:发生了什么
在InfoQ整理的一场深度访谈中,OpenAI董事会成员、卡内基梅隆大学机器学习系主任Zico Kolter系统阐述了OpenAI内部的安全治理机制。他于2024年8月加入OpenAI董事会,并担任安全与安全性委员会(SSC)主席。该委员会负责监督模型开发过程中的安全治理,并在重大模型发布前组织大型审查会议。团队需提交模型能力信息、安全测试结果、第三方评估报告及风险分析,委员会若认为问题未解决,有权要求推迟发布。Kolter还提到,OpenAI内部设有Preparedness Team(预备性团队),其公开的预备性框架针对灾难性风险(如生物风险、网络安全风险)设定了安全阈值。他同时分享了一项大型智能体红队攻击竞赛的观察结果:在180万次攻击尝试后,研究发现模型能力提升不会自动带来鲁棒性的同步增强。
为什么重要
Kolter的视角高度工程化,他强调AI安全正从“模型级问题”转向“生态系统级问题”。当前,AI智能体被赋予的自主性远超一年前,它们可以调用API、操作真实系统,攻击面急剧扩大。提示词注入不再是简单的对话漏洞,而是可能让智能体执行未授权操作的关键入口。这直接挑战了“更强模型=更安全”的行业直觉。OpenAI、Anthropic(通过RSP)和Google DeepMind(通过Frontier Model Framework)虽已建立类似的模型发布框架,但Kolter明确指出,安全能力的提升速度是否跟得上AI部署规模的扩张,仍是核心挑战。这意味着AI安全正从可选的后处理环节,演变为必须与模型能力同步建设的工程体系。
对用户/开发者/创作者的影响
对于集成OpenAI API构建智能体应用的开发者而言,需要将提示词注入防护视为核心工程需求,而非边缘问题。例如,当智能体可读取邮件或操作数据库时,注入攻击可能直接导致数据泄露或越权操作。对于使用AI助手的企业用户,应了解大模型本身并不自带“道德安全带”,任何赋予AI的系统权限都应配套独立的输入输出监控和外部过滤层。对于普通用户,这意味着不应盲目信任AI智能体的自主决策,特别是当它被赋予财务或管理权限时。Kolter强调,最终用户也需要承担安全责任,安全是模型提供方、第三方和用户三方共同投入的结果。
值得关注的后续
首先,OpenAI等公司是否会基于Kolter的观点,公开其智能体安全评估的具体基准(例如针对提示词注入的专门测试套件)。其次,随着GPT-5或下一代模型的发布,SSC是否会首次因安全证据不足而公开推迟发布,这将是治理有效性的试金石。最后,第三方AI安全公司是否会推出针对智能体系统的分层安全产品,例如专用的输入/输出监控中间件,这将成为开发者生态的扩容机会。
来源:InfoQ CN


