智能体成新型攻击入口？模型上线前OpenAI内部到底审什么？董事会成员首次详解

一句话看懂：OpenAI董事会安全委员会主席Zico Kolter近期详解了模型发布前的审查流程，并指出随着AI智能体获得长期任务执行和工具调用能力，提示词注入正成为核心安全风险，模型并不会因变大而自动变得更安全。

事件核心：发生了什么

在InfoQ整理的一场深度访谈中，OpenAI董事会成员、卡内基梅隆大学机器学习系主任Zico Kolter系统阐述了OpenAI内部的安全治理机制。他于2024年8月加入OpenAI董事会，并担任安全与安全性委员会（SSC）主席。该委员会负责监督模型开发过程中的安全治理，并在重大模型发布前组织大型审查会议。团队需提交模型能力信息、安全测试结果、第三方评估报告及风险分析，委员会若认为问题未解决，有权要求推迟发布。Kolter还提到，OpenAI内部设有Preparedness Team（预备性团队），其公开的预备性框架针对灾难性风险（如生物风险、网络安全风险）设定了安全阈值。他同时分享了一项大型智能体红队攻击竞赛的观察结果：在180万次攻击尝试后，研究发现模型能力提升不会自动带来鲁棒性的同步增强。

为什么重要

Kolter的视角高度工程化，他强调AI安全正从“模型级问题”转向“生态系统级问题”。当前，AI智能体被赋予的自主性远超一年前，它们可以调用API、操作真实系统，攻击面急剧扩大。提示词注入不再是简单的对话漏洞，而是可能让智能体执行未授权操作的关键入口。这直接挑战了“更强模型=更安全”的行业直觉。OpenAI、Anthropic（通过RSP）和Google DeepMind（通过Frontier Model Framework）虽已建立类似的模型发布框架，但Kolter明确指出，安全能力的提升速度是否跟得上AI部署规模的扩张，仍是核心挑战。这意味着AI安全正从可选的后处理环节，演变为必须与模型能力同步建设的工程体系。

对用户/开发者/创作者的影响

对于集成OpenAI API构建智能体应用的开发者而言，需要将提示词注入防护视为核心工程需求，而非边缘问题。例如，当智能体可读取邮件或操作数据库时，注入攻击可能直接导致数据泄露或越权操作。对于使用AI助手的企业用户，应了解大模型本身并不自带“道德安全带”，任何赋予AI的系统权限都应配套独立的输入输出监控和外部过滤层。对于普通用户，这意味着不应盲目信任AI智能体的自主决策，特别是当它被赋予财务或管理权限时。Kolter强调，最终用户也需要承担安全责任，安全是模型提供方、第三方和用户三方共同投入的结果。

值得关注的后续

首先，OpenAI等公司是否会基于Kolter的观点，公开其智能体安全评估的具体基准（例如针对提示词注入的专门测试套件）。其次，随着GPT-5或下一代模型的发布，SSC是否会首次因安全证据不足而公开推迟发布，这将是治理有效性的试金石。最后，第三方AI安全公司是否会推出针对智能体系统的分层安全产品，例如专用的输入/输出监控中间件，这将成为开发者生态的扩容机会。

来源：InfoQ CN

智能体成新型攻击入口？模型上线前OpenAI内部到底审什么？董事会成员首次详解