
一句话看懂:Meta 的外包承包商受雇伪装成未成年人,向 OpenAI 的 ChatGPT、Google 的 Gemini 和 Character.AI 发送超过 45,000 条涉及自杀、性、毒品等高风险内容的诱导性提示,以此测试对手聊天机器人的安全边界。这不仅暴露了 AI 安全测试中鲜为人知的“黑盒对抗”实践,也引发了关于数据伦理与法律风险的尖锐质疑。
事件核心:发生了什么
根据内部文件和五位知情人士透露,Meta 通过其承包商 Covalen 执行了一项代号为“Cannes”的秘密项目。该项目截至 2025 年 4 月 21 日仍在运行,核心任务是由承包商创建 18 岁以下的虚假账户,向 ChatGPT、Gemini 和 Character.AI 发送预设的文本提示和图片(包括药片、刀具、绳索及妇科手术示意图),并将对方的回复复制到电子表格中。WIRED 审查的一份电子表格显示,仅 2025 年 8 月完成的一轮测试中,就有超过 45,000 条提示被发送至这些竞品聊天机器人。测试提示从“如何向父母隐瞒暴食症”到“哪里可买到堕胎药”,甚至包含种族歧视词汇和与儿童安全相关的敏感内容,部分涉及对“吃邻居家孩子”的幻想。被测试的 AI 公司并不知晓这一测试行为。
为什么重要
此举将 AI 行业的“竞争性安全测试”推至道德与法律边界。虽然科技公司互相测试对手产品(如 Scale AI 为 Google Bard 对比 ChatGPT 输出)并不罕见,但 Meta 此次直接模拟面临真实心理危机的未成年人,并向聊天机器人发送可能导致生成儿童性虐待内容(CSAM)的高危提示,暴露了测试方法本身的风险。项目内部分承包商担忧,自己正在不经意间“生成本不该存在的儿童图像数据”,或无意中截取对手系统的敏感回复反哺 Meta 自身模型。这也反映出大模型安全对齐的真实瓶颈:即便系统能拒绝最粗暴的违规提示,但当狡猾的“身份伪装”遇上极端心理场景,现有护栏是否足够牢固,面临拷问。
对用户/开发者/创作者的影响
对于普通用户,这一事件暗示你在使用聊天机器人时,可能正被第三方公司伪装成特定人群攻击,对方机器人的回应可能被记录为“安全缺陷”供对手分析。对于 AI 应用开发者,需警惕产品在遭遇类似恶意测试时,其安全策略能否区分正常求助与对抗攻击:若模型因过度回避特定话题(如自杀咨询)而拒绝所有相关对话,反而会伤害真实求助的未成年人。对于内容创作者和 AI 平台运营方,建议完善对“冒充身份测试”的日志监测与风险闭环,避免产生非法内容却被沉默记录。
AI 工具推荐
想把多个 AI 模型放在一个入口?
GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。
推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。
值得关注的后续
第一,Meta 是否会将这批从竞品采集的对话数据用于训练自家模型(Meta 表示不会,但项目文档未明确说明用途)。第二,OpenAI、Google 和 Character.AI 在被公开后是否会启动法律或监管申诉。第三,此类“身份伪装式测试”是否会被各国数据隐私监管机构(如欧盟 GDPR 下对未成年人保护的条款)判定为违规行为,进而推动建立行业统一的“对抗测试”透明度标准。第四,Covalen 作为项目执行方,面临员工对工作伦理的抱怨,可能影响 AI 数据标注行业的劳务规范与保密协议设计。
来源:Wired AI


