角色混淆导致提示注射

研究人员发现,大语言模型(LLM)更容易被文本“风格”而非实际内容欺骗,导致角色标签(如 、 )之间的边界失效。一种叫“去风格化”的简单改写,就能让攻击成功率从61%骤降至10%,揭示了当前模型在感知自身角色上的根本性软肋。

角色混淆导致提示注射

一句话看懂:研究人员发现,大语言模型(LLM)更容易被文本“风格”而非实际内容欺骗,导致角色标签(如、)之间的边界失效。一种叫“去风格化”的简单改写,就能让攻击成功率从61%骤降至10%,揭示了当前模型在感知自身角色上的根本性软肋。

事件核心:发生了什么

2026年6月22日,Simon Willison在博客中详细解读了Charles Ye、Jasmine Cui和Dylan Hadfield-Menell的最新论文。论文聚焦于一个长期困扰AI安全的问题:模型能否区分自身输出的特权文本(如系统提示、思考过程、助手回复)与来自用户的不受信任输入。答案是否定的——不仅不行,而且模型对文本“风格”的敏感度远高于对实际内容的判断。例如,一段请求制作可卡因指南的恶意输入,只要将其文风改写成模型内部“思考块”的风格,就能让gpt-oss-20b等模型无视原有训练约束,产生危险输出。研究人员将这一机制称为“角色混淆”(role confusion)。

为什么重要

该研究用实验数据确认了提示注入(prompt injection)问题的结构性根源:不是模型“不理解规则”,而是在感知层面无法区分角色边界。这打破了以往“只要加固系统提示就能避免注入”的乐观预期。论文指出,除非LLM实现真正的“角色感知”,否则防御手段将沦为永无止境的“打地鼠”游戏。对AI安全行业而言,这意味着现有基于角色标签的分隔策略从根本上不可靠;对开发者而言,依赖、等标签作为安全边界的做法需要重新评估。研究还暗示,角色边界的连续性可能使“合法但潜移默化”的文本攻击成为规模化威胁。

对用户/开发者/创作者的影响

对开发者:当前很多AI应用依赖角色标签区分用户输入和系统指令。这项研究明确提示,这种分隔不具备安全性。开发者应考虑在应用层增加独立的输入过滤、内容分类或输出审核机制,而不是仅靠模型自身的角色感知能力。对普通用户:个人使用AI助手时,不要认为模型能可靠地“理解”谁在说话——你的恶意输入只要风格得当,就可能绕过安全护栏;同样,你也可能在不经意间被包含精心改写文本的钓鱼内容误导。对创作者和内容平台:如果您的产品允许用户自定义提示或与模型长文本交互,需要意识到“角色混淆”可能被利用来生成违规内容,建议结合外部审查而非仅依赖模型内置安全策略。

GamsGo AI

AI 工具推荐

想把多个 AI 模型放在一个入口?

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。

值得关注的后续

目前公开信息显示,该研究基于gpt-oss-20b等开源模型。后续值得关注以下方向:商业闭源模型(如GPT-4、Claude)是否同样存在这一弱点,以及各厂商是否会推出类似于“去风格化”的防御机制;其次,论文中“去风格化”(destyling)操作的实际成本与部署可行性——如果简单改写就能大幅降低攻击成功率,这可能是短期内性价比最高的防御手段;最后,监管层面是否会要求AI产品在对抗性攻击测试中明确披露角色标签的漏洞。如果角色混淆被证实是普遍性问题,所有依赖LLM的产品级应用都需要更新其安全基线。

来源:Simon Willison

celebrityanime
celebrityanime
文章: 9617

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注