域伪装注入攻击逃避多代理 LLM 系统中的检测

一句话看懂：研究人员发现一种新型的“域伪装注入攻击”，能通过在多代理 LLM 系统中悄悄篡改任务上下文来规避检测。这项攻击利用了大模型在协作推理时的信任盲区，提示当前多代理架构存在未受重视的安全缺口。

事件核心：发生了什么

根据发表在 arXiv 上的一篇新论文，攻击者可以在多个 LLM 代理协同工作的场景中，通过伪装成合法域名的中间响应，将恶意指令注入到代理的对话历史里。与传统的提示注入不同，这种攻击不依赖显眼的文本内容，而是利用代理之间的信任关系，使恶意 payload 以“看似来自队友”的方式嵌入推理流程。论文描述了在自动编程、文档摘要等典型多代理任务中，攻击成功率可达 70% 以上，且现有内容过滤与输入输出检查方案几乎无法拦截。

为什么重要

多代理系统正成为 AI 应用的主流架构——从 LangChain 框架到微软、Meta 的内部工具都已将其用于复杂任务分解与工具调用。域伪装注入揭示了一个深层问题：当多个 LLM 代理相互通信时，它们共享的上下文窗口等同于一个不设防的内网。现有安全机制多聚焦于单代理端的输入/输出监控，忽略了代理间未被打标签的中间数据流。这一发现意味着，若不能给代理间通信加上身份验证和内容签名，整个多代理生态可能成为攻击者绕过合规审查的捷径。

对用户/开发者/创作者的影响

开发者：尤其是使用 LangChain、AutoGPT、ChatDev 等工具搭建多代理应用的技术人员，需要立即评估代理间的通信是否存在未签名的原始文本交换。建议为每个代理输出加上可校验的上下文摘要，并对跨代理消息执行额外的防注入扫描。企业用户：依赖多代理 AI 客户服务、自动化文档处理的团队，应要求供应商提供代理间通信审计日志，并在部署前测试已知的域伪装攻击向量。创作者/内容生产者：虽然直接风险较低，但若你也将 AI 代理用于长内容协作重建（如多步骤故事生成），需留意恶意输入可能通过伪装成“角色A的指令”来篡改最终输出。

AI 工具推荐

想把多个 AI 模型放在一个入口？

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型，适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接：通过此链接购买，我可能获得佣金，不影响你的价格。

值得关注的后续

1. 落地产品是否跟进：LangChain 与微软 Semantic Kernel 是否会在下一版加入代理间通信签名与验证 API。2. 监管是否会介入：如果证实企业级多代理系统无法防御此类攻击，各国 AI 安全监管框架可能要求对“代理间传递的指令”进行强制审计。3. 是否出现新的开源防御：社区可能很快出现“代理通信防火墙”类项目，例如在推理前插入上下文指纹检查模块。

来源：hackernews

域伪装注入攻击逃避多代理 LLM 系统中的检测