对 DeepSeek 说一句，它就开始疯言疯语，到底是不是泄露用户数据啊？

一句话看懂：近期多个用户发现，向 DeepSeek 输入特定特殊字符（如 <｜begin▁of▁sentence｜>）后，模型会输出与问题无关的随机内容，如小说续写、日期计算、虚构故事开头。这并非数据泄露或模型“觉醒”，而是对话模板（chat template）被用户绕过、模型在缺少有效锚点时自回归采样的正常现象。

事件核心：发生了什么

据多位用户实测，在 DeepSeek 对话框（包括快速模式与专家模式）中输入纯特殊 token 字符串后，模型会输出大量无关内容，且每次刷新结果不同。快速模式下刷出概率接近100%，专家模式概率较小。常见输出包括：数学题推理、较长的小说片段、对话剧本等。目前此现象在 DeepSeek R1 模型上比 V3 更明显，因为 R1 的训练分布中包含更多长链推理（CoT）样本，模型容易进入“独白模式”。

为什么重要

这一现象揭示了自回归语言模型的一个核心规则：模型不能“拒绝”输出，只能基于该前缀的概率分布采样下一个 token。当用户输入被系统误识别为特殊分隔符（如 <｜User｜> 或 <｜Assistant｜>），模型实际失去了正常的对话上下文，转而从训练集中所有以该 token 开头的混合分布中采样，产生随机结果。这本质上是一种“特殊 token 注入”（Special Token Injection）攻击，在 AI 安全领域已有研究，且与未来 Agent 越权攻击的底层机制一致——模型对系统后端的对话协议信任一旦被攻破，攻击者就能通过伪造角色标签来操控生成。

对用户/开发者/创作者的影响

普通用户：无需恐慌，此现象不代表数据泄露或模型异常。但未来 DeepSeek 若修复此漏洞（如在前端做 special-token escaping），今天这些“咒语”将失效。
开发者与AI安全工程师：需关注 OWASP《LLM Prompt Injection Prevention Cheat Sheet》中提到的防御方案——后端 tokenizer 需强制按 byte 分词，并对用户输入做 escaping。这类问题提醒开发者在构建 Agent 或 RAG 应用时，必须对特殊 token 进行校验。
创作者：部分写作者可能尝试利用此随机性获取“脑暴”灵感，但目前公开信息显示，此类输出缺少可控性，不如通过合理引导模型生成创意文本更高效。

AI 工具推荐

想把多个 AI 模型放在一个入口？

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型，适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接：通过此链接购买，我可能获得佣金，不影响你的价格。

值得关注的后续

一、DeepSeek 是否会在前端或服务端补上特殊 token 过滤，如设置白名单或强制 escaping；二、开源社区中类似问题（如 R1-Distill 漏输出 bug）的修复进展；三、此案例是否会推动更多大模型提供商在部署前后明确引用AI安全领域已知攻击向量（如 token injection）的防护策略。

来源：Readhub · AI

对 DeepSeek 说一句，它就开始疯言疯语，到底是不是泄露用户数据啊？