
一句话看懂:小红书 AI Infra 团队提出 RedKnot 推理引擎,通过识别不同注意力头对上下文的差异化需求,将 KV Cache 按“头”拆解、存储和计算,在长文本推理中实现了最高 5 倍以上的首字加速,并大幅降低显存占用和算力消耗。
事件核心:发生了什么
小红书引擎架构部 AI Infra 团队在 arXiv 发布论文 RedKnot,核心思路是:KV Cache 的价值并非按 token 均匀分布,而是按“注意力头”强烈分化——少数头需要全局上下文,多数头只看局部。基于这一观察,团队设计了三个协同机制:头分类稀疏化(将 12%–16% 的头标记为“全局头”,其余直接复用)、稀疏 FFN(只对 top-k token 计算完整前馈网络)、以及 SegPagedAttention(按头分页存储 KV,避免构造 attention mask)。实验显示,RedKnot 在 8 卡 H800 上对 DeepSeek-V4-Flash 实现了 128K 上下文下 5.16 倍的 TTFT 加速,单卡并发会话数从 4 提升到 31,预填充阶段算力削减 67%–79.5%。论文已公开发布,代码在 GitHub 开源维护。
为什么重要
长文本已成为大模型服务的常态(RAG、编程 agent、长会话系统),但 KV Cache 的存储和计算瓶颈始终未解决。现有方案往往将 KV 当作稠密张量统一处理,导致算法上已识别的稀疏性无法在存储和计算层面兑现。RedKnot 从“头”的粒度出发,统一了算法、存储和内核的底层逻辑,补齐了关键的设计错位。这一思路可能推动推理引擎从“稠密层+稠密序列+仅前缀命中”向“稀疏层+稀疏序列+任意位置复用”转型,影响面向长上下文的推理系统设计与开源生态。
对用户/开发者/创作者的影响
对开发者而言,RedKnot 基于 SGLang 实现,提供了完整的运行时接口,支持标准 GQA 模型、混合注意力+MoE 模型(如 Qwen3.5)及 MLA 压缩注意力模型(如 DeepSeek-V4),有较高的适配性,可直接用于长上下文服务的推理加速。对普通用户而言,这意味着使用长上下文功能(如智能客服、文档分析、代码助手)时,响应延迟可能大幅降低,同时服务商能以更低的硬件成本支撑更高并发。目前公开信息显示,RedKnot 主要服务于小红书内部业务,尚不清楚是否会以 API 形式对外提供。
AI 工具推荐
想把多个 AI 模型放在一个入口?
GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。
推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。
值得关注的后续
第一,RedKnot 在长上下文场景下的精度表现值得验证:论文显示其能在抑制噪声的同时“反超”稠密计算的准确率,这种噪声抑制特性是否在更多数据集上成立,仍需社区复现。第二,该项目是否会成为 SGLang、vLLM 等主流推理框架的 upstream 贡献,或者形成独立生态,将影响其实际采用面。第三,竞品推理系统(如 TensorRT-LLM、DeepSpeed)是否会在类似方向跟进,尤其是按头拆解 KV Cache 这一思路能否被适配到更多硬件和架构上。


