小红书 RedKnot 推理引擎：将 KV Cache 按注意力头拆解实现长文本加速

一句话看懂：小红书 AI Infra 团队提出 RedKnot 推理引擎，通过识别不同注意力头对上下文的差异化需求，将 KV Cache 按“头”拆解、存储和计算，在长文本推理中实现了最高 5 倍以上的首字加速，并大幅降低显存占用和算力消耗。

事件核心：发生了什么

小红书引擎架构部 AI Infra 团队在 arXiv 发布论文 RedKnot，核心思路是：KV Cache 的价值并非按 token 均匀分布，而是按“注意力头”强烈分化——少数头需要全局上下文，多数头只看局部。基于这一观察，团队设计了三个协同机制：头分类稀疏化（将 12%–16% 的头标记为“全局头”，其余直接复用）、稀疏 FFN（只对 top-k token 计算完整前馈网络）、以及 SegPagedAttention（按头分页存储 KV，避免构造 attention mask）。实验显示，RedKnot 在 8 卡 H800 上对 DeepSeek-V4-Flash 实现了 128K 上下文下 5.16 倍的 TTFT 加速，单卡并发会话数从 4 提升到 31，预填充阶段算力削减 67%–79.5%。论文已公开发布，代码在 GitHub 开源维护。

为什么重要

长文本已成为大模型服务的常态（RAG、编程 agent、长会话系统），但 KV Cache 的存储和计算瓶颈始终未解决。现有方案往往将 KV 当作稠密张量统一处理，导致算法上已识别的稀疏性无法在存储和计算层面兑现。RedKnot 从“头”的粒度出发，统一了算法、存储和内核的底层逻辑，补齐了关键的设计错位。这一思路可能推动推理引擎从“稠密层+稠密序列+仅前缀命中”向“稀疏层+稀疏序列+任意位置复用”转型，影响面向长上下文的推理系统设计与开源生态。

对用户/开发者/创作者的影响

对开发者而言，RedKnot 基于 SGLang 实现，提供了完整的运行时接口，支持标准 GQA 模型、混合注意力+MoE 模型（如 Qwen3.5）及 MLA 压缩注意力模型（如 DeepSeek-V4），有较高的适配性，可直接用于长上下文服务的推理加速。对普通用户而言，这意味着使用长上下文功能（如智能客服、文档分析、代码助手）时，响应延迟可能大幅降低，同时服务商能以更低的硬件成本支撑更高并发。目前公开信息显示，RedKnot 主要服务于小红书内部业务，尚不清楚是否会以 API 形式对外提供。

AI 工具推荐

想把多个 AI 模型放在一个入口？

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型，适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接：通过此链接购买，我可能获得佣金，不影响你的价格。

值得关注的后续

第一，RedKnot 在长上下文场景下的精度表现值得验证：论文显示其能在抑制噪声的同时“反超”稠密计算的准确率，这种噪声抑制特性是否在更多数据集上成立，仍需社区复现。第二，该项目是否会成为 SGLang、vLLM 等主流推理框架的 upstream 贡献，或者形成独立生态，将影响其实际采用面。第三，竞品推理系统（如 TensorRT-LLM、DeepSpeed）是否会在类似方向跟进，尤其是按头拆解 KV Cache 这一思路能否被适配到更多硬件和架构上。

来源：公众号：小红书技术（dots.llm）

小红书 RedKnot 推理引擎：将 KV Cache 按注意力头拆解实现长文本加速

事件核心：发生了什么

为什么重要

对用户/开发者/创作者的影响

想把多个 AI 模型放在一个入口？

值得关注的后续

celebrityanime

发表回复取消回复

事件核心：发生了什么

为什么重要

对用户/开发者/创作者的影响

想把多个 AI 模型放在一个入口？

值得关注的后续

celebrityanime

相关文章

Palantir 携手英伟达主攻主权 AI 股价延续反弹势头

OceanBase发布AI数据库：以一套引擎融合湖库与多模态数据

DeepSeek V4 正式版要来了，API 高峰时段价格翻倍

发表回复取消回复