标准 GPU 上的实时 LLM 推理：每个请求 3k 令牌/秒

一句话看懂：一家名为 KOG 的团队发布了一项技术预览，在标准数据中心 GPU 上实现了每秒 3000 令牌的推理速度（针对 2B 参数模型）。该团队声称其架构优化思路可以扩展至 30B 甚至更大规模的 MoE 模型，可能改变小型模型在实时应用中的部署成本与体验。

事件核心：发生了什么

KOG 在 Hacker News 上发布技术预览，展示了名为“Monokernel”的低延迟推理框架，其核心思路是将传统推理的多个 GPU Kernel 合并为单个内核，并引入“延迟张量并行”（Delayed Tensor Parallelism）技术。在 2B 参数的稠密模型、FP16 精度下，他们在标准数据中心 GPU（如 MI300X/H200）上测得单请求 3000 tok/s 的成绩。团队表示，未来针对 FP8 下的 5.1B 活跃参数模型（如 GPT-OSS-120B），理论上同样可以达到相近的推理速度。测试范围目前仅限数据中心 GPU，尚未对消费级显卡提供同等优化成果。

为什么重要

目前公开信息显示，该成果的争议点在于对标方式：2B 模型与数倍于其规模的顶尖模型直接对比，且未纳入同样以极速著称的 Taalas（采用 3-bit 量化并直接烧录模型到显卡）。但 KOG 的技术路径——通过缩短 GPU Kernel 调用栈与延迟张量并行——本质上是在更小模型上验证了一套可扩展的低延迟推理架构。如果该数学推论成立，它将让“实时推理”不再局限于大算力集群，而对中等规模（30B 以下）的 MoE 模型产生实质性影响，尤其在需要低延迟响应的对话、编码助手等场景。同时，这也在提醒业界：提高小模型推理速度，可能比单纯追求大模型参数更有实用价值。

对用户/开发者/创作者的影响

对于开发者来说，如果该技术落地，将能在现有数据中心 GPU（无需特制硬件）上以接近实时对话的延迟提供服务，显著降低部署成本。对于使用 AI 编码助手或实时翻译类产品的用户，这意味着更流畅的交互体验。对于依赖小型专用模型的应用场景（如本地写作助手、智能客服），KOG 的方案可能使“每请求毫秒级响应”成为标配。不过需要明确的是，消费级 GPU 由于带宽限制，即使采用相同优化，速度也会大幅下降，普通用户短期内无法直接获得这种速度。

AI 工具推荐

想把多个 AI 模型放在一个入口？

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型，适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接：通过此链接购买，我可能获得佣金，不影响你的价格。

值得关注的后续

大模型适配的实际效果：KOG 的数学推演是否能在真实 30B 模型（如 DeepSeek V4 Flash）上复现，仍需等待进一步的基准测试结果。
与专用推理芯片的竞争：如 Taalas 等使用 3-bit 量化+硬编码的方案，与 KOG 在标准 GPU 上的“软优化”路径相比，哪个在成本与普适性上更优，将影响产业选择。
开源与开发者生态：目前 KOG 开放了 playground 试用，但核心框架尚未完全开源。一旦开源，vLLM、llama.cpp 等主流推理框架是否跟进集成，将成为技术扩散的关键节点。

来源：hackernews

标准 GPU 上的实时 LLM 推理：每个请求 3k 令牌/秒