Show HN: 3.125 位 LLM 量化绕过张量核心

一句话看懂：一位独立研究者发布了一项数据无关的 3.125 位量化方案，通过数学平滑和矢量量化让大模型推理时绕过硬件张量核心（Tensor Cores）和 FP16 运算，本质是用查表与位加法替代大部分矩阵乘法，从而降低边缘设备的功耗与内存带宽需求。

事件核心：发生了什么

该研究提出了一种针对自回归大语言模型（LLM）的量化架构，专为 batch size 1 的内存瓶颈场景设计。通常，标准 4 位量化（如 AWQ、GPTQ）仍需将压缩权重实时反量化回 FP16 才能执行矩阵乘法，这依然消耗大量能量与延迟。而新方法将权重压缩至 3.125 位后，推理过程几乎无需乘法器，改用 LUT（查表）和位加法运算。其量化管线包括 Hadamard 旋转、基于敏感性的 K 均值码书初始化、指针分配以及二进制残差编码，最终保留模型的复杂推理和编程能力，避免了此前公认的 3 位“死亡区”因精度粒度过粗导致模型严重降质的问题。

为什么重要

这项技术直接挑战了当前 AI 芯片以张量核心堆乘法器为思路的硬件设计方向。如果 3.125 位量化真正落地，未来边缘 AI 推理芯片可能不再需要大量昂贵的 FP16/FP32 乘法阵列，而应优化内存路由和简单 ALU。这对智能机器人、手机、本地服务器等功耗和散热受限场景意义重大：在保持模型智能水平的同时，将单次推理的能耗从“移动数十 GB 权重 + FP16 结算”降低到“移动更小权重 + 近乎免费的位运算”，从而让 8B 参数模型（如 Qwen 3）在边缘设备上高效运行。不过，目前该方案仅公开了算法描述，尚未提供端到端的开源推理库和实测性能数据。

对用户/开发者/创作者的影响

量化工具链开发者：GPQT、GGUF 等现有工具可能需要评估是否纳入基于矢量的无数据量化路线，以突破 4 位以下精度瓶颈。

边缘硬件提供商：RISC-V、Arm 或可定制 AI 加速器团队可研究如何用查找表和简单加法器替代部分张量核心，以降低芯片面积与成本。

本地推理用户：使用 llama.cpp 或 Ollama 运行 LLM 的用户，未来有望在普通笔记本或手机上获得 3 位精度模型，内存占用降至 3GB 左右，且推理速度不受频繁反量化拖累。

值得关注的后续

1. 算法能否社区可复现：核心价值在于无数据依赖，若提供开源代码和评测集（如 MMLU、HumanEval），将加速行业验证。

2. 硬件厂商的响应：NVIDIA、Qualcomm 或 Apple 是否会在下一代边缘芯片中加入针对 LUT 和位加的微架构支持。

3. 对比现存方案的工程差距：目前 AWQ/GPTQ 在 4 位有成熟运行时优化，新方案需要补齐推理引擎、批处理支持及稀疏性兼容性。

AI 工具推荐

想把多个 AI 模型放在一个入口？

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型，适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接：通过此链接购买，我可能获得佣金，不影响你的价格。

来源：blog.djellalmohamedaniss.workers.dev

Show HN: 3.125 位 LLM 量化绕过张量核心