Show HN: 3.125 位 LLM 量化绕过张量核心

Show HN: 3.125 位 LLM 量化绕过张量核心

Show HN: 3.125 位 LLM 量化绕过张量核心

一句话看懂:一位独立研究者发布了一项数据无关的 3.125 位量化方案,通过数学平滑和矢量量化让大模型推理时绕过硬件张量核心(Tensor Cores)和 FP16 运算,本质是用查表与位加法替代大部分矩阵乘法,从而降低边缘设备的功耗与内存带宽需求。

事件核心:发生了什么

该研究提出了一种针对自回归大语言模型(LLM)的量化架构,专为 batch size 1 的内存瓶颈场景设计。通常,标准 4 位量化(如 AWQ、GPTQ)仍需将压缩权重实时反量化回 FP16 才能执行矩阵乘法,这依然消耗大量能量与延迟。而新方法将权重压缩至 3.125 位后,推理过程几乎无需乘法器,改用 LUT(查表)和位加法运算。其量化管线包括 Hadamard 旋转、基于敏感性的 K 均值码书初始化、指针分配以及二进制残差编码,最终保留模型的复杂推理和编程能力,避免了此前公认的 3 位“死亡区”因精度粒度过粗导致模型严重降质的问题。

为什么重要

这项技术直接挑战了当前 AI 芯片以张量核心堆乘法器为思路的硬件设计方向。如果 3.125 位量化真正落地,未来边缘 AI 推理芯片可能不再需要大量昂贵的 FP16/FP32 乘法阵列,而应优化内存路由和简单 ALU。这对智能机器人、手机、本地服务器等功耗和散热受限场景意义重大:在保持模型智能水平的同时,将单次推理的能耗从“移动数十 GB 权重 + FP16 结算”降低到“移动更小权重 + 近乎免费的位运算”,从而让 8B 参数模型(如 Qwen 3)在边缘设备上高效运行。不过,目前该方案仅公开了算法描述,尚未提供端到端的开源推理库和实测性能数据。

对用户/开发者/创作者的影响

    量化工具链开发者:GPQT、GGUF 等现有工具可能需要评估是否纳入基于矢量的无数据量化路线,以突破 4 位以下精度瓶颈。

    边缘硬件提供商:RISC-V、Arm 或可定制 AI 加速器团队可研究如何用查找表和简单加法器替代部分张量核心,以降低芯片面积与成本。

    本地推理用户:使用 llama.cpp 或 Ollama 运行 LLM 的用户,未来有望在普通笔记本或手机上获得 3 位精度模型,内存占用降至 3GB 左右,且推理速度不受频繁反量化拖累。

值得关注的后续

    1. 算法能否社区可复现:核心价值在于无数据依赖,若提供开源代码和评测集(如 MMLU、HumanEval),将加速行业验证。

    2. 硬件厂商的响应:NVIDIA、Qualcomm 或 Apple 是否会在下一代边缘芯片中加入针对 LUT 和位加的微架构支持。

    3. 对比现存方案的工程差距:目前 AWQ/GPTQ 在 4 位有成熟运行时优化,新方案需要补齐推理引擎、批处理支持及稀疏性兼容性。

GamsGo AI

AI 工具推荐

想把多个 AI 模型放在一个入口?

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。

来源:blog.djellalmohamedaniss.workers.dev

celebrityanime
celebrityanime
文章: 3323

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注