Show HN: 基于E8格的Glq LLM量化

Show HN: 基于E8格的Glq LLM量化

Show HN: 基于E8格的Glq LLM量化

一句话看懂:开发者社区发布了GLQ量化方案,它利用E8格码本将大模型权重量化到2-8 bit,在同等压缩率下达到与QuIP#相当、优于GPTQ的质量,并提供可直接在压缩索引上做矩阵乘法的融合CUDA核,无需显式解压权重矩阵。

事件核心:发生了什么

GitHub 用户 cnygaard 开源了名为 GLQ 的大模型后训练量化工具。其核心方法是将每8个权重分为一组,通过6万5千余个码字的 E8 格码本,用16位索引编码;再通过随机哈达玛变换去相关海森矩阵,使得欧几里得最近邻搜索在代理损失下近乎最优。目前已提供 SmolLM2-135M/360M、SmolLM3-3B、Gemma-4-E4B-it、Devstral-Small 24B 及 Nemotron-3-Nano 等多个模型的4 bpw(bits per weight)预量化权重,并支持用户通过 pip install 'glq[quantize]' 自行对 Hugging Face 模型进行2-8 bpw的量化,包括混合精度分配。

为什么重要

GLQ 的出现将格码量化(lattice quantization)从学术研究推向了可工程部署的实用阶段,填补了 E8 格码本在 LLM 推理加速上的落地空白。相比当前主流的 GPTQ、AWQ 等算法,GLQ 在极低位宽(3~4 bpw)下能明显提升模型困惑度和下游任务表现,且其融合 CUDA 核直接操作压缩索引,避免了权重矩阵解压的内存开销和带宽瓶颈,理论上能在低显存环境下部署更大模型或提升推理吞吐量。对于硬件受限或需要大规模部署的场景,这提供了一条兼顾精度与速度的新路径。

对用户/开发者/创作者的影响

对开发者而言,GLQ 的集成成本较低:只需一行 import glq.hf_integration 即可将量化方法注册到 Hugging Face Transformers,然后使用标准的 from_pretrained 加载预量化模型即可自动切换为融合推理核。对于拥有自有模型的团队,GLQ 提供 CLI 工具 glq-quantize,支持流式加载权重(避免内存超限),并可执行两遍流程生成混合精度分配,让较敏感层保留更高比特,整体压缩比更优。对于内容创作者和普通用户,GLQ 使得在消费级 GPU 上运行24B参数模型成为可能——例如 Devstral-Small 24B 以4 bpw量化后所需显存大幅降低。

GamsGo AI

AI 工具推荐

想把多个 AI 模型放在一个入口?

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。

值得关注的后续

第一,GLQ 提供的预量化模型目前以4 bpw为主,且多为中小规模模型,是否需要更多10B以上规模的社区验证是重点;第二,其融合 CUDA 核是否能适配 Turing 及更早架构,以及后续能否被 vLLM 等主流推理框架原生支持,决定其生态扩展速度;第三,与 QuIP# 的比较结果依赖特定代理损失设置,在多样化任务和不同模型族上的泛化性仍有待第三方复现测试。

来源:github.com

celebrityanime
celebrityanime
文章: 5038

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注