Show HN: 基于E8格的Glq LLM量化

一句话看懂：开发者社区发布了GLQ量化方案，它利用E8格码本将大模型权重量化到2-8 bit，在同等压缩率下达到与QuIP#相当、优于GPTQ的质量，并提供可直接在压缩索引上做矩阵乘法的融合CUDA核，无需显式解压权重矩阵。

事件核心：发生了什么

GitHub 用户 cnygaard 开源了名为 GLQ 的大模型后训练量化工具。其核心方法是将每8个权重分为一组，通过6万5千余个码字的 E8 格码本，用16位索引编码；再通过随机哈达玛变换去相关海森矩阵，使得欧几里得最近邻搜索在代理损失下近乎最优。目前已提供 SmolLM2-135M/360M、SmolLM3-3B、Gemma-4-E4B-it、Devstral-Small 24B 及 Nemotron-3-Nano 等多个模型的4 bpw（bits per weight）预量化权重，并支持用户通过 pip install 'glq[quantize]' 自行对 Hugging Face 模型进行2-8 bpw的量化，包括混合精度分配。

为什么重要

GLQ 的出现将格码量化（lattice quantization）从学术研究推向了可工程部署的实用阶段，填补了 E8 格码本在 LLM 推理加速上的落地空白。相比当前主流的 GPTQ、AWQ 等算法，GLQ 在极低位宽（3~4 bpw）下能明显提升模型困惑度和下游任务表现，且其融合 CUDA 核直接操作压缩索引，避免了权重矩阵解压的内存开销和带宽瓶颈，理论上能在低显存环境下部署更大模型或提升推理吞吐量。对于硬件受限或需要大规模部署的场景，这提供了一条兼顾精度与速度的新路径。

对用户/开发者/创作者的影响

对开发者而言，GLQ 的集成成本较低：只需一行 import glq.hf_integration 即可将量化方法注册到 Hugging Face Transformers，然后使用标准的 from_pretrained 加载预量化模型即可自动切换为融合推理核。对于拥有自有模型的团队，GLQ 提供 CLI 工具 glq-quantize，支持流式加载权重（避免内存超限），并可执行两遍流程生成混合精度分配，让较敏感层保留更高比特，整体压缩比更优。对于内容创作者和普通用户，GLQ 使得在消费级 GPU 上运行24B参数模型成为可能——例如 Devstral-Small 24B 以4 bpw量化后所需显存大幅降低。

AI 工具推荐

想把多个 AI 模型放在一个入口？

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型，适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接：通过此链接购买，我可能获得佣金，不影响你的价格。

值得关注的后续

第一，GLQ 提供的预量化模型目前以4 bpw为主，且多为中小规模模型，是否需要更多10B以上规模的社区验证是重点；第二，其融合 CUDA 核是否能适配 Turing 及更早架构，以及后续能否被 vLLM 等主流推理框架原生支持，决定其生态扩展速度；第三，与 QuIP# 的比较结果依赖特定代理损失设置，在多样化任务和不同模型族上的泛化性仍有待第三方复现测试。

来源：github.com

Show HN: 基于E8格的Glq LLM量化