Gemma 4 QAT 模型:优化压缩以提升移动设备和笔记本电脑的能效

Gemma 4 QAT 模型:优化压缩以提升移动设备和笔记本电脑的能效

Gemma 4 QAT 模型:优化压缩以提升移动设备和笔记本电脑的能效

一句话看懂:Google DeepMind 于 2026 年 6 月 5 日发布 Gemma 4 系列的新 QAT(量化感知训练)优化版本,通过深度压缩将最小模型内存占用降至 1 GB 以下,使大模型真正能在手机和笔记本上本地运行。

事件核心:发生了什么

距离首次发布两个月后,Google DeepMind 的 Gemma 4 系列迎来了第三轮升级。此次发布的核心是采用量化感知训练(QAT)技术生成的新检查点(checkpoints)。与常见的训练后量化(PTQ)不同,QAT 在训练阶段就模拟量化过程,从而在压缩模型时保留更高的质量。针对边缘端设备,团队专门设计了移动端优化的量化格式,使 Gemma 4 E2B 文本模型的内存占用降至不足 1 GB。同时,这些检查点支持流行的 Q4_0 格式,并已可在 Hugging Face 下载,兼容 llama.cpp、Ollama、LM Studio 以及 vLLM 等主流推理工具。

为什么重要

内存占用是限制大模型从云端走向本地设备的核心瓶颈。Gemma 4 QAT 模型将 1 GB 以下的显存需求变成了现实,这意味着搭载常规 GPU 的笔记本电脑甚至旗舰手机,都可能直接运行具备多模态能力的模型,而不必依赖网络传输数据。此举显著降低了使用大模型的隐私风险和延迟,也缩小了 Google DeepMind 的开放模型与闭源模型在部署便利性上的差距。如果 QAT 路线成功被广泛采用,它可能成为继 PTQ 之后下一代模型压缩技术的事实标准,推动整个开源社区加速对移动端推理的适配。

对用户/开发者/创作者的影响

对于普通用户,未来使用 AI 助手可以不发数据到云端,直接在本地处理隐私对话或图片。对开发者而言,使用现有的 llama.cpp、Ollama、Transformers.js 等工具即可直接加载 QAT 检查点,上手门槛较低。如果需要在 App 内集成模型,Google 提供的 LiteRT-LM 运行时专为边缘部署设计。创作者可以利用本地模型进行文本生成、分析或轻量图像理解,无需租赁昂贵 GPU 实例。整体来说,这次发布降低了“在本地跑大模型”的硬件要求,尤其利好对隐私和响应速度有要求的场景。

GamsGo AI

AI 工具推荐

想把多个 AI 模型放在一个入口?

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。

值得关注的后续

首先,移动端专用的量化格式是否会被主流推理框架(如 llama.cpp)直接支持,还是仍需额外转换步骤,将决定开发者实际使用的便利程度。其次,模型在手机上的实际推理速度和电池消耗,目前公开信息尚未披露实测数据,需要等第三方基准测试。最后,竞品如 Meta 的 Llama 4 或微软的 Phi-4 是否会快速跟进 QAT 路线,将影响这一技术路线能否成为行业标准。

来源:blog.google

celebrityanime
celebrityanime
文章: 5833

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注