谷歌的新款Gemma 4 12B模型专为在任何配备16GB内存的笔记本电脑上运行而设计

一句话看懂：谷歌发布了Gemma 4系列中的新成员——12B参数模型，旨在平衡性能与本地部署门槛，宣称可在配备16GB内存的消费级笔记本电脑上流畅运行，填补了此前移动版与企业版之间的空白。

事件核心：发生了什么

2025年4月，谷歌发布了Gemma 4系列四款模型（包括面向移动设备的E2B和E4B，以及面向高算力场景的26B MoE和31B Dense）。如今，谷歌补全了产品线空缺，推出Gemma 4 12B。该模型拥有120亿参数，官方称其足够在16GB系统内存或显存的笔记本电脑上本地运行，而无需依赖昂贵的AI加速器。Gemma 4 12B的模型权重约18GB，已可在Kaggle和Hugging Face平台下载。此外，该模型首次在出厂时即支持“多令牌预测（MTP）”功能，利用闲置计算周期预判未来令牌以提升速度和效率。

为什么重要

当前大模型对显存和内存的需求持续攀升，推动了硬件成本上涨。谷歌推出这款“中量级”模型，直接回应了开发者社区对“可本地运行且性能不缩水”模型的需求。与26B MoE模型相比，12B版本内存占用减少约一半，同时谷歌声称在基准测试中性能接近。这是大模型从“云端专属”向“个人设备可用”趋势的重要一步，有助于降低开发者参与AI应用开发的门槛，并可能改变中小型企业采购AI算力的决策逻辑。此外，其原生多模态设计（支持文本、图片、音频输入）在12B模型上采用了简化的视觉嵌入模块（无需独立编码器）和原始音频直接映射为文本向量的方法，进一步降低了本地推理的延迟与资源占用。

对用户/开发者/创作者的影响

对于拥有16GB内存笔记本电脑的开发者，现在无需购买云GPU或租用API接口，即可在本地运行一个具备复杂多步推理和智能体工作流能力的模型。谷歌表示，12B版本此前仅在更大模型中才能实现类似能力。创作者可以利用本地模型进行文本、图像、音频的混合输入处理，而音频解析甚至无需编码环节，降低了实时交互的延迟。对于企业而言，如果数据隐私和本地化部署是硬性要求，Gemma 4 12B提供了一条开源（Apache 2.0）且算力成本可控的替代路径。模型可在LM Studio、Google AI Edge Gallery等工具中直接体验，无需先下载。

AI 工具推荐

想把多个 AI 模型放在一个入口？

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型，适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接：通过此链接购买，我可能获得佣金，不影响你的价格。

值得关注的后续

第一，实际部署体验是否达到宣称的“接近26B能力”，需要第三方实测验证，尤其是在消费级CPU/GPU上的推理速度和多模态处理延迟。第二，MTP技术在12B模型上的默认启用，是否会推动竞争对手（如Meta的Llama系列或Mistral AI）在中小模型上跟进类似优化。第三，谷歌是否会推出专门针对ARM架构或苹果M系列芯片优化的版本，这将直接影响该模型在MacBook用户群体中的普及度。

来源：arstechnica.com

谷歌的新款Gemma 4 12B模型专为在任何配备16GB内存的笔记本电脑上运行而设计