Liquid AI 揭示了在 38T 上训练的 8B-A1B MoE

Liquid AI 揭示了在 38T 上训练的 8B-A1B MoE

Liquid AI 揭示了在 38T 上训练的 8B-A1B MoE

一句话看懂:Liquid AI 发布了一款名为 8B-A1B 的 MoE 模型,在 38T tokens 上完成训练,并在后续强化学习与微调中展现出极佳的边缘部署能力。该模型能让用户在低算力硬件上运行一个性能不俗的私有化 AI 工具,无需联网。

事件核心:发生了什么

Liquid AI 正式公开了其 8B-A1B MoE(混合专家)模型。该模型总参数量为 8B,其中每个推理步骤激活的参数量仅为 1B。模型在 38T tokens 的大规模语料上完成了预训练,并延续了 Liquid AI 在高强度强化学习(RL)和精细微调(Fine-tuning)方面的积累。目前该模型已在 Liquid AI 的 playground 上提供 demo 体验,GitHub 上也开源了相关的 cookbook 示例,方便开发者进行二次微调与私有化部署。这一发布的核心看点在于,它不仅强调性能,更强调在极低硬件门槛上的可用性——部分用户反馈,即使在一个 4B 参数级别的模型上(如 Qwen3.5:4B),经过 Liquid 的 RL 与微调流程后,都表现出远超预期的能力;而 8B-A1B 则进一步将这个优势放大。

为什么重要

当前 AI 行业存在两个核心矛盾:一是模型性能与推理成本的拉锯,二是云端能力与本地隐私需求的对立。Liquid AI 的 8B-A1B 选择了一条直接回应这两个矛盾的路径:通过 MoE 结构在 8B 总参数中只激活 1B 参数,大幅降低推理时的算力消耗,使得高能模型可以在个人笔记本、移动设备甚至边缘硬件上运行。同时,它保留了完整的微调能力,企业和用户可以在本地对自己数据进行定制化训练,无需依赖云端 API,从而满足数据隐私与离线操作的需求。这代表了一种更实际、更去中心化的模型部署方案,可能对以云端 API 为中心的大模型商业生态形成补充甚至分流。

对用户/开发者/创作者的影响

对于开发者:可以用比较低的硬件成本(如消费级 GPU 或 M 系列芯片 Mac)部署一个能够进行复杂推理和对话的模型,并且通过开放 cookbook 可以快速接入自己的业务数据进行微调,构建专属 AI 助手。对于普通用户:意味着未来可能不需要依赖 ChatGPT 等云服务,就能在本地获得流畅、私密的 AI 对话体验,尤其适合数据敏感的场景(如医疗、金融、法律)。对于创作者:可以在无网络环境下使用本地 AI 辅助写作、逻辑推演,甚至作为“自动思维链”工具来辅助论证与决策。

GamsGo AI

AI 工具推荐

想把多个 AI 模型放在一个入口?

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。

值得关注的后续

1. 模型的开源与生态建设:目前 Liquid AI 已经分享 cookbook 和 playground demo,但完整模型权重是否开源、开源协议如何,尚待明确,这会直接影响开发者社区的参与度。2. 推理框架与硬件适配:8B-A1B 的 MoE 架构需要特定的推理优化能力(如稀疏调度),未来能否在 llama.cpp、vLLM 等流行推理栈中流畅运行,将决定其在边缘设备上的实际可用性。3. 竞品反应:Google、Mistral 等企业同样在推进小型强模型与 MoE 路线(如 Gemma 2B、Mixtral 系列),Liquid AI 是否能在微调工具链和产品化体验上持续领先,是接下来的关键看点。

来源:hackernews

celebrityanime
celebrityanime
文章: 4451

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注