Meta 大规模 AI 存储蓝图

Meta 在官方工程博客中披露了其面向 AI 训练优化的新型 BLOB 存储架构,旨在解决 GPU 因存储延迟而空转的问题,直接降低训练成本并加快模型迭代速度。

Meta 大规模 AI 存储蓝图

一句话看懂:Meta 在官方工程博客中披露了其面向 AI 训练优化的新型 BLOB 存储架构,旨在解决 GPU 因存储延迟而空转的问题,直接降低训练成本并加快模型迭代速度。

事件核心:发生了什么

7 月 1 日,Meta 工程团队在官方博客发表了其 AI 存储架构的演进方案。过去一年,前沿模型发布间隔从数月缩短到数周,训练数据集呈指数级增长。Meta 指出,计算性能约每两年翻三倍,但存储与互连性能增长更慢,导致 GPU 空转成为 AI 工作负载的主要瓶颈之一。为此,Meta 从原有的基于 Tectonic 块存储的文件系统方案,逐步向 BLOB 存储接口迁移。新架构要求存储系统支持突发且持续的高吞吐量、可预测的低尾延迟,并能在 GPU 之间高效同步数据,避免单点慢速拖慢整个训练集群。Meta 还提到,原有的 BLOB 存储为传统业务设计,多层元数据查询跨区域时延迟可达秒级,无法适应 AI 训练对毫秒级闪存访问的需求。

为什么重要

存储瓶颈是当前大规模 AI 训练中被低估的成本驱动因素。Meta 将存储比作 AI 的“记忆”,GPU 算力再强,若数据加载跟不上,投资回报率会大幅下降。此次架构调整说明两个趋势:一是存储与计算正从松耦合走向深度协同设计;二是行业正从文件系统接口统一向对象存储接口靠拢,以兼容更大的数据湖并简化数据流转。对于 Meta 而言,Llama 系列模型的训练速度与成本有望因此改善,而这一方案也可能影响其他拥有超大规模集群的公司(如 Google、微软、亚马逊)的存储建设方向。

对用户/开发者/创作者的影响

对使用 Meta 开源模型(如 Llama)的开发者而言,更快的训练迭代意味着更频繁的模型更新和更低的算力账单。对大模型应用开发者来说,存储接口的统一可能降低跨区域数据迁移的复杂度,减少研究组之间“等数据”的时间。对依赖云服务的 AI 创企,Meta 的架构公开信息虽不直接开放,但可视为技术风向标——未来云服务商可能提供更贴近 GPU 训练场景的存储优化选项,例如更低尾延迟的块存储或对象存储服务。目前公开信息显示,该方案仍在 Meta 内部迁移中,尚未直接对外提供服务。

GamsGo AI

AI 工具推荐

想把多个 AI 模型放在一个入口?

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。

值得关注的后续

第一,BLOB 存储方案是否会在未来 Meta 的云服务或开源组件中开放接口,供外部开发者参考或复用。第二,基于该架构训练的 Llama 新模型版本发布时间是否会因存储效率提升而缩短,从而影响开源大模型的竞争节奏。第三,其他存储厂商(如 Pure Storage、NetApp)是否会推出针对 GPU 集群尾延迟优化的硬件或软件方案,形成新的存储产品赛道。

来源:Meta Engineering Blog(RSS)

celebrityanime
celebrityanime
文章: 10838

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注