挪威采购的2拍字节华为闪存及大型语言模型(LLM)训练

挪威采购的2拍字节华为闪存及大型语言模型(LLM)训练

挪威采购的2拍字节华为闪存及大型语言模型(LLM)训练

一句话看懂:挪威国家图书馆正在利用2 PB(拍字节)的华为OceanStor Dorado全闪存存储,构建一个主权级挪威语大语言模型(LLM)。这一项目揭示了非英语国家在建设本地化AI基础设施时面临的数据管道瓶颈与治理挑战,也标志着华为闪存在欧洲高性能AI存储市场中扮演了实质性角色。

事件核心:发生了什么

2026年5月,在华为ID论坛巴黎站上,挪威国家图书馆(Nasjonalbiblioteket)IT平台负责人Marius Husnes披露了其主权LLM训练项目的详细技术方案。由于没有商业LLM提供商开发专门的挪威语模型,挪威文化部委托该馆利用其国内最大的数字化馆藏——20 PB独特数据(含书籍、报纸、网页等,总存储约60 PB)——训练一个能够理解挪威语、历史与文化的本土LLM。该项目采购了总计2 PB的华为OceanStor Dorado全闪存阵列,用于低延迟的数据清洗、去重、格式归一化等AI训练准备管道;实际训练则在挪威国家超算Sigma2的Olivia系统(HPE Cray EX架构,448 GPU)上完成。此外,该馆已与挪威报纸达成版权协议,获准使用受版权保护的内容进行训练。

为什么重要

这一案例有双重指向。第一,它展示了非英语主权国家建设本地LLM的典型路径:数据资源在国有文化机构——训练管道依赖高性能闪存存储——实际算力借助国家超算。管线中最大的瓶颈并非算力,而是从归档存储(大容量、高时延的磁盘加磁带系统)向AI管道存储(高吞吐、低时延的闪存系统)迁移PB级数据的工程难题。Marius Husnes指出,几乎没有人在公开讨论这一环节的具体解决办法。第二,华为的OceanStor Dorado闪存在此承担了AI数据处理管道中的关键存储层,表明其产品已进入欧洲政府级AI基础设施建设环节,对华为在海外存储与AI基础设施市场的竞争格局有直接意义。

对用户/开发者/创作者的影响

对于AI开发者与企业采购方而言,这一案例提供了实用的参考:如果需要构建一个主权级或地区语言LLM,不可忽视数据管道从归档到训练的存储架构设计,闪存可能成为必选项而非可选项。对于非英语国家的开发者和创作者,主权LLM的落地意味着未来可能拥有更贴合本地语言习惯、历史语境的AI应用,从而减少对英语中心化模型的依赖。同时,版权合规方面,挪威通过与日报社达成协议允许训练受版权内容的做法,为其他地区的内容授权模式提供了先行案例。

值得关注的后续

目前公开信息显示,挪威国家图书馆的LLM训练仍在进行中,项目有多项未决问题值得跟踪:一、该团队正在自建评估工具,因为市场上缺少针对双书面形式(挪威语实际有两种书写标准)及多种方言的标准评测体系;二、主权LLM的治理问题尚未定论——谁控制访问权、谁决定使用范围,这涉及政治与制度层面的讨论;三、三个独立系统(归档保存、本地AI环境、国家超算)的协调编排仍需持续优化。此外,该项目的技术路径和成本效益,可能会被其他北欧或小语种国家作为对标参考,从而影响华为闪存在这一细分市场的后续订单量。

来源:www.blocksandfiles.com

celebrityanime
celebrityanime
文章: 9656

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注