
挪威采购的2拍字节华为闪存及大型语言模型(LLM)训练
一句话看懂:挪威国家图书馆正在利用2 PB(拍字节)的华为OceanStor Dorado全闪存存储,构建一个主权级挪威语大语言模型(LLM)。这一项目揭示了非英语国家在建设本地化AI基础设施时面临的数据管道瓶颈与治理挑战,也标志着华为闪存在欧洲高性能AI存储市场中扮演了实质性角色。
事件核心:发生了什么
2026年5月,在华为ID论坛巴黎站上,挪威国家图书馆(Nasjonalbiblioteket)IT平台负责人Marius Husnes披露了其主权LLM训练项目的详细技术方案。由于没有商业LLM提供商开发专门的挪威语模型,挪威文化部委托该馆利用其国内最大的数字化馆藏——20 PB独特数据(含书籍、报纸、网页等,总存储约60 PB)——训练一个能够理解挪威语、历史与文化的本土LLM。该项目采购了总计2 PB的华为OceanStor Dorado全闪存阵列,用于低延迟的数据清洗、去重、格式归一化等AI训练准备管道;实际训练则在挪威国家超算Sigma2的Olivia系统(HPE Cray EX架构,448 GPU)上完成。此外,该馆已与挪威报纸达成版权协议,获准使用受版权保护的内容进行训练。
为什么重要
这一案例有双重指向。第一,它展示了非英语主权国家建设本地LLM的典型路径:数据资源在国有文化机构——训练管道依赖高性能闪存存储——实际算力借助国家超算。管线中最大的瓶颈并非算力,而是从归档存储(大容量、高时延的磁盘加磁带系统)向AI管道存储(高吞吐、低时延的闪存系统)迁移PB级数据的工程难题。Marius Husnes指出,几乎没有人在公开讨论这一环节的具体解决办法。第二,华为的OceanStor Dorado闪存在此承担了AI数据处理管道中的关键存储层,表明其产品已进入欧洲政府级AI基础设施建设环节,对华为在海外存储与AI基础设施市场的竞争格局有直接意义。
对用户/开发者/创作者的影响
对于AI开发者与企业采购方而言,这一案例提供了实用的参考:如果需要构建一个主权级或地区语言LLM,不可忽视数据管道从归档到训练的存储架构设计,闪存可能成为必选项而非可选项。对于非英语国家的开发者和创作者,主权LLM的落地意味着未来可能拥有更贴合本地语言习惯、历史语境的AI应用,从而减少对英语中心化模型的依赖。同时,版权合规方面,挪威通过与日报社达成协议允许训练受版权内容的做法,为其他地区的内容授权模式提供了先行案例。
值得关注的后续
目前公开信息显示,挪威国家图书馆的LLM训练仍在进行中,项目有多项未决问题值得跟踪:一、该团队正在自建评估工具,因为市场上缺少针对双书面形式(挪威语实际有两种书写标准)及多种方言的标准评测体系;二、主权LLM的治理问题尚未定论——谁控制访问权、谁决定使用范围,这涉及政治与制度层面的讨论;三、三个独立系统(归档保存、本地AI环境、国家超算)的协调编排仍需持续优化。此外,该项目的技术路径和成本效益,可能会被其他北欧或小语种国家作为对标参考,从而影响华为闪存在这一细分市场的后续订单量。
![[人工智能] 最近用的 AI 工具遇到的几个问题。](https://www.chat-gpts.plus/wp-content/uploads/2026/06/ai_cover_5-883-768x403.jpg)
![[程序员] 和 Claude Code 死磕 3B token 的家庭记账 APP,聊聊 vibe coding 和 spec coding 在长项目上到底差在哪](https://www.chat-gpts.plus/wp-content/uploads/2026/06/ai_cover_4-893-768x403.jpg)
