算苗3D TokenPU正式流片引领国产AI云端大算力芯片再升级

一句话看懂：算苗科技于2026年6月15日宣布其面向大模型推理的3D TokenPU芯片A4E正式流片。这款芯片通过3D混合堆叠架构，在不依赖最先进制程的情况下提升算力密度与能效比，试图解决大模型推理中的“内存墙”和“功耗墙”瓶颈。

事件核心：发生了什么

算苗科技（SUNMMIO）宣布，第一代3D TokenPU芯片A4E已完成流片。该芯片专为大模型推理场景设计，采用原创的3D堆叠架构：将8层存储晶圆垂直堆叠在计算逻辑晶圆上，通过硅通孔（TSV）与凸点技术实现微米级互联，将传统芯片间的传输距离缩短两个数量级，最终实现16TB/s的超大访存带宽。芯片基于自研RISC-V架构与自研IP，并在设计、制造、封装环节全部依托国产供应链完成。算苗科技的核心团队此前已在高通量存算一体芯片项目中，完成万片级3D混合堆叠晶圆的量产，具备工程化落地能力。

为什么重要

大模型推理市场的算力需求正在快速增长，但传统芯片面临“内存墙”和“通信墙”的严重制约。目前公开信息显示，数据在存储器与处理器之间的搬运，可能消耗高达80%的能耗和70%的成本。算苗的3D TokenPU思路是：通过物理堆叠缩短数据通路，减少搬运代价，而非单纯依赖制程缩小来提升性能。这为国产AI算力提供了一种“换道”而非“追赶”的解决路径。该芯片采用成熟国产工艺，意味着它在一定程度上绕开了先进制程封锁，对国内大模型厂商构建自主可控的推理基础设施有直接价值。

对用户/开发者/创作者的影响

对于终端用户和内容创作者而言，芯片级别的性能提升最终将间接体现在使用体验上——更低的API调用成本、更快的模型响应速度、以及可能的更大上下文窗口。对于AI应用开发者，算苗科技正围绕Tile-Native软硬件协同理念构建适配LLVM、Triton等开源生态的编译工具栈，这意味着未来开发者有可能在保持工具链兼容性的同时，获得针对特定模型的推理加速。对于企业采购和算力决策者来说，3D TokenPU的出现为选择国产推理芯片提供了一个新的技术选项，尤其在需要高吞吐、低时延的大模型部署场景中值得关注。