
一句话看懂:算苗科技于2026年6月15日宣布其面向大模型推理的3D TokenPU芯片A4E正式流片。这款芯片通过3D混合堆叠架构,在不依赖最先进制程的情况下提升算力密度与能效比,试图解决大模型推理中的“内存墙”和“功耗墙”瓶颈。
事件核心:发生了什么
算苗科技(SUNMMIO)宣布,第一代3D TokenPU芯片A4E已完成流片。该芯片专为大模型推理场景设计,采用原创的3D堆叠架构:将8层存储晶圆垂直堆叠在计算逻辑晶圆上,通过硅通孔(TSV)与凸点技术实现微米级互联,将传统芯片间的传输距离缩短两个数量级,最终实现16TB/s的超大访存带宽。芯片基于自研RISC-V架构与自研IP,并在设计、制造、封装环节全部依托国产供应链完成。算苗科技的核心团队此前已在高通量存算一体芯片项目中,完成万片级3D混合堆叠晶圆的量产,具备工程化落地能力。
为什么重要
大模型推理市场的算力需求正在快速增长,但传统芯片面临“内存墙”和“通信墙”的严重制约。目前公开信息显示,数据在存储器与处理器之间的搬运,可能消耗高达80%的能耗和70%的成本。算苗的3D TokenPU思路是:通过物理堆叠缩短数据通路,减少搬运代价,而非单纯依赖制程缩小来提升性能。这为国产AI算力提供了一种“换道”而非“追赶”的解决路径。该芯片采用成熟国产工艺,意味着它在一定程度上绕开了先进制程封锁,对国内大模型厂商构建自主可控的推理基础设施有直接价值。
对用户/开发者/创作者的影响
对于终端用户和内容创作者而言,芯片级别的性能提升最终将间接体现在使用体验上——更低的API调用成本、更快的模型响应速度、以及可能的更大上下文窗口。对于AI应用开发者,算苗科技正围绕Tile-Native软硬件协同理念构建适配LLVM、Triton等开源生态的编译工具栈,这意味着未来开发者有可能在保持工具链兼容性的同时,获得针对特定模型的推理加速。对于企业采购和算力决策者来说,3D TokenPU的出现为选择国产推理芯片提供了一个新的技术选项,尤其在需要高吞吐、低时延的大模型部署场景中值得关注。
AI 工具推荐
想把多个 AI 模型放在一个入口?
GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。
推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。
值得关注的后续
第一,A4E流片后是否能在2026年内实现量产交付,以及具体性能指标(如能效比、推理延迟)是否达到宣传值。第二,算苗科技与头部大模型厂商的联合调优成果能否快速转化为可公开测试的API或服务。第三,国产3D堆叠芯片的成本控制与良率表现,这将直接影响其与现有GPU/ASIC方案的性价比竞争格局。
来源:量子位 · 每日最新


