性能提升 475 倍!富士通推出PHOTON新架构,剑指AI算力瓶颈

日本富士通研究团队发布了一种名为PHOTON的新型神经网络架构,针对Transformer模型在长文本和多查询任务中计算效率低下的痛点,通过语义分层机制实现了最高475倍的性能提升,同时大幅降低内存占用。这一进展为降低大模型推理和智能体系统的算力成本提供了新的底层技术路径。

性能提升 475 倍!富士通推出PHOTON新架构,剑指AI算力瓶颈

一句话看懂:日本富士通研究团队发布了一种名为PHOTON的新型神经网络架构,针对Transformer模型在长文本和多查询任务中计算效率低下的痛点,通过语义分层机制实现了最高475倍的性能提升,同时大幅降低内存占用。这一进展为降低大模型推理和智能体系统的算力成本提供了新的底层技术路径。

事件核心:发生了什么

当地时间6月26日,富士通对外公布了其研发的PHOTON(Top-down Network Parallel Hierarchical Computing)架构。该架构的核心创新在于放弃了主流Transformer模型采用的逐token(token-level)处理方式,转而引入“语义分层技术”。这使得模型在处理长序列或多查询任务时,能够将任务按语义层级并行化,并利用“多数投票”或“最优选择”策略完成决策,仅需单次推理即可输出结果。

根据富士通公布的测试数据,在参数量为6亿、9亿和12亿的小规模模型中,PHOTON架构的吞吐量和内存效率均表现突出。特别是在12亿参数模型的多查询任务中,其处理速度达到了同等规模Transformer架构的475倍,且每次迭代所需的KV Cache(键值缓存)显著减少,从而支持更高的并发查询数量。

为什么重要

当前以Transformer为基础的大模型在应对长上下文和高并发场景时,频繁的显存访问以检索历史信息已成为算力瓶颈,导致GPU计算资源浪费严重。PHOTON架构从底层计算逻辑入手,通过减少无效计算和内存读写,提出了一个轻量化的替代方案。尽管在部分质量评估指标上可能有所权衡,但其在计算效率上的数量级提升,为实现低成本、高吞吐的AI推理(尤其是智能体系统和多轮对话场景)提供了有潜力的技术选择。这对于整个AI行业降低算力依赖、推动边缘端部署具有重要意义。

对用户/开发者/创作者的影响

对于AI开发者而言,PHOTON架构意味着未来有可能在有限的硬件资源下(如单卡或低功耗设备)运行更复杂的智能体系统,或处理更长的历史上下文。对于普通用户和创作者,其直接感知可能是同等成本下AI助手的响应速度更快、同时支持更多并发请求;对于内容生成类应用,则可能意味着更低的API调用成本。不过,该架构目前仍处于研究阶段,尚未公开开源自定义接口或训练框架,开发者短期内尚无成熟的实践路径。

GamsGo AI

AI 工具推荐

想把多个 AI 模型放在一个入口?

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。

值得关注的后续

一是架构落地方向:富士通是否计划将PHOTON集成到其AI云服务或与HPC硬件协同优化;二是开源生态构建:目前公开信息显示该架构仅限论文及实验数据,后续若开放预训练权重或代码库,将快速吸引社区的复现与改进;三是竞品反应:谷歌、Meta等有自研Transformer变体的企业是否会做出类似调整,或将影响下一代AI芯片的设计偏好。

来源:AIbase

celebrityanime
celebrityanime
文章: 10122

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注