GateGPT：FPGA 上每秒 56k 个令牌，频率为 80 MHz

一句话看懂：开发者 fguzman82 实现了一个名为 GateGPT 的项目，在 FPGA 上以 80 MHz 的频率运行小型 Transformer 模型，推理速度达到每秒 56k 个令牌。该项目的核心价值不在于跑赢 GPU，而在于展示了完全定制化硬件执行 AI 推理的可行性，以及机器人辅助开发 FPGA 的新工作流。

事件核心：发生了什么

GateGPT 是一个在 FPGA（现场可编程门阵列）上运行的 Transformer 模型推理项目。根据其 GitHub 仓库和 Hacker News 讨论，该实现可在 80 MHz 时钟频率下达到每秒约 56,000 个令牌的吞吐量。但值得注意的是，项目使用的模型参数极小——此前的类似尝试中，一个仅有 4192 个参数的微型 Transformer 在 FPGA 上的运行速度比 CPU 慢了 71 倍。这意味着 GateGPT 报告的“高吞吐”很可能仅限于极小的模型规模（如 Karpathy 的 microGPT 级别），而非可扩展到主流大语言模型。

为什么重要

这一项目的意义不在性能比较，而在“路线探索”：第一，它展示了 FPGA 上 AI 推理的能效潜力和极低延迟特性，适合对功耗敏感的嵌入式或边缘设备。第二，该项目开发过程仅靠一人加机器人辅助完成，暗示 FPGA 开发的自动化和门槛正在降低。第三，它引发了一个技术争论——是否存在足够大的 FPGA 来容纳现代大模型（如 Qwen-35B），以及是否有必要将专用计算逻辑紧邻存储布置。目前公开信息显示，大模型在 FPGA 上的可行性仍高度存疑。社区评论指出，如果谁能用 FPGA 实现 Qwen 35B 在 30 token/s 和 100k 上下文下的稳定推理，完全可以“靠卖硬件致富”，但这恰恰说明目前没人能做到。

对用户/开发者/创作者的影响

对于开发者，GateGPT 是个有趣的实验范例，证明机器人辅助 FPGA 开发已可快速验证小模型硬件方案，适合嵌入式 AI 或物联网场景。对于普通用户和创作者，该技术短期内不会影响你日常使用的 AI 工具（如 ChatGPT、Midjourney），因为消费级 GPU（如 RTX 4070）已在本地跑 Qwen 35B 达到 100 token/s，远优于任何 FPGA 方案。对于硬件从业者，该项目提示了一条可能路径：小模型专用推理芯片的定制化，但商业化门槛极高，且算法并行化工作很可能会倒逼 CPU/GPU 架构改进，而非推动 FPGA 普及。

AI 工具推荐

想把多个 AI 模型放在一个入口？

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型，适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接：通过此链接购买，我可能获得佣金，不影响你的价格。

值得关注的后续

第一，开发者是否会公开 GateGPT 的详细性能基准（尤其是与同等功耗 CPU/GPU 的对比），而非仅公布绝对吞吐值。第二，该项目是否能支持更大的模型（如 100M 参数级别），以及 FPGA 工具链自动化程度能否进一步提升。第三，社区是否会围绕 GateGPT 形成试验性质的开源硬件 AI 生态，抑或停留在单个项目阶段。在没有成本、功耗和规模化的具体数据前，不建议将其视为 GPU 替代方案。

来源：hackernews

GateGPT：FPGA 上每秒 56k 个令牌，频率为 80 MHz

事件核心：发生了什么

为什么重要

对用户/开发者/创作者的影响

想把多个 AI 模型放在一个入口？

值得关注的后续

celebrityanime

发表回复取消回复

事件核心：发生了什么

为什么重要

对用户/开发者/创作者的影响

想把多个 AI 模型放在一个入口？

值得关注的后续

celebrityanime

相关文章

法国将弃用帕兰蒂尔（Palantir）的AI数据工具，转而采用本土供应商的产品

在Anthropic争议后，美国和欧洲就人工智能模型的访问权限展开讨论

人工智能热潮是否让布鲁姆能源的股价涨得太快、太高了？

发表回复取消回复