Show HN: 纯C#实现的GPT-2推理，每个令牌仅分配0字节内存

一句话看懂：开发者 DevOnBike 发布了“Overfit”库，这是一个纯 C# 编写的深度学习与推理引擎，能让 GPT-2 Small 模型在 CPU 上实现每个令牌 0 字节的零分配推理，且数值精度与 PyTorch 高度一致。该项目绕开 Python 运行时和 ONNX Runtime，试图为 .NET 生态提供一个可预测、无 GC 压力的 AI 推理方案。

事件核心：发生了什么

Overfit 是一个完全用 C# 实现的开源库，声称不需要任何原生二进制依赖、Python 运行时或 ONNX Runtime。根据作者在 GitHub 上公开的演示结果，当使用 KV-cache 方式解码时，GPT-2 Small（1.24亿参数）的每个令牌推理耗时 0 字节托管内存分配——这意味着推理过程中不会触发 .NET 的垃圾回收，GC 压力为零，从而提供可预测的 CPU 性能。经测试，其 top-10 logit 与 PyTorch 的重叠率为 10/10，最大绝对差值为 0.000107，精度损失在可接受范围内。

该库还支持通过 ONNX 导入 PyTorch 导出的模型，包括带有分支结构的 DAG 图（如 ResNet 的跳跃连接），输出与 PyTorch 的偏差在 1e-4 以内。此外，Overfit 提供了基于计算图的训练功能，支持 AdamW 优化器，但目前训练部分是否也做到零分配尚未明确。

为什么重要

在 .NET 生态中，将大模型推理做到完全零内存分配是一个技术亮点。业界常见的 ML.NET 或调用 ONNX Runtime 的方式，底层仍依赖原生库，且推理过程中往往会有分配行为，导致不可预测的延迟和 GC 停顿。Overfit 的纯托管实现对于对延迟敏感、需要软实时响应的 .NET 应用（如 Windows 桌面软件、Unity 游戏、工业控制系统）具有吸引力。它打开了一条不依赖 Python 或 GPU 即可运行适量级语言模型的路径，降低了大模型在 C# 应用中的集成门槛。

对用户/开发者/创作者的影响

对于 .NET 开发者，这意味着可以在不脱离熟悉的开发环境的前提下，直接在应用中嵌入 GPT-2 级别的文本生成能力，且推理性能可预测、无运行时瓶加。如果后续支持更多模型规格，企业可以将其用于本地化的合规场景，例如在离线文档草稿、代码片段生成或数据脱敏处理中避免数据外传。创作者和终端用户则受益较少，因为 GPT-2 Small 的能力有限，且部署仍需一定的编程工作。

AI 工具推荐

想把多个 AI 模型放在一个入口？

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型，适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接：通过此链接购买，我可能获得佣金，不影响你的价格。

值得关注的后续

目前 Overfit 仍处于早期展示阶段，尚未形成成熟的社区或广泛的应用。后续值得观察的是：该项目是否能扩展支持更大的 GPT-2 变体乃至 GPT-3/4 级别的模型？作者是否会持续维护并补充诸如 transformer 注意力算子的性能优化？以及 .NET 官方或大型社区是否会将其整合进 ML.NET 生态。另外，纯 C# 推理在性能上能否真正与经高度优化的 ONNX Runtime 或 Llama.cpp 等 C++ 实现抗衡，仍需要独立的第三方基准测试来验证。

来源：github.com

Show HN: 纯C#实现的GPT-2推理，每个令牌仅分配0字节内存