过拟合 900KB 的 Transformer 将 100MB 的 CSV 压缩为 7MB

一句话看懂：开发者 Samyak 利用一个仅 900KB 的 Transformer 模型，通过刻意“过拟合”单文件的方式，将 100MB 的纽约出租车 CSV 数据压缩至 7MB（约 0.5 bits/byte），压缩比远超传统工具如 WinZIP。该方法虽慢（训练加解压缩约 2 小时），但展示了小模型在特定场景下通过极致记忆实现超高压缩的潜力。

事件核心：发生了什么

该项目的核心思路并非训练一个通用模型，而是让一个极小的 Transformer（900KB）专门“记住”一个具体文件的内容，然后利用模型逐字节预测的结果配合算术编码进行压缩。测试显示：对 100MB 的 NYC 出租车 CSV，压缩至约 7MB；对 100MB 的 enwik9 文本切片，压缩至约 21MB（1.68 bits/byte）；对 100MB 的 Photoshop 文件，压缩至 45MB，而 ZIP 只能压到 60MB。目前运行速度较慢，训练耗时 20-30 分钟，压缩与解压缩各需约 45 分钟（基于 AMD 7800XT 显卡）。项目代码已开源在 GitHub，但部分原始测试数据集尚未同步公开。

为什么重要

这件事从技术思路上挑战了通用压缩算法的天花板。传统词典式压缩（如 LZMA2、BZIP2）依赖统计规律，而 Transformer 模型通过捕获复杂的上下文依赖关系，能实现更高的压缩比。尤其值得注意的是，它故意“过拟合”而非“泛化”，这一反直觉的做法反而在特定文件上取得了惊人效果。同时，它也折射出当前 AI 压缩的核心矛盾：压缩比虽高，但计算成本极高（训练+编解码），暂时无法替代 LZMA2、ZPAQ 等成熟方案。不少网友已提出质疑，希望看到与 LZMA2、BZIP2 等现代压缩工具的对比，作者目前仅与 WinZIP 做了比较。

对用户/开发者/创作者的影响

对于普通用户，这项技术短期内不实用，因为解压时间达数十分钟，远不如 ZIP 实时；但对于开发者，尤其关注数据归档、差分传输或极端压缩需求的场景，它提供了一种新思路：为每个待压缩文件定制一个小模型，而非维护一个大模型。对于数据科学家，项目验证了“小模型+强记忆”在某些任务上可以超越“大模型+泛化”。这也间接鼓励在存储成本远高于计算成本的特殊领域（如长期存档、卫星数据回传）探索 AI 压缩的可行性。

AI 工具推荐

想把多个 AI 模型放在一个入口？

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型，适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接：通过此链接购买，我可能获得佣金，不影响你的价格。

值得关注的后续

第一，作者需补充与 LZMA2、BZIP2、ZPAQ 等现代压缩器的对比数据，社区才可能评估其真实竞争力；第二，项目能否将训练与编解码速度从小时级缩短到分钟级，将决定其是否具备工程应用价值；第三，目前模型只针对单文件，如何扩展到多文件或流式压缩，以及是否能通过“装袋”多个过拟合模型来进一步提升压缩比，是值得探索的方向。

来源：hackernews

过拟合 900KB 的 Transformer 将 100MB 的 CSV 压缩为 7MB

事件核心：发生了什么

为什么重要

对用户/开发者/创作者的影响

想把多个 AI 模型放在一个入口？

值得关注的后续

celebrityanime

发表回复取消回复

事件核心：发生了什么

为什么重要

对用户/开发者/创作者的影响

想把多个 AI 模型放在一个入口？

值得关注的后续

celebrityanime

相关文章

格隆汇 6 月 26 日｜美国政府据悉要求 OpenAI 分阶段发布新模型。

谁在帮头部 AI 公司「管钱」？一个百亿美元超级独角兽的诞生

中国信通院联合华为云等 22 家单位，筹备成立 AIIA 词元（Token）服务工作组

发表回复取消回复