过拟合 900KB 的 Transformer 将 100MB 的 CSV 压缩为 7MB

开发者 Samyak 利用一个仅 900KB 的 Transformer 模型,通过刻意“过拟合”单文件的方式,将 100MB 的纽约出租车 CSV 数据压缩至 7MB(约 0.5 bits/byte),压缩比远超传统工具如 WinZIP。该方法虽慢(训练加解压缩约 2 小时),但展示了小模型在特定场景下通过…

过拟合 900KB 的 Transformer 将 100MB 的 CSV 压缩为 7MB

一句话看懂:开发者 Samyak 利用一个仅 900KB 的 Transformer 模型,通过刻意“过拟合”单文件的方式,将 100MB 的纽约出租车 CSV 数据压缩至 7MB(约 0.5 bits/byte),压缩比远超传统工具如 WinZIP。该方法虽慢(训练加解压缩约 2 小时),但展示了小模型在特定场景下通过极致记忆实现超高压缩的潜力。

事件核心:发生了什么

该项目的核心思路并非训练一个通用模型,而是让一个极小的 Transformer(900KB)专门“记住”一个具体文件的内容,然后利用模型逐字节预测的结果配合算术编码进行压缩。测试显示:对 100MB 的 NYC 出租车 CSV,压缩至约 7MB;对 100MB 的 enwik9 文本切片,压缩至约 21MB(1.68 bits/byte);对 100MB 的 Photoshop 文件,压缩至 45MB,而 ZIP 只能压到 60MB。目前运行速度较慢,训练耗时 20-30 分钟,压缩与解压缩各需约 45 分钟(基于 AMD 7800XT 显卡)。项目代码已开源在 GitHub,但部分原始测试数据集尚未同步公开。

为什么重要

这件事从技术思路上挑战了通用压缩算法的天花板。传统词典式压缩(如 LZMA2、BZIP2)依赖统计规律,而 Transformer 模型通过捕获复杂的上下文依赖关系,能实现更高的压缩比。尤其值得注意的是,它故意“过拟合”而非“泛化”,这一反直觉的做法反而在特定文件上取得了惊人效果。同时,它也折射出当前 AI 压缩的核心矛盾:压缩比虽高,但计算成本极高(训练+编解码),暂时无法替代 LZMA2、ZPAQ 等成熟方案。不少网友已提出质疑,希望看到与 LZMA2、BZIP2 等现代压缩工具的对比,作者目前仅与 WinZIP 做了比较。

对用户/开发者/创作者的影响

对于普通用户,这项技术短期内不实用,因为解压时间达数十分钟,远不如 ZIP 实时;但对于开发者,尤其关注数据归档、差分传输或极端压缩需求的场景,它提供了一种新思路:为每个待压缩文件定制一个小模型,而非维护一个大模型。对于数据科学家,项目验证了“小模型+强记忆”在某些任务上可以超越“大模型+泛化”。这也间接鼓励在存储成本远高于计算成本的特殊领域(如长期存档、卫星数据回传)探索 AI 压缩的可行性。

GamsGo AI

AI 工具推荐

想把多个 AI 模型放在一个入口?

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。

值得关注的后续

第一,作者需补充与 LZMA2、BZIP2、ZPAQ 等现代压缩器的对比数据,社区才可能评估其真实竞争力;第二,项目能否将训练与编解码速度从小时级缩短到分钟级,将决定其是否具备工程应用价值;第三,目前模型只针对单文件,如何扩展到多文件或流式压缩,以及是否能通过“装袋”多个过拟合模型来进一步提升压缩比,是值得探索的方向。

来源:hackernews

celebrityanime
celebrityanime
文章: 10087

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注