AI巨头竟在秘密“焚书”？揭秘Anthropic的“巴拿马项目”

一句话看懂：Anthropic 被发现正大规模购买并扫描纸质书，随后将原书销毁。此举旨在绕过版权纠纷，为训练大模型制造“合法”的高质量数据集，但也引发了伦理争议。

事件核心：发生了什么

2026 年初曝光的一份法庭文件显示，Anthropic 内部秘密进行了代号“巴拿马项目”（Project Panama）的计划。该计划的目标是获得“全世界所有的书籍”。具体操作为：从二手书商和实体书店大量采购书籍，运至仓库后，员工通过切割书脊的方式对书进行“破坏性扫描”，转化为高分辨率 PDF 文件，随后将剩余纸制品直接送往回收公司销毁。

Anthropic 对此的法律抗辩理由是，这些书属合法购买并使用，符合“首次销售原则”和“合理使用”原则；扫描仅用于内部训练，不对外分发；销毁原作则避免了版权副本的非法二次流通。此前，该公司因从盗版电子书网站 LibGen 获取数据，被多名作者起诉，并在 2025 年支付了约 1.5 亿美元的赔偿金以解决集体诉讼。“巴拿马项目”正是其在巨额法律成本下寻求的一种更贵、但法律风险相对更低的替代方案。

为什么重要

这一事件揭示了 AI 行业获取训练数据的深层困境。用盗版数据训练大模型面临高额诉讼风险，而逐一向出版商和作者个人获取授权又“在商业和实际上极其困难”，Anthropic 的“物理购买+扫描自用”模式虽然成本高昂，却在法律上获得了法官的初步认可。这为 AI 公司获取高质量文本数据开辟了一条新路径，但也首次将“训练数据收集”这一灰暗地带彻底摆在台前。如果这种“合法化”模式被法院最终认定有效，Meta、OpenAI 等同样深陷类似诉讼的公司很可能跟进，从而彻底改变大模型的数据采购流程与成本结构。

对用户/开发者/创作者的影响

对创作者而言，这是值得警惕的信号。尽管扫描对象主要是流通广泛的二手书而非孤本，但这种“买断、扫描、销毁”的做法绕过了出版行业的常规授权，严重冲击了创作者对其作品的数字权利控制。对开发者和 AI 从业者而言，这意味着未来训练具有深度知识的大模型门槛可能显著提高——如果数据获取成本从几百美元（爬取公开或盗版数据）暴涨到数百万甚至上亿美元（购买实体书并扫描），开源模型与闭源大厂之间的差距将被进一步拉大。企业采购 AI 服务时，也需要更关注供应商的数据来源合规性，避免因训练数据的版权瑕疵而面临连带法律风险。

值得关注的后续

首先，美国法律界目前对大模型训练是否构成“合理使用”尚无最终结论，Anthropic 的该模式能否在上级法院的判例中站稳，将直接决定其是否会被全行业效仿。其次，大型出版商是否有能力挑战被告以“首次销售原则”为名的法律基础，以及是否会因此调整电子书授权协议，也是值得观察的动向。最后，若这种模式普及，可能会催生出一个新市场——合法授权的“训练用书籍库”，类似于音乐领域的版权代理模式，届时大模型的“知识老化”风险与商业化定价策略都可能会随之发生根本性变化。

来源：AIbase

AI巨头竟在秘密“焚书”？揭秘Anthropic的“巴拿马项目”