AI巨头竟在秘密“焚书”?揭秘Anthropic的“巴拿马项目”

AI巨头竟在秘密“焚书”?揭秘Anthropic的“巴拿马项目”

AI巨头竟在秘密“焚书”?揭秘Anthropic的“巴拿马项目”

一句话看懂:Anthropic 被发现正大规模购买并扫描纸质书,随后将原书销毁。此举旨在绕过版权纠纷,为训练大模型制造“合法”的高质量数据集,但也引发了伦理争议。

事件核心:发生了什么

2026 年初曝光的一份法庭文件显示,Anthropic 内部秘密进行了代号“巴拿马项目”(Project Panama)的计划。该计划的目标是获得“全世界所有的书籍”。具体操作为:从二手书商和实体书店大量采购书籍,运至仓库后,员工通过切割书脊的方式对书进行“破坏性扫描”,转化为高分辨率 PDF 文件,随后将剩余纸制品直接送往回收公司销毁。

Anthropic 对此的法律抗辩理由是,这些书属合法购买并使用,符合“首次销售原则”和“合理使用”原则;扫描仅用于内部训练,不对外分发;销毁原作则避免了版权副本的非法二次流通。此前,该公司因从盗版电子书网站 LibGen 获取数据,被多名作者起诉,并在 2025 年支付了约 1.5 亿美元的赔偿金以解决集体诉讼。“巴拿马项目”正是其在巨额法律成本下寻求的一种更贵、但法律风险相对更低的替代方案。

为什么重要

这一事件揭示了 AI 行业获取训练数据的深层困境。用盗版数据训练大模型面临高额诉讼风险,而逐一向出版商和作者个人获取授权又“在商业和实际上极其困难”,Anthropic 的“物理购买+扫描自用”模式虽然成本高昂,却在法律上获得了法官的初步认可。这为 AI 公司获取高质量文本数据开辟了一条新路径,但也首次将“训练数据收集”这一灰暗地带彻底摆在台前。如果这种“合法化”模式被法院最终认定有效,Meta、OpenAI 等同样深陷类似诉讼的公司很可能跟进,从而彻底改变大模型的数据采购流程与成本结构。

对用户/开发者/创作者的影响

对创作者而言,这是值得警惕的信号。尽管扫描对象主要是流通广泛的二手书而非孤本,但这种“买断、扫描、销毁”的做法绕过了出版行业的常规授权,严重冲击了创作者对其作品的数字权利控制。对开发者和 AI 从业者而言,这意味着未来训练具有深度知识的大模型门槛可能显著提高——如果数据获取成本从几百美元(爬取公开或盗版数据)暴涨到数百万甚至上亿美元(购买实体书并扫描),开源模型与闭源大厂之间的差距将被进一步拉大。企业采购 AI 服务时,也需要更关注供应商的数据来源合规性,避免因训练数据的版权瑕疵而面临连带法律风险。

值得关注的后续

首先,美国法律界目前对大模型训练是否构成“合理使用”尚无最终结论,Anthropic 的该模式能否在上级法院的判例中站稳,将直接决定其是否会被全行业效仿。其次,大型出版商是否有能力挑战被告以“首次销售原则”为名的法律基础,以及是否会因此调整电子书授权协议,也是值得观察的动向。最后,若这种模式普及,可能会催生出一个新市场——合法授权的“训练用书籍库”,类似于音乐领域的版权代理模式,届时大模型的“知识老化”风险与商业化定价策略都可能会随之发生根本性变化。

来源:AIbase

celebrityanime
celebrityanime
文章: 3061

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注