人工智能只是更大规模的未经授权的抄袭

一句话看懂：Hacker News 社区围绕“AI 训练数据与版权”展开激烈讨论，核心观点认为 AI 公司本质上是在进行“大规模、未经授权的抄袭”，而现有法律和技术手段（如 robots.txt）难以有效制止这种行为。

事件核心：发生了什么

一场在 Hacker News 上的讨论中，多位参与者控诉 AI 公司（尤其是 Google）的行为。有观点指出，Google 正从“指向正确方向的指路牌”转变为“包含所有答案的神谕”，其 AI 生成的摘要让用户不再点击原始网站，直接剥夺了创作者的流量。用户发现自己的数据出现在 AI 模型的输出中，但维权无门。讨论中提出了具体反击手段：如果爬虫不遵守 robots.txt，创作者完全有权通过“投毒”数据（poison their data）来反击；同时，有人主张按每次非法 API 调用、按每次侵权索赔 18 万美元来计算赔偿。此外，参与者还讽刺 AI 公司践行了“成本社会化，利润私有化”的信条。

为什么重要

这场讨论揭示了 AI 行业当前面临的核心矛盾：模型训练依赖于大规模抓取互联网公开数据，但这种“公开”不等于“免费”或“无授权”。当 AI 公司（如 Google）将模型输出直接作为答案呈现给用户时，创作者的流量、广告收入和作品价值被系统性剥夺。讨论中提到的“Socialize the costs, privatise the profits”观点，精准质疑了 AI 商业模式的合法性。此外，评论者指出，即便版权法存在，个人创作者往往缺乏起诉大公司的财力，这使得 AI 公司实际上处于“违法成本极低”的有利位置。

对用户/开发者/创作者的影响

对创作者：流量和收入受到直接冲击。Google AI 摘要等功能的普及，意味着即使你的内容被引用、合并进模型输出，你也无法获得任何报酬或流量。社区建议的技术手段（限流、Cloudflare 反爬模式、内容置于登录页后）虽然有效，但会损害内容本身的可发现性。对开发者：在构建依赖公开数据的应用时，必须考虑数据使用的法律风险。讨论中提到的“按 API 调用次数索赔”的思路，如果成为法律实践，将对任何大规模使用第三方数据的 AI 服务构成致命成本压力。对普通用户：AI 模型的输出质量可能因为数据源的减少而下降，因为越来越多创作者可能选择“投毒”或完全屏蔽爬虫。同时，用户可能面临无法准确识别信息来源、无法判断 AI 答案可靠性的新问题。

AI 工具推荐

想把多个 AI 模型放在一个入口？

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型，适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接：通过此链接购买，我可能获得佣金，不影响你的价格。

值得关注的后续

第一，法律诉讼的蔓延：随着更多个人作者和小型网站开始采取“投毒”或法律行动，法院是否会支持对 API 调用次数而非作品复制次数的赔偿计算，将成为行业风向标。第二，技术对抗的升级：使用 Cloudflare 或类似反爬措施已成为主流，但 AI 公司是否会开发更隐蔽的抓取技术（如模拟正常用户行为）来规避？这将催生新一轮攻防。第三，商业模式的重构：如果持续存在法律和技术双重压力，AI 公司是否会被迫建立公开的、有补偿的数据使用市场？这可能会改变现有模型的训练成本结构，并影响开源模型与闭源模型的竞争格局。

来源：hackernews

人工智能只是更大规模的未经授权的抄袭