Cloudflare 新规出炉,混合 AI 爬虫将批量遭拦截

Cloudflare 宣布从 2026 年 9 月 15 日起,将默认拦截未明确区分搜索、模型训练与 AI Agent 功能的混合型爬虫。这项新规意味着所有 AI 公司必须将搜索引擎爬虫与 AI 训练爬虫完全分离,否则将无法访问带有广告的网页内容。

Cloudflare 新规出炉,混合 AI 爬虫将批量遭拦截

一句话看懂:Cloudflare 宣布从 2026 年 9 月 15 日起,将默认拦截未明确区分搜索、模型训练与 AI Agent 功能的混合型爬虫。这项新规意味着所有 AI 公司必须将搜索引擎爬虫与 AI 训练爬虫完全分离,否则将无法访问带有广告的网页内容。

事件核心:发生了什么

Cloudflare 对其默认服务规则进行了重大更新,要求所有 AI 供应商必须在 9 月 15 日前将搜索爬虫、模型训练爬虫和 AI Agent 专用爬虫进行分离。对于未做区分的混合爬虫,系统将在访问带有广告的页面时自动拦截。新规适用于新平台客户、现有用户创建的新站点及所有免费用户网站。如果网站管理员希望允许混合爬虫访问,必须手动修改后端配置。Cloudflare 明确点名谷歌的爬虫同时承担搜索与 AI 数据采集功能,导致网站难以单独开放搜索而阻止 AI 训练。谷歌为此推出了专门的机器人工具,让网站可以阻止 AI 训练访问,但不影响搜索索引。然而,其核心爬虫仍会同时为搜索引擎内置的 AI 功能收集数据。

为什么重要

Cloudflare 作为全球主要的 CDN 和网络安全服务商,其规则变更直接影响了 AI 公司获取大规模网页训练数据的效率。当前数据显示,超过一半的 AI 爬虫会重复抓取未更新的页面,这种低效行为不仅消耗网站带宽,也给内容创作者带来了维权难点。Cloudflare 同时将计费模式从按爬取次数改为 Pay Per Use,根据内容在 AI 中产生的实际收益计算费用。这一转变将 AI 公司的爬虫行为从“技术自由”导向“经济问责”,迫使 AI 企业提升爬虫透明度。对内容生态而言,规则明确了“爬取不等于免费训练”的原则,直接回应了版权合规压力下的行业痛点。

对用户/开发者/创作者的影响

对网站管理员与内容创作者:新规赋予了更精细的控制权。网站管理员现在可以更有效地阻止 AI 公司未经许可抓取内容用于模型训练,同时保留搜索引擎可见性。Cloudflare 已与两家 AI 公司试点支付计划,网站能在内容被 AI 产品使用后直接获得收入,降低了创作者维权成本。对 AI 开发者与大模型公司:混合爬虫策略不再可行,必须为搜索、训练和 Agent 分别部署专用爬虫,并遵守透明化标准。这将增加开发与运维成本,尤其是中小企业可能面临数据获取瓶颈。对于依赖大规模爬取数据进行模型训练的创业公司,技术门槛和合规成本同步上升。对普通用户:影响较间接,但长期看,更透明的数据采集机制可能减少个人信息被无授权收集的风险。

GamsGo AI

AI 工具推荐

想把多个 AI 模型放在一个入口?

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。

值得关注的后续

第一,谷歌等大型 AI 公司是否会进一步推出更精细的机器人工具,以完全实现搜索与 AI 训练的数据分离。目前公开信息显示,谷歌的解决方案未能彻底解决双重数据采集问题。第二,Cloudflare 的支付计划是否会从两家试点扩展到更多 AI 公司,以及费率标准如何制定。第三,其他 CDN 和云服务商(如 Akamai、AWS CloudFront)是否会跟进类似的爬虫限制策略,这将在行业层面重塑 AI 训练数据的获取生态。

来源:AIbase

celebrityanime
celebrityanime
文章: 10936

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注