Cloudflare 新规出炉，混合 AI 爬虫将批量遭拦截

一句话看懂：Cloudflare 宣布从 2026 年 9 月 15 日起，将默认拦截未明确区分搜索、模型训练与 AI Agent 功能的混合型爬虫。这项新规意味着所有 AI 公司必须将搜索引擎爬虫与 AI 训练爬虫完全分离，否则将无法访问带有广告的网页内容。

事件核心：发生了什么

Cloudflare 对其默认服务规则进行了重大更新，要求所有 AI 供应商必须在 9 月 15 日前将搜索爬虫、模型训练爬虫和 AI Agent 专用爬虫进行分离。对于未做区分的混合爬虫，系统将在访问带有广告的页面时自动拦截。新规适用于新平台客户、现有用户创建的新站点及所有免费用户网站。如果网站管理员希望允许混合爬虫访问，必须手动修改后端配置。Cloudflare 明确点名谷歌的爬虫同时承担搜索与 AI 数据采集功能，导致网站难以单独开放搜索而阻止 AI 训练。谷歌为此推出了专门的机器人工具，让网站可以阻止 AI 训练访问，但不影响搜索索引。然而，其核心爬虫仍会同时为搜索引擎内置的 AI 功能收集数据。

为什么重要

Cloudflare 作为全球主要的 CDN 和网络安全服务商，其规则变更直接影响了 AI 公司获取大规模网页训练数据的效率。当前数据显示，超过一半的 AI 爬虫会重复抓取未更新的页面，这种低效行为不仅消耗网站带宽，也给内容创作者带来了维权难点。Cloudflare 同时将计费模式从按爬取次数改为 Pay Per Use，根据内容在 AI 中产生的实际收益计算费用。这一转变将 AI 公司的爬虫行为从“技术自由”导向“经济问责”，迫使 AI 企业提升爬虫透明度。对内容生态而言，规则明确了“爬取不等于免费训练”的原则，直接回应了版权合规压力下的行业痛点。

对用户/开发者/创作者的影响

对网站管理员与内容创作者：新规赋予了更精细的控制权。网站管理员现在可以更有效地阻止 AI 公司未经许可抓取内容用于模型训练，同时保留搜索引擎可见性。Cloudflare 已与两家 AI 公司试点支付计划，网站能在内容被 AI 产品使用后直接获得收入，降低了创作者维权成本。对 AI 开发者与大模型公司：混合爬虫策略不再可行，必须为搜索、训练和 Agent 分别部署专用爬虫，并遵守透明化标准。这将增加开发与运维成本，尤其是中小企业可能面临数据获取瓶颈。对于依赖大规模爬取数据进行模型训练的创业公司，技术门槛和合规成本同步上升。对普通用户：影响较间接，但长期看，更透明的数据采集机制可能减少个人信息被无授权收集的风险。

AI 工具推荐

想把多个 AI 模型放在一个入口？

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型，适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接：通过此链接购买，我可能获得佣金，不影响你的价格。

值得关注的后续

第一，谷歌等大型 AI 公司是否会进一步推出更精细的机器人工具，以完全实现搜索与 AI 训练的数据分离。目前公开信息显示，谷歌的解决方案未能彻底解决双重数据采集问题。第二，Cloudflare 的支付计划是否会从两家试点扩展到更多 AI 公司，以及费率标准如何制定。第三，其他 CDN 和云服务商（如 Akamai、AWS CloudFront）是否会跟进类似的爬虫限制策略，这将在行业层面重塑 AI 训练数据的获取生态。

来源：AIbase

Cloudflare 新规出炉，混合 AI 爬虫将批量遭拦截

事件核心：发生了什么

为什么重要

对用户/开发者/创作者的影响

想把多个 AI 模型放在一个入口？

值得关注的后续

celebrityanime

发表回复取消回复

事件核心：发生了什么

为什么重要

对用户/开发者/创作者的影响

想把多个 AI 模型放在一个入口？

值得关注的后续

celebrityanime

相关文章

@JavierLustven @muaythaiautho 我不知道这是否是人工智能为其生成的。你是世界上最美丽的男人。

结论不是“信任这个签名者”。就是“这里是公众输入、函数和比特币主播，自己重播一下”。任何代理都会重新计算相同的答案并根据比特币进行检查。没有神谕。没有通讯…

@urcryptocutie 是你🤠

发表回复取消回复