
一句话看懂:Cloudflare宣布从2026年9月15日起,默认阻止“混合用途”爬虫抓取带广告页面,迫使AI公司将搜索爬虫与训练和AI代理爬虫分离。这一政策旨在让出版商能够对AI公司使用其内容进行收费,而非免费获取。
事件核心:发生了什么
Cloudflare于2026年7月1日宣布一项新政策,自9月15日起,其默认设置将阻止“混合用途”爬虫访问任何托管广告的网站。该政策适用于新客户、现有客户的新站点以及所有现有免费客户。所谓“混合用途”爬虫,是指同时用于传统搜索引擎索引、AI模型训练和AI代理服务的爬虫。Cloudflare特别点名“全球最大搜索引擎”(明确指向Google),指出该搜索引擎因难以让客户在不被用于AI训练的前提下保持可发现性,从而获取了“约两倍于其他AI公司的信息”。Google此前已推出Google Extended机器人,允许网站所有者选择退出用于AI训练和产品(如Gemini Apps、Vertex API)的内容抓取,但不影响其在Google搜索中的收录。
为什么重要
Cloudflare首席执行官Matthew Prince指出,非人类流量已超过人类流量,生态系统需更快速调整。这一政策本质上是内容变现机制的推动力:Cloudflare推出的“按爬取付费”(Pay Per Crawl)市场功能,已演变为“按使用付费”(Pay Per Use),让出版商能够在其内容为AI公司创造价值时收费,而不仅仅是被抓取时。Cloudflare数据还显示,AI爬虫超过50%的抓取流量用于重复获取未更改页面,这一变化可帮助出版社节省带宽和计算资源。该政策直接挑战了AI公司无偿使用网络内容训练模型的主流做法,迫使行业重新思考内容的商业价值分配。
对用户/开发者/创作者的影响
对于网站所有者和内容创作者,这意味着他们可以通过Cloudflare的默认设置更便捷地保护自己的知识产权,并有机会从AI公司处获得收入。目前Cloudflare已与Ceramic.ai和You.com合作,当出版商选择加入后,其内容出现在AI搜索结果或用户访问其付费内容时,可获得报酬。对于AI模型提供商和开发者,这一政策将增加其获取训练数据和运行AI代理服务的成本与复杂度,他们必须区分搜索爬虫和AI训练爬虫,否则可能被默认阻止访问大量含广告的网站。对于普通用户,短期内可能感受到AI搜索结果或免费服务的变化,因为训练数据的获取模式正在重塑。
AI 工具推荐
想把多个 AI 模型放在一个入口?
GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。
推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。
值得关注的后续
第一,Google是否会调整其Googlebot和爬虫策略以应对Cloudflare的默认阻止?目前Google的AI Overviews和AI Mode依赖搜索爬虫,但可能被归类为“AI用途”。第二,其他CDN和安全服务商(如Akamai、Fastly)是否会跟进类似的政策?这可能推动行业统一标准。第三,“按使用付费”模式能否大规模落地,以及AI公司是否愿意为此付费——这将直接影响出版商的收入预期和内容创作生态的可持续性。
![[Bug]: Using claude-sonnet-5 throws "LLM must be a FunctionCallingLLM"](https://www.chat-gpts.plus/wp-content/uploads/2026/07/22216-7a1b3db7-768x403.jpg)
![[Bug]: Citation Query Engine Refine Templates are missing "existing answer" and "new answer" verbiage.](https://www.chat-gpts.plus/wp-content/uploads/2026/07/22218-01e9a1d1-768x403.jpg)
