
随着人工智能(AI)的迅猛发展,网络爬虫技术已成为AI模型训练和数据获取的核心工具。然而,AI爬虫的广泛使用也引发了内容创作者、出版商与AI公司之间的激烈争论:未经许可的爬取行为是否侵犯了内容所有者的权益?流量被AI截流后,内容创作者的生存空间又将何去何从?2025年7月1日,Cloudflare以“内容独立日”为名,推出了AI爬虫红黑榜及一系列新政策,试图为这一问题提供解决方案。这不仅是对AI爬虫行为的规范,更可能是重塑互联网内容生态的重要一步。本文将深入剖析Cloudflare的AI爬虫红黑榜,探讨其背后的意义、机制以及对未来的影响。
一、Cloudflare的“内容独立日”:从被动防御到主动出击
Cloudflare作为全球最大的互联网基础设施提供商之一,管理着约20%的全球网络流量,其影响力不容小觑。近年来,AI爬虫的激增对内容创作者和出版商造成了显著冲击。据Cloudflare数据,AI爬虫每天发起超过500亿次请求,而这些爬虫往往未经许可抓取内容,用于AI模型的训练、推理或搜索功能,导致内容创作者的流量和广告收入大幅下降。例如,《商业内幕》(Business Insider)的流量从2022年4月到2025年4月下降了55%,而《大西洋月刊》(The Atlantic)甚至预测,来自谷歌的流量可能降至零。
为了应对这一挑战,Cloudflare于2025年7月1日宣布,所有通过其服务注册的新网站将默认阻止AI爬虫,除非网站所有者明确授予访问权限。这一政策被Cloudflare称为“内容独立日”,标志着互联网从“默认开放”向“基于许可”的模式转变。此外,Cloudflare推出了AI爬虫红黑榜,对AI公司的爬虫行为进行评分,并引入了“按爬取付费”(Pay Per Crawl)机制,旨在让内容创作者重新掌握对数据的控制权,同时为AI公司提供合规的合作途径。
二、AI爬虫红黑榜:谁是“优等生”,谁在“垫底”?
Cloudflare的AI爬虫红黑榜是其新政策的核心组成部分,旨在通过透明的评分机制评估AI爬虫的合规性和透明度。根据X平台上的信息,目前红黑榜收录了6家AI公司的爬虫行为,其中OpenAI因其相对规范的爬虫操作位居榜首,而字节跳动、Anthropic和xAI的Grok爬虫由于缺乏验证和透明度而排名靠后。
红榜:OpenAI的合规之道
OpenAI的爬虫(如ChatGPT的爬虫)因其明确的标识和相对透明的行为获得了较高评价。Cloudflare通过验证爬虫的“用户代理”(user agent)、签名头(如signature-agent、signature-input和signature)以及公钥机制,确保了爬虫的真实性。这种透明性让网站所有者能够清楚了解爬虫的目的(例如用于训练、推理或搜索),从而决定是否授予访问权限。
黑榜:字节跳动、Anthropic和xAI的挑战
相比之下,字节跳动、Anthropic和xAI的Grok爬虫因缺乏明确的身份验证和规范操作而被列入黑榜。例如,xAI的Grok爬虫在抓取过程中几乎没有提供可验证的身份信息,这使得网站所有者难以判断其意图和合法性。这种“影子爬虫”(shadow scraper)行为不仅增加了服务器负担,还可能引发法律和伦理争议。例如,Perplexity等公司曾被指控冒充合法访问者以规避robots.txt协议,引发了出版商的强烈不满。
Cloudflare利用其先进的机器学习和行为分析技术,能够有效检测这些规避行为的爬虫,并通过“AI迷宫”(AI Labyrinth)等工具干扰非合规爬虫的抓取效率。红黑榜的推出不仅是对AI公司行为的公开监督,也为内容创作者提供了评估爬虫可信度的参考依据。
三、“按爬取付费”:内容创作者的新商机
除了红黑榜,Cloudflare还推出了“按爬取付费”(Pay Per Crawl)机制,这是一个正在私人测试阶段的创新模式。网站所有者可以通过Cloudflare的平台设定爬取费率,AI公司若想抓取其内容,必须支付相应费用。Cloudflare在交易中充当中间人,收取AI公司的费用并分配给内容发布商。
机制如何运作?
- 灵活控制:网站所有者可以选择完全阻止AI爬虫、免费开放部分内容,或对每次爬取设定价格。例如,出版商可以允许AI爬虫用于搜索目的,但禁止用于模型训练。
- 透明交易:Cloudflare利用HTTP状态码和认证机制(如Ed25519公钥对)确保交易的透明性和安全性,防止“伪装爬虫”绕过限制。
- 支持者阵容:包括《时代杂志》(TIME)、《大西洋月刊》、Reddit、Pinterest、BuzzFeed等在内的多家大型出版商和平台已加入该计划,显示出行业对这一模式的广泛支持。
潜在影响
“按爬取付费”机制为内容创作者提供了一种新的商业模式,可能改变AI时代的内容经济格局。传统上,内容创作者依赖广告和推荐流量,但AI生成的摘要和聊天机器人答案大幅减少了用户访问原始网站的动力。例如,Cloudflare数据显示,谷歌爬虫每带来一次推荐流量需抓取网站14次,而OpenAI和Anthropic的爬虫分别高达1700次和73000次。这种不对等的流量交换让出版商的收入雪上加霜。
通过“按爬取付费”,内容创作者有机会直接从AI公司获得报酬,而非依赖日益萎缩的广告收入。Cloudflare的首席执行官马修·普林斯(Matthew Prince)表示,这一机制旨在“保护互联网的自由与活力”,并为内容创作者与AI公司建立公平的合作关系。
四、行业反响与争议
Cloudflare的AI爬虫红黑榜和“按爬取付费”机制引发了广泛的讨论,既有支持的声音,也有反对的质疑。
支持者:出版商的胜利
众多出版商对Cloudflare的新政策表示欢迎。《纽约时报》、《大西洋月刊》、Conde Nast等大型媒体认为,这一政策赋予了内容创作者更大的控制权,有助于保护原创内容的价值。Dotdash Meredith的首席执行官尼尔·沃格尔(Neil Vogel)表示:“我们一直主张AI平台必须公平补偿出版商和创作者,Cloudflare的工具让我们能够限制内容访问,仅允许愿意达成公平协议的AI伙伴使用。”
此外,Sky News集团执行主席大卫·罗兹(David Rhodes)指出,这一基于许可的模式有助于确保高质量数字新闻的未来。已有超过100万个网站和全球前1000网站中的35%加入了Cloudflare的AI爬虫限制计划,显示出行业对这一政策的广泛认可。
反对者:AI行业的担忧
然而,AI公司对此政策反应不一。一些公司,如OpenAI,选择通过合规的方式参与Cloudflare的框架,但其他公司则表达了担忧。前英国副首相、Meta高管尼克·克莱格(Nick Clegg)曾表示,要求AI公司在抓取前获得许可可能“基本上会扼杀AI行业”。OpenAI也公开批评Cloudflare在出版商与AI开发者之间插入“新中间人”,认为这可能增加交易成本和复杂性。
此外,Cloudflare的股票在政策公布后下跌了6.6%,反映了市场对这一举措可能对AI行业造成的冲击的担忧。一些分析人士指出,若AI公司无法访问Cloudflare管理的20%网络内容,可能会限制其模型训练的数据来源,从而影响AI技术的发展。
五、未来展望:互联网内容生态的新格局
Cloudflare的AI爬虫红黑榜和“按爬取付费”机制不仅是技术层面的创新,更是对互联网内容生态的深刻重塑。以下是其可能带来的长期影响:
- 内容创作者的赋权:通过赋予网站所有者对爬虫行为的控制权,Cloudflare为内容创作者提供了重新定义与AI公司关系的机会。这种基于许可和付费的模式可能成为数字内容经济的新标准。
- AI行业的合规压力:红黑榜的公开评分机制将迫使AI公司提高爬虫的透明度和合规性。那些拒绝合作的“黑榜”公司可能面临数据获取的困境,甚至引发法律诉讼。
- 新型内容市场:Cloudflare设想了一个内容价值由知识贡献而非页面浏览量决定的市场。若“按爬取付费”模式规模化,可能为中小型内容创作者提供新的收入来源,同时也将Cloudflare置于内容交易生态的中心。
- 法律与伦理的平衡:当前,关于AI爬虫是否构成“合理使用”的法律争议尚未完全解决。Cloudflare的政策通过技术手段绕过了版权法的灰色地带,但也可能推动立法者重新审视AI与内容创作者之间的权利平衡。
六、结语:内容独立日的深远意义
Cloudflare的AI爬虫红黑榜及其相关政策不仅是技术领域的革新,更是对互联网核心价值的重新定义。在AI时代,内容的创造与传播模式正在发生深刻变革,而Cloudflare的举措为内容创作者争取了更大的话语权。尽管这一政策可能对AI行业造成短期冲击,但从长远来看,它为构建一个公平、透明的内容生态奠定了基础。
正如Cloudflare首席执行官马修·普林斯所说:“原创内容是互联网成为上世纪最伟大发明之一的原因,我们必须共同保护它。”AI爬虫红黑榜不仅是Cloudflare对内容创作者的支持,也是对开放互联网精神的捍卫。未来,随着更多AI公司和出版商加入这一框架,互联网的内容经济或将迎来全新的篇章。
参考文献:
- ZDNET, “Cloudflare just changed the internet, and it’s bad news for the AI giants”
- TechRadar, “Cloudflare will now block AI crawlers on your website”
- INSIDE, “Cloudflare 推出新市集為 AI 爬蟲訂定費率”
- The New York Times, “Cloudflare Introduces Blocking of A.I. Scrapers By Default”
- X帖子,@landiantech,2025年7月2日
- X帖子,@Cloudflare,2025年7月1日
(注:本文基于2025年7月2日的最新信息撰写,部分数据和观点可能随时间变化而更新。)

