Cloudflare用AI对抗AI爬虫，捍卫数据安全

AI爬虫肆虐，网站数据安全告急

近期，AI爬虫对网站数据的疯狂抓取引发广泛关注。先是仅有7人的乌克兰公司Triplegangers，其专注销售的“人体数字孪生”高清3D模型素材，源自真实人类扫描，价值颇高。然而，在一个普通周六，OpenAI的爬虫机器人GPTBot发动攻击，600个IP地址、数以万计的服务器请求，瞬间击垮网站，数十万张照片和描述被下载，公司十年心血付之东流，还面临巨额账单。

行业多起案例，凸显问题严重性

类似事件绝非个例。老牌维修教程网站iFixit，遭到AnthroPic公司的爬虫 ClaudeBot疯狂访问，近百万次的访问量差点挤爆网站。而iFixit早已明文禁止相关抓取行为，但Anthropic爬虫却置若罔闻。甚至AI搜索鼻祖Perplexity的爬虫，公然无视robots协议，偷偷抓取受限内容。

Robots协议困境，信任基石受侵蚀

追溯到1994年，为应对爬虫之乱，荷兰工程师提出robots协议，成为互联网早期的“君子协定”。在过去，Google、Yahoo等搜索引擎和善意爬虫都能遵守，构建了网络内容流通的信任基础。但如今，AI爬虫为满足模型数据需求，肆意践踏robots协议边界，众多AI公司以未明确禁止为由，随意抓取数据。

Cloudflare出奇招，打造AI迷宫防御

在此背景下，网络基础设施公司Cloudflare挺身而出，以独特方式对抗AI爬虫。他们摒弃传统验证拦截方式，而是打造AI迷宫。此迷宫中的页面、链接和内容均由AI自动生成，看似正常，实则无意义。AI爬虫一旦进入，便会在其中迷失，浪费计算资源和带宽，而正常用户却不受影响。

数据抓取争议，关乎创新未来

这场AI领域的战争，反映出数据抓取背后的矛盾。大模型发展虽需海量数据，但知识和创意源头若得不到尊重，将影响创新活力。希望未来，互联网能在保障数据安全的同时，保持开放与可信。

# AI快讯

文章版权归作者所有，未经允许请勿转载。