AI爬虫肆虐,网站数据安全告急
近期,AI爬虫对网站数据的疯狂抓取引发广泛关注。先是仅有7人的乌克兰公司Triplegangers,其专注销售的“人体数字孪生”高清3D模型素材,源自真实人类扫描,价值颇高。然而,在一个普通周六,OpenAI的爬虫机器人GPTBot发动攻击,600个IP地址、数以万计的服务器请求,瞬间击垮网站,数十万张照片和描述被下载,公司十年心血付之东流,还面临巨额账单。
行业多起案例,凸显问题严重性
类似事件绝非个例。老牌维修教程网站iFixit,遭到AnthroPic公司的爬虫ClaudeBot疯狂访问,近百万次的访问量差点挤爆网站。而iFixit早已明文禁止相关抓取行为,但Anthropic爬虫却置若罔闻。甚至AI搜索鼻祖Perplexity的爬虫,公然无视robots协议,偷偷抓取受限内容。
Robots协议困境,信任基石受侵蚀
追溯到1994年,为应对爬虫之乱,荷兰工程师提出robots协议,成为互联网早期的“君子协定”。在过去,Google、Yahoo等搜索引擎和善意爬虫都能遵守,构建了网络内容流通的信任基础。但如今,AI爬虫为满足模型数据需求,肆意践踏robots协议边界,众多AI公司以未明确禁止为由,随意抓取数据。
Cloudflare出奇招,打造AI迷宫防御
在此背景下,网络基础设施公司Cloudflare挺身而出,以独特方式对抗AI爬虫。他们摒弃传统验证拦截方式,而是打造AI迷宫。此迷宫中的页面、链接和内容均由AI自动生成,看似正常,实则无意义。AI爬虫一旦进入,便会在其中迷失,浪费计算资源和带宽,而正常用户却不受影响。
数据抓取争议,关乎创新未来
这场AI领域的战争,反映出数据抓取背后的矛盾。大模型发展虽需海量数据,但知识和创意源头若得不到尊重,将影响创新活力。希望未来,互联网能在保障数据安全的同时,保持开放与可信。