Cloudflare 指控 Perplexity 秘密绕过禁止抓取规则
25-08-05
AI 搜索初创公司 Perplexity 近日被互联网基础设施提供商 Cloudflare 指出,该公司采用所谓 “stealth crawling” 技术,在网站明确通过 robots.txt 或防火墙禁止 AI 抓取后,仍然绕过限制抓取内容(Cloudflare 创建测试域名明确拒绝爬虫访问,但 Perplexity 仍向用户提供这些页面的具体信息)。
Cloudflare 指出,Perplexity 在其官方爬虫被阻止后,伪装为 Google Chrome 浏览器、使用旋转 IP 和更改 Autonomous System Numbers(ASN),跨越成千上万个域名、每天发起上百万次请求,以规避封锁。
Perplexity 发言人对此表示,Cloudflare 博客是“宣传炒作”,称“截图显示没有访问内容”,并宣称Cloudflare 指认的爬虫“根本不是我们的” 。不过 Cloudflare 已将 Perplexity 从其“verified bot”名单中删除,并广泛部署检测与屏蔽机制以应对此类“隐秘爬虫”。
Perplexity 以透明引用和 AI 搜索摘要模式迅速增长,但若其确实如 Cloudflare 指控般绕过网站意愿获取内容,将引发严重伦理与法律质疑,也凸显当前 AI 公司需更严肃对待训练数据采集与网络规范的问题。
Cloudflare 这次的“蜜罐测试”既是对 Perplexity 行为的警示,也标志着Web 内容所有者与AI平台之间围绕数据访问的博弈正迅速升级。未来 Perplexity 是否承认问题、调整行为或与内容方达成赔偿或许可,将成为业界关注焦点。