在AI迷宫中困住不当行为的机器人
Hacker News 摘要原标题:Trapping misbehaving bots in an AI Labyrinth
今天,我们非常高兴地宣布推出AI Labyrinth,这是一种新的缓解方法,利用AI生成的内容来放慢、困惑并浪费不尊重“禁止爬取”指令的AI爬虫和其他机器人的资源。当我们检测到不当的机器人活动时,Cloudflare会自动部署一组AI生成的链接页面,而无需客户创建任何自定义规则。AI Labyrinth对所有客户,包括免费计划用户,均可选择性启用。
随着AI生成内容的快速发展,越来越多的公司使用爬虫抓取数据进行模型训练。每天,AI爬虫对Cloudflare网络发起超过500亿次请求,占所有网络请求的将近1%。尽管Cloudflare有几种工具用于识别和阻止未经授权的AI爬取,但直接阻止恶意机器人可能会让攻击者察觉,从而导致攻击方式的转变。因此,我们希望寻找一种新的方法,来阻止这些不必要的机器人,避免让其意识到自身受到阻碍。
我们决定使用AI生成内容作为一种新的进攻性工具,通过创建一些看似真实的链接页面来迷惑爬虫。当检测到未经授权的爬取请求时,我们会链接到一系列AI生成的页面,这些页面虽然看起来非常真实,但实际上并不涉及我们正在保护的网站内容,因此爬虫会在此浪费时间和资源。此外,AI Labyrinth还充当下一代蜜罐。因为没有真实用户会深入到如此多的AI生成的无意义内容中,任何这样做的访问者很可能就是机器人,从而为我们提供了一个全新的工具来识别和指纹识别坏机器人。
当AI爬虫跟随这些链接时,它们会浪费宝贵的计算资源来处理无关内容,而不是提取您的合法网站数据。这显著减少了它们有效收集足够有用信息以训练模型的能力。为了生成令人信服的人类内容,我们利用Workers AI和一个开源模型创建了不同主题的独特HTML页面。这些内容是在预生成管道中处理,以防止任何XSS漏洞,并将其存储在R2中以便于快速检索。我们发现,先生成多样化的主题,然后为每个主题创建内容,能够产生更加多样和令人信服的结果。
为确保我们生成的内容不传播互联网错误信息,这些内容需真实且与科学事实相关,但与被爬取网站无关。这些预生成的内容通过定制的HTML转换过程无缝集成在现有页面中的隐藏链接中,而不会破坏页面的原始结构或内容。每个生成的页面包含适当的元指令来保护SEO,防止搜索引擎索引。此外,我们还确保这些链接对于普通访客是不可见的,通过仔细的属性和样式来实施。
为进一步减少对普通访客的影响,我们确保这些链接只向疑似AI爬虫展示,同时允许合法用户和已验证的爬虫正常浏览。当这些链接被跟随时,我们能够高信心地识别为自动爬虫活动,因为人类访客和合法浏览器不可能看到或点击这些链接。
这一方法在我们的不断演变的机器人检测系统中起着尤其有效的作用。当这些链接被跟随时,我们能够识别出这些行为是由自动爬虫引发的,生成的宝贵数据为我们的机器学习模型提供了支持。通过分析哪些爬虫跟随这些隐藏路径,我们能够识别出新机器人模式和特征,这些可能否则无法被发现。这个主动的方法帮助我们保持对AI爬虫的领先地位,持续提升检测能力,而不影响正常的浏览体验。
要启用AI Labyrinth非常简单,只需在Cloudflare仪表板中轻松切换一个开关即可。只需导航到您的区域中的机器人管理部分,将新的AI Labyrinth设置切换为开启状态,即可立即生效,无需额外配置。
AI Labyrinth的核心好处是混淆和分散机器人的注意力,而次要好处则是作为下一代蜜罐。蜜罐指的是一个网站访客无法看到的不可见链接,而一个解析HTML的爬虫则能看到并点击,从而暴露出自己。蜜罐技术自1986年Cuckoo’s Egg事件以来就被用于捕捉黑客。Cloudflare的创始人在2004年创建了Project Honeypot,以便让每个人都可以轻松部署免费的电子邮件蜜罐,并通过向数据库贡献来获取爬虫IP的列表。但随着机器人的不断进化,它们现在主动寻求蜜罐技术,这使得这一方法的有效性降低。AI Labyrinth不仅会简单增加不可见链接,还会创建更复杂的链接网络,使得爬虫不容易察觉。页面上的内容显然是人类不会花时间去浏览的,但AI机器人则被编程为尽可能深入地抓取数据。
通过使用AI Labyrinth,我们可以确保机器人不是实际用户,并记录该信息,自动反馈给我们的机器学习模型,以帮助改善机器人的识别。这形成了一个良好的反馈循环,使得每次抓取尝试都能帮助保护所有Cloudflare客户。
这是我们利用生成AI对抗机器人的第一步。目前,我们生成的内容虽然令人信服,但并不一定符合每个网站的现有结构。未来,我们将继续致力于使这些链接更难以察觉,使其更无缝地融入到嵌入它们的现有网站结构中。您现在可以选择加入,帮助我们在对抗机器人方面迈出下一步,今天就选择加入AI Labyrinth吧。Cloudflare的连接云保护整个企业网络,帮助客户高效构建互联网规模的应用,加速任何网站或互联网应用,抵御DDoS攻击,阻止黑客,并帮助您迈向零信任。
请访问1.1.1.1,开始使用我们的免费应用,让您的互联网更快速和安全。要了解更多关于我们使命的信息,请点击这里。如果您正在寻找新的职业方向,请查看我们的职位空缺。