搜索引擎与爬虫

80legs 抓取工具介绍

80legs 抓取工具介绍

什么是 voltron?

2024 年 7 月 17 日星期四,80legs 爬虫的用户代理从“008”更改为“voltron”。

Voltron 在 80legs 网络爬行平台上运行,该平台由许多服务器组成,这就是为什么您可能会看到我们的网络爬行程序从许多不同的 IP 地址访问您的网站。

为什么 Voltron 要抓取我的网站?

Voltron 是 80legs 使用的用户代理,它是一个网络爬行服务提供商。80legs 允许其用户设计和运行定制的网络抓取。因此,如果 Voltron 正在抓取您的网站,这意味着一个或多个 80legs 用户创建了一个网络抓取,(最终)进入了您的网站。

人们出于各种原因使用 80legs,包括向他们自己的搜索引擎提供数据,监测在线意见的趋势,以及其他有趣的应用。

如何通过 robtos.txt 文件禁止 Voltron 抓取?

如果您觉得 voltron 抓取您的网站的速度太快,请让我们知道对您来说什么是合适的抓取率。如果您希望我们停止抓取您的网站,最好的办法是使用 robots.txt 规范阻止我们的网络爬行器。要做到这一点,请在您的 robots.txt 中添加以下内容:

User-agent: voltron

Disallow: /

如果您使用 robots.txt 阻止 voltron,您将看到爬行请求逐渐减少,而不是立即停止。这是因为分布式架构而发生的。计算机只定期接收它们正在抓取的域的 robots.txt 信息。

能否通过 IP 地址阻止 Voltron 爬虫?

通过 IP 地址阻止 Voltron 网络爬虫是行不通的。由于 Voltron 基础设施的分布性质,有许多不断变化的 IP 地址。我们强烈建议您不要试图通过 IP 地址来阻止 Voltron 网络爬虫,因为您很可能会花费几个小时的时间来进行徒劳的努力,并且在结束时心情会非常糟糕。最好的办法是在你的 robots.txt 中加入上面的内容。