爬虫识别支持 IPv6 地址访问 了解详情
ImageSiftBot 是一款网络爬虫,它可以从互联网上抓取公开可用的图像,以支持 Hive 的网络智能产品套件。
robots.txt 中针对 ImagesiftBot 的标准指令受到尊重。例如,以下内容将允许 ImagesiftBot 抓取除 /private/ 下的页面之外的所有页面:
User-Agent: ImagesiftBot
Allow: /
Disallow: /private/
ImagesiftBot 还支持 robots.txt 文件中的 crawl-delay 指令。它将值解释为连续请求开始之间的最短持续时间(以秒为单位)。例如,假设您在 robots.txt 文件中指定了以下内容:
User-Agent: ImagesiftBot
Crawl-delay: 5
ImagesiftBot 将把每天分成 5 秒的间隔,并在每个间隔内向您的域发出最多一个请求。
如果没有针对 ImagesiftBot 的规则,但有针对 Googlebot 的规则,则 ImagesiftBot 将遵循 Googlebot 指令。例如,ImagesiftBot 将抓取所有页面,但 /private/ 下的页面除外,其 robots.txt 如下:
User-Agent: *
Disallow: /
User-Agent: Googlebot
Allow: /
Disallow: /private/
# | IP 地址 | Hostname | 国家代码 | 旗帜 |
---|---|---|---|---|
1 | 74.80.208.71 | 74-80-208-71.ic2net.net | US |
|
2 | 74.80.208.134 | 74-80-208-134.ic2net.net | US |
|
3 | 74.80.208.218 | 74-80-208-218.ic2net.net | US |
|
4 | 64.124.8.169 | 64.124.8.169.available.above.net | US |
|
5 | 64.124.8.153 | 64.124.8.153.available.above.net | US |
|
6 | 64.124.8.150 | 64.124.8.150.available.above.net | US |
|
7 | 64.124.8.198 | 64.124.8.198.available.above.net | US |
|
8 | 64.124.8.250 | 64.124.8.250.available.above.net | US |
|
9 | 64.124.8.170 | 64.124.8.170.available.above.net | US |
|
10 | 74.80.208.83 | 74-80-208-83.ic2net.net | US |
|