爬虫识别支持 IPv6 地址访问 了解详情
BUbiNG是新一代网络爬虫,其构建基于作者在 UbiCrawler 方面的经验以及过去十年在该领域的研究成果。BUbiNG 是一款开源 Java 完全分布式爬虫(无需中央协调);单个代理使用大型硬件,每秒可以爬取数千个页面,并严格遵守基于主机和 IP 的礼貌约束。与依赖批处理技术(例如 MapReduce)的现有开源分布式爬虫不同,BUbiNG 的作业分配基于现代高速协议,从而实现极高的吞吐量。
BUbiNG 爬虫遵守 roots.txt 协议,如果需要屏蔽 BUbiNG 爬虫,写法如下:
User-agent: BUbiNG
Disallow: /
# | IP 地址 | Hostname | 国家代码 | 旗帜 |
---|---|---|---|---|
1 | 94.23.117.65 | FR |
|