爬虫识别
搜索引擎与爬虫

useragent在线查找

useragent在线查找

有的时候我们在检查服务器的 Nginx 和 Apache 的日志时候,经常看到一些奇奇怪怪的 UserAgent,我们需要解析这些 UserAgent,看看是不是正常用户。

例如下面是一个比较复杂的 UserAgent:

Mozilla/5.0 (Linux; Android 10; SAMSUNG SM-A022F Build/QP1A.190711.020; wv) AppleWebKit/537.36 (KHTML, like Gecko) Version/4.0 SamsungBrowser/7.4 Chrome/92.0.4515.159 Mobile Safari/537.36

上面这个我们不通过任何工具,可以读出以下有用信息:

通过上面的 UserAgent 我们只能读出这些信息,但是还有一些信息无法读出,例如:手机的型号、浏览器的渲染引擎等这些信息我们是不知道的。

遇到这些问题,我们可以使用useragent在线查找工具,可以轻松解答我们的疑问。

通过访问useragent在线查找工具,我们直接输入上面你的 UserAgent,点击爬虫查询,即可出现结果,通过解析结果,我们可以看出这个是一个 Samsung - Galaxy A02 的手机,之后我们点击三星浏览器,即可看到它的更详细信息,通过结果我们可以看出来它的渲染引擎是 WebKit/Blink

是不是完美的解答了我们的疑问。

useragent在线查找也可以很轻松的识别爬虫信息,例如下面一个 Useragent 是一个爬虫,我们来查询看看:

CriteoBot/0.1 (+https://www.criteo.com/criteo-crawler/)

查询结果截图如下:

useragent在线查找结果

通过查询我们可以看到这个是一个爬虫也被识别出来了,同时爬虫的分类是营销爬虫,爬虫名称是:CriteoBot,我们点击爬虫名称,还可以看到更多信息:爬虫所属公司、爬虫文档、爬虫说明、爬虫不同的 UserAgent、爬虫的收录时间、爬虫的IP地址段等,可以说已经将这个爬虫的方方面面展现在我们眼前了。

同时useragent在线查找工具也可以对一些 app 客户端、邮件客户端、库等进行查询,可以说非常方便。

总结

主要介绍了useragent在线查找工具的具体用法,同时也一个示例看出 useragent在线查找工具能够查询出 useragent的那些信息,可以帮助我们检查日志中的一些爬虫信息。

返回顶部