爬虫识别

应控制的常见良性和恶性爬虫列表,以节省服务器资源并提升性能 了解详情

关键词

非个人身份信息

记录的与用户相关的信息,但不再反映或涉及用户的个人身份信息。

服务器日志

与大多数网站一样,我们的服务器会自动记录您在访问网站时所发出的网页请求。这些“服务器日志”通常包括您的网络请求、互联网协议地址、浏览器类型、浏览器语言、请求的日期和时间及可以唯一识别您的浏览器的一个或多个 Cookie

以浏览“/cloud-service-providers”为例,典型的日志条目如下所示:

123.456.789.000 - - [18/May/2021:09:22:50 +0800] 
"GET /cloud-service-providers HTTP/2.0" 200 14417 "https://www.pdflibr.com/"
"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.212 Safari/537.36"
  • 123.456.789.000是由用户的 ISP 指定给用户的 IP 地址。在用户每次连接到互联网时,服务提供商为其指定的地址都可能会不同,具体取决于用户所使用的服务。
  • [18/May/2021:09:22:50 +0800]是用户访问此页面的时间
  • "GET /cloud-service-providers HTTP/2.0" 200 14417GET是请求方式,/cloud-service-providers是请求的页面地址,HTTP/2.0是HTTP使用的版本号,200是请求的状态编码,14417是所返回的字节数,https://www.pdflibr.com/是来源网址,是从那个页面跳转到这个页面的。
  • Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.212 Safari/537.36是所使用的浏览器和操作系统。

引荐来源网址

引荐来源网址(统一资源定位地址)是网络浏览器传送至目标网页的信息,通常是在您点击指向相应网页的链接后传送。引荐来源网址包含您在浏览器中最后一次访问的网页的网址。

使用浏览器进行网络存储

“使用浏览器进行网络存储”的机制可让网站将数据存储在设备上的浏览器中。如果在“本地存储”模式下使用该机制,则数据可存储在各个会话中。这样一来,即使在关闭并重新打开浏览器后,用户仍可以获取相应数据。有助于实现网络存储的技术之一就是 HTML 5。

应用数据缓存

应用数据缓存是指设备上的一种数据存储机制。使用它有很多好处,例如,可让网络应用在未连接互联网的情况下运行,以及可通过提高内容加载速度来改善相关应用的性能。

唯一标识符

唯一标识符是一串字符,可用于唯一标识浏览器、应用或设备。不同的标识符在有效期、是否可由用户重置以及获取方式方面会有所不同。

唯一标识符具有多种用途,其中包括检测安全风险和爬虫行为、记录您的偏好以及提供合乎个人需求的广告。例如,根据 Cookie 中存储的唯一标识符,网站可以在浏览器中以您的首选语言显示内容。您可以将浏览器配置为拒绝所有 Cookie 或在网站发送 Cookie 时显示提示。由于IP信息与爬虫识别网站主要使用了Google Adsense广告推送服务,你可以到此处详细了解 Google 如何使用 CookieGoogle 在广告中使用 Cookie 的方式

Cookie

Cookie 是在您访问网站时发送到您计算机上的一种小文件,其中包含一串字符。当您再次访问相应网站时,网站就可通过 Cookie 识别您的浏览器。Cookie 可能会存储用户偏好及其他信息。您可以将浏览器配置为拒绝所有 Cookie 或在网站发送 Cookie 时显示提示。不过,如果没有 Cookie,某些网站功能或服务可能无法正常工作。

IP 地址

每台上网的设备都会指定一个编号,称为互联网协议 (IP) 地址。这些编号通常都是根据地理区域指定的。IP 地址通常可用于识别设备连接至互联网时所在的位置。

返回顶部