爬虫识别
搜索引擎与爬虫

爬虫列表:网络爬虫以及我们如何利用网络爬虫

crawler list

对于大多数网络优化人员来说,需要不断更新网站以保持新鲜并提高 SEO 排名。

然而,有些网站拥有数百甚至数千个页面,这对手动推送更新至搜索引擎的团队来说是一个挑战。如果内容频繁更新,团队如何确保这些改进对其 SEO 排名产生影响呢?

这就是爬虫机器人的作用。网络爬虫机器人将扫描您的站点地图以获取新的更新并将内容索引到搜索引擎中。

在本文中,我们将列出一个全面的爬虫列表,涵盖您需要了解的所有网络爬虫机器人。在我们深入研究之前,让我们定义一下网络爬虫机器人,并展示它们的工作原理。

什么是网络爬虫?

网络爬虫是一种计算机程序,它会自动扫描和系统地读取网页,以便将页面索引到搜索引擎中。网络爬虫也被称为蜘蛛或机器人。

为了向发起搜索的用户呈现最新和相关的网页,必须进行来自网络爬虫机器人的抓取。这个过程有时会自动发生(取决于爬虫和您的站点的设置),或者可以直接启动。

许多因素会影响您的页面的SEO排名,包括相关性、反向链接、网络主机等等。然而,如果您的页面没有被搜索引擎抓取和索引,这些因素都无关紧要。这就是为什么确保您的站点允许正确的抓取发生并消除任何障碍至关重要。

机器人必须不断扫描和抓取网络,以确保呈现最准确的信息。谷歌是美国访问量最大的网站,大约有26.9%的搜索来自美国用户:

美国用户搜索量

然而,并没有一个能够为所有搜索引擎进行抓取的网络爬虫。每个搜索引擎都有独特的优势,因此开发人员和营销人员有时会编制一个“爬虫列表”。这个爬虫列表可以帮助他们在站点日志中识别不同的爬虫,以接受或阻止它们。

营销人员需要组建一个包含不同网络爬虫的爬虫列表,并了解它们如何评估自己的站点(与窃取内容的内容抓取器不同),以确保正确地为搜索引擎优化其落地页。

网络爬虫是如何工作的?

网络爬虫在发布网页后会自动扫描您的网页并对数据进行索引。

网络爬虫会查找与网页相关的特定关键词,并将这些信息索引给像谷歌、必应等相关的搜索引擎。

网络爬虫工作方式

搜索引擎的算法将在用户提交与相关关键词相关的查询时检索这些数据。

抓取从已知的URL开始。这些是具有各种信号的已建立的网页,用于引导网络爬虫访问这些页面。这些信号可能包括:

  • 反向链接:指向该页面的次数
  • 访问者:访问该页面的流量量
  • 权威域:域名的整体质量

然后,它们将数据存储在搜索引擎的索引中。当用户发起搜索查询时,算法将从索引中获取数据,并在搜索引擎结果页面上显示。这个过程可能在几毫秒内发生,所以结果通常会很快显示出来。

作为网站管理员,您可以控制哪些机器人抓取您的站点。这就是为什么拥有一个爬虫列表非常重要。它是存放在每个站点服务器中的robots.txt协议,指导爬虫访问需要进行索引的新内容。

通过了解网络爬虫在扫描中寻找什么,您可以了解如何更好地为搜索引擎定位您的内容。

编制您的爬虫列表:什么是不同类型的网络爬虫?

在开始考虑编制您的爬虫列表时,有三种主要类型的爬虫值得关注。它们包括:

  • 内部爬虫:这些是由公司的开发团队设计的爬虫,用于扫描其站点。通常用于站点审核和优化。
  • 商业爬虫:这些是定制构建的爬虫,例如Screaming Frog,公司可以使用它们来爬行并高效评估其内容。
  • 开源爬虫:这些是由全球各地的各种开发人员和黑客构建的免费使用的爬虫。

了解存在的不同类型的爬虫很重要,这样您就知道自己需要利用哪种类型来实现自己的业务目标。

将最常见的13个网络爬虫添加到您的爬虫列表中

并没有一个爬虫可以为所有搜索引擎完成所有工作。

相反,有多种网络爬虫用于评估您的网页并扫描内容,以适应全球用户使用的所有搜索引擎。

让我们来看一下今天最常见的一些网络爬虫。

1. Googlebot

Googlebot 是谷歌的通用网络爬虫,负责抓取将出现在谷歌搜索引擎上的网站。

Googlebot 索引站点以提供最新的 Google 结果

尽管技术上存在两个版本的 Googlebot —— Googlebot Desktop 和 Googlebot Smartphone(移动版),但大多数专家认为 Googlebot 是一个单一的爬虫。

这是因为这两个版本都遵循写在每个网站的 robots.txt 中的同一唯一产品标记(称为用户代理标记)。Googlebot 的用户代理标记就是“Googlebot”。

Googlebot 开始工作后,通常每隔几秒钟访问您的网站(除非您在网站的 robots.txt 中阻止它)。扫描页面的备份会保存在一个名为 Google Cache 的统一数据库中,这使您可以查看您网站的旧版本。

此外,Google 搜索控制台也是网站管理员使用的另一个工具,用于了解 Googlebot 如何抓取他们的网站,并优化其页面以供搜索使用。

2. Bingbot

Bingbot 是由微软于 2010 年创建的,用于扫描和索引 URL,以确保 Bing 为该平台的用户提供相关的、最新的搜索引擎结果。

Bingbot 为 Bing 提供相关的搜索引擎结果

与 Googlebot 类似,开发人员或营销人员可以在其网站的 robots.txt 中定义是否批准或拒绝代理标识符 “bingbot” 来扫描其网站。

此外,他们还可以区分移动优先索引爬虫和桌面爬虫,因为 Bingbot 最近切换到了新的代理类型。这个特性以及 Bing 站长工具使网站管理员能够更灵活地展示他们的网站如何在搜索结果中被发现和展示。

3. Yandex Bot

Yandex Bot 是专门针对俄罗斯搜索引擎 Yandex 的爬虫。Yandex 是俄罗斯最大、最受欢迎的搜索引擎之一。

Yandex Bot 是俄罗斯搜索引擎 Yandex 的爬虫程序

网站管理员可以设置 robots.txt 文件,以允许 Yandex Bot 对网站的访问。

此外,他们还可以在特定页面上添加 Yandex.Metrica 标签,在 Yandex Webmaster 中重新索引页面,或发出 IndexNow 协议,这是一个指出新页面、修改页面或停用页面的独特报告。

4. Apple Bot

Apple Bot 来为苹果的 Siri 和 Spotlight 建议功能爬取和索引网页。

Apple Bot 是 Apple 的 Siri 和 Spotlight 的网络爬虫

Apple Bot 在决定在 Siri 和 Spotlight 建议中采用哪些内容时会考虑多个因素。这些因素包括用户参与度、搜索词的相关性、链接的数量/质量、基于位置的信号,甚至包括网页设计。

5. DuckDuck Bot

DuckDuckBot 是 DuckDuckGo 的网络爬虫,DuckDuckGo 提供“无缝的隐私保护,适用于您的网络浏览器”。

DuckDuck Bot 为 DuckDuckGo 提供索引爬虫服务

网站管理员可以使用 DuckDuckBot API 来查看 DuckDuckBot 是否已经爬取了他们的网站。在爬取过程中,它会将最近的 IP 地址和用户代理更新到 DuckDuckBot API 数据库中。

这有助于网站管理员识别任何冒充者或试图与 DuckDuckBot 关联的恶意机器人。

6. Baidu Spider

百度是中国领先的搜索引擎,而百度蜘蛛(Baidu Spider)则是该网站唯一的爬虫。

Baidu Spider 是百度搜索引擎额爬虫程序

由于谷歌在中国被禁,如果您想进入中国市场,启用百度蜘蛛来爬取您的网站就非常重要。

要识别访问您的站点的百度蜘蛛,请查找以下用户代理:baiduspider、baiduspider-image、baiduspider-video 等。

但是有很多爬虫会通过为找 Baidu Spider 来恶意抓取您的网站,您可以通过爬虫识别查询 IP 地址,判断爬虫是不是属于百度。

7. Sogou Spider

Sogou Spider 是搜狗搜索引擎的爬虫程序。搜狗是一家中国搜索引擎,据报道是第一个拥有 100 亿个中文页面索引的搜索引擎。

Sogou Spider 是搜狗搜索引擎的爬虫程序

如果您在中国市场开展业务,这是另一个您需要了解的流行搜索引擎爬虫。搜狗蜘蛛会遵循机器人排除文本和爬取延迟参数。

8. Facebook External Hit

Facebook External Hit,也称为 Facebook Crawler,会爬取在 Facebook 上分享的应用程序或网站的 HTML 内容。

Facebook External Hit 索引站点以进行链接共享

这使得社交平台能够为平台上发布的每个链接生成可共享的预览。爬虫会提取标题、描述和缩略图图像。

如果爬取不在几秒钟内完成,Facebook 将不会在分享之前显示自定义摘要中的内容。

9. Exabot

Exabot 是 Exalead 的搜索引擎爬虫程序。 Exalead 是一家成立于 2000 年,总部位于法国巴黎的软件公司。该公司为消费者和企业客户提供搜索平台。

Exabot 是搜索平台公司 Exalead 的爬虫

Exabot 是 Exalead 核心搜索引擎的爬虫,构建在他们的 CloudView 产品上。

与大多数搜索引擎类似,Exalead 在排名时考虑到了后向链接和网页内容。Exabot 是 Exalead 机器人的用户代理。该机器人创建了一个“主索引”,其中编译了搜索引擎用户将看到的结果。

10. Swiftbot

Swiftype 是一个为您的网站提供定制搜索引擎的服务。它结合了“最佳的搜索技术、算法、内容摄取框架、客户端和分析工具”。

Swiftype 是一款可以为您的网站搜索提供支持的软件

如果您拥有一个复杂的网站,拥有许多页面,Swiftype 提供了一个方便的界面,可以为您对所有页面进行分类和索引。

Swiftbot 是 Swiftype 的网络爬虫。然而,与其他爬虫不同,Swiftbot 只会爬取他们的客户要求的网站。

11. Slurp Bot

Slurp Bot 是雅虎搜索引擎的爬虫机器人,用于抓取和索引页面以供雅虎使用。

Slurp Bot 是 Yahoo 搜索引擎的爬虫程序

这种抓取对于雅虎网站及其合作伙伴网站(包括雅虎新闻、雅虎财经和雅虎体育)都至关重要。没有它,相关的网站列表将无法显示。

索引的内容有助于为用户提供更个性化的网络体验,带来更相关的搜索结果。

12. CCBot

CCBot

CCBot 是由 Common Crawl 开发的一款基于 Nutch 的网络爬虫,Common Crawl 是一个致力于向企业、个人和所有对在线研究感兴趣的人免费提供互联网副本的非营利组织。该机器人使用 MapReduce 编程框架,使其能够将大量数据压缩成有价值的汇总结果。

得益于 CCBot,人们可以使用 Common Crawl 的数据来改进语言翻译软件并预测趋势。事实上,GPT-3 在很大程度上是基于他们的数据集进行训练的。

13. GoogleOther

GoogleOther 的推出确实是为了优化谷歌的网络爬虫功能。通过将部分任务从 Googlebot 上分离出来,GoogleOther 可以分担一部分爬取压力,从而提高整体效率。这种区分对于谷歌内部团队的工作也非常有益,因为它可以专注于特定的任务,如研究和开发爬取。

GoogleOther 和 Googlebot 都使用相同的基础设施,具有相同的功能和限制。然而,GoogleOther 主要用于谷歌内部团队,以便从公开可访问的网站上爬取内容。这样的设计有助于提高谷歌爬虫的灵活性,使其能够更好地满足不同类型的需求。

通过将研发爬取任务交给 GoogleOther,Googlebot 可以专注于与搜索索引直接相关的任务。这种分工有利于谷歌在搜索技术领域的持续创新,同时确保其网络爬虫能够高效地处理大量数据。

14. Google-InspectionTool

Google-InspectionTool 是谷歌推出的另一个网络爬虫,它也模仿了 Googlebot 的行为。这个爬虫主要用于谷歌搜索控制台(Search Console)中的搜索测试工具,如 URL 检查,以及其他谷歌属性,例如丰富结果测试(Rich Result Test)。

Google-InspectionTool 的主要目的是帮助网站开发者和所有者更好地理解他们的网站在谷歌搜索中的表现。通过这个工具,用户可以检查和诊断网站的各个方面,例如网站的可访问性、结构化数据、AMP 页面等。此外,Google-InspectionTool 还可以为用户提供有关网站在搜索结果中排名的详细信息,以及如何改进网站以获得更好排名的建议。

因此,当人们在日志文件中查看爬虫和机器人活动时,他们可能会发现 Google-InspectionTool 的存在。这个新的爬虫将有助于网站开发者和所有者更好地优化他们的网站,以便在谷歌搜索中取得更好的成绩。同时,这也表明谷歌在不断创新,为用户提供更多有用的工具来改善搜索体验。

SEO专业人士需要了解的 8 个商业网络爬虫

现在您已经了解了14个最受欢迎的网络爬虫,接下来让我们来看一下一些常见的商业网络爬虫和专业人士使用的SEO工具。

返回顶部