搜索引擎与爬虫

爬虫列表:网络爬虫以及我们如何利用网络爬虫

crawler list

对于大多数网络优化人员来说,需要不断更新网站以保持新鲜并提高 SEO 排名。

然而,有些网站拥有数百甚至数千个页面,这对手动推送更新至搜索引擎的团队来说是一个挑战。如果内容频繁更新,团队如何确保这些改进对其 SEO 排名产生影响呢?

这就是爬虫机器人的作用。网络爬虫机器人将扫描您的站点地图以获取新的更新并将内容索引到搜索引擎中。

在本文中,我们将列出一个全面的爬虫列表,涵盖您需要了解的所有网络爬虫机器人。在我们深入研究之前,让我们定义一下网络爬虫机器人,并展示它们的工作原理。

什么是网络爬虫?

网络爬虫是一种计算机程序,它会自动扫描和系统地读取网页,以便将页面索引到搜索引擎中。网络爬虫也被称为蜘蛛或机器人。

为了向发起搜索的用户呈现最新和相关的网页,必须进行来自网络爬虫机器人的抓取。这个过程有时会自动发生(取决于爬虫和您的站点的设置),或者可以直接启动。

许多因素会影响您的页面的SEO排名,包括相关性、反向链接、网络主机等等。然而,如果您的页面没有被搜索引擎抓取和索引,这些因素都无关紧要。这就是为什么确保您的站点允许正确的抓取发生并消除任何障碍至关重要。

机器人必须不断扫描和抓取网络,以确保呈现最准确的信息。谷歌是美国访问量最大的网站,大约有26.9%的搜索来自美国用户:

美国用户搜索量

然而,并没有一个能够为所有搜索引擎进行抓取的网络爬虫。每个搜索引擎都有独特的优势,因此开发人员和营销人员有时会编制一个“爬虫列表”。这个爬虫列表可以帮助他们在站点日志中识别不同的爬虫,以接受或阻止它们。

营销人员需要组建一个包含不同网络爬虫的爬虫列表,并了解它们如何评估自己的站点(与窃取内容的内容抓取器不同),以确保正确地为搜索引擎优化其落地页。

网络爬虫是如何工作的?

网络爬虫在发布网页后会自动扫描您的网页并对数据进行索引。

网络爬虫会查找与网页相关的特定关键词,并将这些信息索引给像谷歌、必应等相关的搜索引擎。

网络爬虫工作方式

搜索引擎的算法将在用户提交与相关关键词相关的查询时检索这些数据。

抓取从已知的URL开始。这些是具有各种信号的已建立的网页,用于引导网络爬虫访问这些页面。这些信号可能包括:

  • 反向链接:指向该页面的次数
  • 访问者:访问该页面的流量量
  • 权威域:域名的整体质量

然后,它们将数据存储在搜索引擎的索引中。当用户发起搜索查询时,算法将从索引中获取数据,并在搜索引擎结果页面上显示。这个过程可能在几毫秒内发生,所以结果通常会很快显示出来。

作为网站管理员,您可以控制哪些机器人抓取您的站点。这就是为什么拥有一个爬虫列表非常重要。它是存放在每个站点服务器中的robots.txt协议,指导爬虫访问需要进行索引的新内容。

通过了解网络爬虫在扫描中寻找什么,您可以了解如何更好地为搜索引擎定位您的内容。

编制您的爬虫列表:什么是不同类型的网络爬虫?

在开始考虑编制您的爬虫列表时,有三种主要类型的爬虫值得关注。它们包括:

  • 内部爬虫:这些是由公司的开发团队设计的爬虫,用于扫描其站点。通常用于站点审核和优化。
  • 商业爬虫:这些是定制构建的爬虫,例如Screaming Frog,公司可以使用它们来爬行并高效评估其内容。
  • 开源爬虫:这些是由全球各地的各种开发人员和黑客构建的免费使用的爬虫。

了解存在的不同类型的爬虫很重要,这样您就知道自己需要利用哪种类型来实现自己的业务目标。

将最常见的13个网络爬虫添加到您的爬虫列表中

并没有一个爬虫可以为所有搜索引擎完成所有工作。

相反,有多种网络爬虫用于评估您的网页并扫描内容,以适应全球用户使用的所有搜索引擎。

让我们来看一下今天最常见的一些网络爬虫。

1. Googlebot

Googlebot 是谷歌的通用网络爬虫,负责抓取将出现在谷歌搜索引擎上的网站。

Googlebot 索引站点以提供最新的 Google 结果

尽管技术上存在两个版本的 Googlebot —— Googlebot Desktop 和 Googlebot Smartphone(移动版),但大多数专家认为 Googlebot 是一个单一的爬虫。

这是因为这两个版本都遵循写在每个网站的 robots.txt 中的同一唯一产品标记(称为用户代理标记)。Googlebot 的用户代理标记就是“Googlebot”。

Googlebot 开始工作后,通常每隔几秒钟访问您的网站(除非您在网站的 robots.txt 中阻止它)。扫描页面的备份会保存在一个名为 Google Cache 的统一数据库中,这使您可以查看您网站的旧版本。

此外,Google 搜索控制台也是网站管理员使用的另一个工具,用于了解 Googlebot 如何抓取他们的网站,并优化其页面以供搜索使用。

2. Bingbot

Bingbot 是由微软于 2010 年创建的,用于扫描和索引 URL,以确保 Bing 为该平台的用户提供相关的、最新的搜索引擎结果。

Bingbot 为 Bing 提供相关的搜索引擎结果

与 Googlebot 类似,开发人员或营销人员可以在其网站的 robots.txt 中定义是否批准或拒绝代理标识符 “bingbot” 来扫描其网站。

此外,他们还可以区分移动优先索引爬虫和桌面爬虫,因为 Bingbot 最近切换到了新的代理类型。这个特性以及 Bing 站长工具使网站管理员能够更灵活地展示他们的网站如何在搜索结果中被发现和展示。

3. Yandex Bot

Yandex Bot 是专门针对俄罗斯搜索引擎 Yandex 的爬虫。Yandex 是俄罗斯最大、最受欢迎的搜索引擎之一。

Yandex Bot 是俄罗斯搜索引擎 Yandex 的爬虫程序

网站管理员可以设置 robots.txt 文件,以允许 Yandex Bot 对网站的访问。

此外,他们还可以在特定页面上添加 Yandex.Metrica 标签,在 Yandex Webmaster 中重新索引页面,或发出 IndexNow 协议,这是一个指出新页面、修改页面或停用页面的独特报告。

4. Apple Bot

Apple Bot 来为苹果的 Siri 和 Spotlight 建议功能爬取和索引网页。

Apple Bot 是 Apple 的 Siri 和 Spotlight 的网络爬虫

Apple Bot 在决定在 Siri 和 Spotlight 建议中采用哪些内容时会考虑多个因素。这些因素包括用户参与度、搜索词的相关性、链接的数量/质量、基于位置的信号,甚至包括网页设计。

5. DuckDuck Bot

DuckDuckBot 是 DuckDuckGo 的网络爬虫,DuckDuckGo 提供“无缝的隐私保护,适用于您的网络浏览器”。

DuckDuck Bot 为 DuckDuckGo 提供索引爬虫服务

网站管理员可以使用 DuckDuckBot API 来查看 DuckDuckBot 是否已经爬取了他们的网站。在爬取过程中,它会将最近的 IP 地址和用户代理更新到 DuckDuckBot API 数据库中。

这有助于网站管理员识别任何冒充者或试图与 DuckDuckBot 关联的恶意机器人。

6. Baidu Spider

百度是中国领先的搜索引擎,而百度蜘蛛(Baidu Spider)则是该网站唯一的爬虫。

Baidu Spider 是百度搜索引擎额爬虫程序

由于谷歌在中国被禁,如果您想进入中国市场,启用百度蜘蛛来爬取您的网站就非常重要。

要识别访问您的站点的百度蜘蛛,请查找以下用户代理:baiduspider、baiduspider-image、baiduspider-video 等。

但是有很多爬虫会通过为找 Baidu Spider 来恶意抓取您的网站,您可以通过爬虫识别查询 IP 地址,判断爬虫是不是属于百度。

7. Sogou Spider

Sogou Spider 是搜狗搜索引擎的爬虫程序。搜狗是一家中国搜索引擎,据报道是第一个拥有 100 亿个中文页面索引的搜索引擎。

Sogou Spider 是搜狗搜索引擎的爬虫程序

如果您在中国市场开展业务,这是另一个您需要了解的流行搜索引擎爬虫。搜狗蜘蛛会遵循机器人排除文本和爬取延迟参数。

8. Facebook External Hit

Facebook External Hit,也称为 Facebook Crawler,会爬取在 Facebook 上分享的应用程序或网站的 HTML 内容。

Facebook External Hit 索引站点以进行链接共享

这使得社交平台能够为平台上发布的每个链接生成可共享的预览。爬虫会提取标题、描述和缩略图图像。

如果爬取不在几秒钟内完成,Facebook 将不会在分享之前显示自定义摘要中的内容。

9. Exabot

Exabot 是 Exalead 的搜索引擎爬虫程序。 Exalead 是一家成立于 2000 年,总部位于法国巴黎的软件公司。该公司为消费者和企业客户提供搜索平台。

Exabot 是搜索平台公司 Exalead 的爬虫

Exabot 是 Exalead 核心搜索引擎的爬虫,构建在他们的 CloudView 产品上。

与大多数搜索引擎类似,Exalead 在排名时考虑到了后向链接和网页内容。Exabot 是 Exalead 机器人的用户代理。该机器人创建了一个“主索引”,其中编译了搜索引擎用户将看到的结果。

10. Swiftbot

Swiftype 是一个为您的网站提供定制搜索引擎的服务。它结合了“最佳的搜索技术、算法、内容摄取框架、客户端和分析工具”。

Swiftype 是一款可以为您的网站搜索提供支持的软件

如果您拥有一个复杂的网站,拥有许多页面,Swiftype 提供了一个方便的界面,可以为您对所有页面进行分类和索引。

Swiftbot 是 Swiftype 的网络爬虫。然而,与其他爬虫不同,Swiftbot 只会爬取他们的客户要求的网站。

11. Slurp Bot

Slurp Bot 是雅虎搜索引擎的爬虫机器人,用于抓取和索引页面以供雅虎使用。

Slurp Bot 是 Yahoo 搜索引擎的爬虫程序

这种抓取对于雅虎网站及其合作伙伴网站(包括雅虎新闻、雅虎财经和雅虎体育)都至关重要。没有它,相关的网站列表将无法显示。

索引的内容有助于为用户提供更个性化的网络体验,带来更相关的搜索结果。

12. CCBot

CCBot

CCBot 是由 Common Crawl 开发的一款基于 Nutch 的网络爬虫,Common Crawl 是一个致力于向企业、个人和所有对在线研究感兴趣的人免费提供互联网副本的非营利组织。该机器人使用 MapReduce 编程框架,使其能够将大量数据压缩成有价值的汇总结果。

得益于 CCBot,人们可以使用 Common Crawl 的数据来改进语言翻译软件并预测趋势。事实上,GPT-3 在很大程度上是基于他们的数据集进行训练的。

13. GoogleOther

GoogleOther 的推出确实是为了优化谷歌的网络爬虫功能。通过将部分任务从 Googlebot 上分离出来,GoogleOther 可以分担一部分爬取压力,从而提高整体效率。这种区分对于谷歌内部团队的工作也非常有益,因为它可以专注于特定的任务,如研究和开发爬取。

GoogleOther 和 Googlebot 都使用相同的基础设施,具有相同的功能和限制。然而,GoogleOther 主要用于谷歌内部团队,以便从公开可访问的网站上爬取内容。这样的设计有助于提高谷歌爬虫的灵活性,使其能够更好地满足不同类型的需求。

通过将研发爬取任务交给 GoogleOther,Googlebot 可以专注于与搜索索引直接相关的任务。这种分工有利于谷歌在搜索技术领域的持续创新,同时确保其网络爬虫能够高效地处理大量数据。

14. Google-InspectionTool

Google-InspectionTool 是谷歌推出的另一个网络爬虫,它也模仿了 Googlebot 的行为。这个爬虫主要用于谷歌搜索控制台(Search Console)中的搜索测试工具,如 URL 检查,以及其他谷歌属性,例如丰富结果测试(Rich Result Test)。

Google-InspectionTool 的主要目的是帮助网站开发者和所有者更好地理解他们的网站在谷歌搜索中的表现。通过这个工具,用户可以检查和诊断网站的各个方面,例如网站的可访问性、结构化数据、AMP 页面等。此外,Google-InspectionTool 还可以为用户提供有关网站在搜索结果中排名的详细信息,以及如何改进网站以获得更好排名的建议。

因此,当人们在日志文件中查看爬虫和机器人活动时,他们可能会发现 Google-InspectionTool 的存在。这个新的爬虫将有助于网站开发者和所有者更好地优化他们的网站,以便在谷歌搜索中取得更好的成绩。同时,这也表明谷歌在不断创新,为用户提供更多有用的工具来改善搜索体验。

SEO专业人士需要了解的 8 个商业网络爬虫

现在您已经了解了14个最受欢迎的网络爬虫,接下来让我们来看一下一些常见的商业网络爬虫和专业人士使用的SEO工具。

1. Ahrefs Bot

Ahrefs Bot 是一个网页爬虫,用于编制和索引SEO软件Ahrefs提供的12万亿链接数据库。

Ahrefs Bot 是一个用户站点索引的 SEO 工具

Ahrefs Bot 每天访问 60 亿个网站,被认为是仅次于 Googlebot 的"第二活跃的爬虫"。

与其他爬虫类似,Ahrefs Bot 遵循 robots.txt 功能,并允许/禁止每个网站代码中的规则。

2. Semrush Bot

Semrush Bot 使得领先的 SEO 软件 Semrush 能够收集和索引网站数据,以供其客户在其平台上使用。

Semrush Bot 是 Semrush 的爬虫工具,负责访问网站并收集相关数据。通过爬取网页内容、链接和其他关键信息,Semrush Bot 可以为 Semrush 的用户提供全面的网站分析和竞争对手情报。这些数据可以用于优化网站、制定 SEO 策略和改进搜索引擎排名。

Semrush Bot 遵循网站的 robots.txt 规则,并遵守用户设置的爬取参数。通过使用 Semrush Bot,用户可以获得准确的网站数据和有价值的见解,以便在 Semrush 平台上进行深入的 SEO 分析和决策。

Semrush Bot 是 Semrush SEO 工具用于索引网站的爬虫程序

这些数据被用于 Semrush 的公共反向链接搜索引擎、站点审核工具、反向链接审核工具、链接建设工具和写作助手。

Semrush Bot 通过编制一个网页URL列表,访问这些网页并保存一些超链接以供将来访问来对您的网站进行爬取。这些数据可以被应用于 Semrush 的各种工具和功能,包括反向链接搜索、站点审核、反向链接审核、链接构建和写作助手等。

3. Moz 的活动爬虫 Rogerbot

Moz 的活动爬虫 Rogerbot 是 Moz 的一个工具,用于进行站点审核和收集内容。

Rogerbot 遵循 robots.txt 文件中设定的规则,因此您可以决定是否允许或阻止 Rogerbot 扫描您的网站。

由于 Rogerbot 采用了多方面的方法,因此网站管理员无法通过搜索静态IP地址来查看 Rogerbot 已爬取的页面。

Rogerbot 是 Moz SEO 工具的爬虫程序

4. Screaming Frog

Screaming Frog 是一款由 SEO 专业人士用于审核自己网站并识别需要改进的方面以影响搜索引擎排名的爬虫工具。

通过启动一次爬行,您可以实时查看数据并确定需要改进的地方,例如损坏的链接、页面标题、元数据、robots 文件、重复内容等。

为了配置爬行参数,您需要购买 Screaming Frog 的许可证。这将使您能够自定义爬行的设置,包括起始 URL、爬行限制、最大爬行速度等,以满足您的特定需求和目标。使用 Screaming Frog,SEO 专业人士可以深入了解他们的网站,并发现可以提升搜索引擎排名的优化机会。

Screaming Frog 是一款由 SEO 专业人士用于审核自己网站并识别需要改进的方面以影响搜索引擎排名的爬虫工具

5. Lumar (前身为Deep Crawl)

Lumar(前身为Deep Crawl)是一个"集中式命令中心,用于维护您的网站技术健康"的平台。

借助 Lumar,您可以对网站进行爬行,以帮助您规划网站架构。它提供了强大的爬行功能和分析工具,可以深入检查网站的各个方面,包括链接、内容、标记和技术元素等。通过对网站进行全面的爬行和分析,Lumar 可以提供有关网站健康状况和潜在问题的详细洞察。

Lumar 自豪地宣称自己是市场上"最快速的网站爬虫",可以每秒爬取高达450个URL。这意味着它可以在较短的时间内快速扫描大量的网页,并为用户提供及时的数据和分析结果。

通过 Lumar,用户可以了解网站的技术状况,并发现需要改进的地方,以优化用户体验、提升搜索引擎排名和增加网站流量。作为一个强大而全面的工具,Lumar 帮助用户监控和维护网站的技术健康,并为其提供优化建议和行动计划。

Deep Crawl 已更名为网站情报爬虫 Lumar

6. Majestic

Majestic 主要专注于跟踪和识别URL上的反向链接。

Majestic 是一个知名的 SEO 工具,以其全面的反向链接数据而闻名。它提供了一个庞大的反向链接数据库,使用户能够了解其网站在其他网站上的链接情况。

通过 Majestic,用户可以查找和分析与其网站相关的反向链接。它提供了有关反向链接的关键指标,如链接数量、域名的数量、链接的质量和可信度等等。这些数据对于SEO专业人士来说非常有价值,因为反向链接在搜索引擎排名和网站权威性方面起着重要的作用。

Majestic 的功能还包括反向链接分析、竞争对手研究、链接机会发现和监测等。它的历史索引涵盖了多年的链接数据,这使得用户可以追溯链接的演变和变化。

通过 Majestic 提供的反向链接数据,用户可以了解其网站在互联网上的链接情况,并根据这些信息制定优化策略,改进网站的链接配置和搜索引擎排名。

Majestic 是一个知名的 SEO 工具

7. cognitiveSEO

cognitiveSEO 是另一个重要的 SEO 软件,被许多专业人士使用。

cognitiveSEO 是一款功能强大的 SEO 工具,旨在帮助用户提升其网站在搜索引擎结果中的可见性和排名。它提供了广泛的功能和分析工具,以帮助用户进行综合的 SEO 优化。

cognitiveSEO 的关键功能之一是其网站爬虫。通过该爬虫,用户可以进行全面的网站审核,识别并修复影响搜索引擎排名的问题。爬虫会遍历网站的各个页面,收集关键数据,并提供给用户一套定制的数据报告。这些报告可以包括页面优化建议、链接分析、竞争对手研究和关键词排名监测等内容。

除了网站爬虫,cognitiveSEO 还提供其他强大的功能,如关键词研究工具、竞争对手分析、反向链接分析和排名跟踪等。这些工具可以帮助用户了解其目标关键词的竞争状况,发现链接建设机会,并跟踪其网站在搜索引擎中的排名变化。

总之,cognitiveSEO 是一款全面的 SEO 软件,它为用户提供了许多工具和功能,帮助他们优化网站、提升搜索引擎排名,并获得更多的有机流量。

cognitiveSEO 是一款功能强大的 SEO 工具

8. Oncrawl

Oncrawl 是一款专为企业级客户设计的“行业领先的SEO爬虫和日志分析工具”。

Oncrawl 提供了强大的爬虫功能,可对网站进行全面的审核和分析。它遍历网站的各个页面,收集关键数据,并提供深入的技术和内容分析报告。这些报告可以帮助企业客户识别网站中的问题和机会,并制定相应的 SEO 优化策略。

除了网站爬虫,Oncrawl 还具备日志分析的能力。通过分析网站服务器上的日志文件,Oncrawl 可以提供关于网站访问和搜索引擎爬取行为的详细见解。这些信息对于企业客户来说非常有价值,可以帮助他们了解用户行为、识别技术问题和优化网站结构。

Oncrawl 的功能还包括网站架构分析、内部链接优化、页面级别 SEO 优化和关键词研究等。它提供了直观而全面的报告和可视化工具,帮助企业客户理解其网站的现状,并采取相应的行动。

总的来说,Oncrawl 是一款专业级的SEO工具,为企业级客户提供了强大的爬虫和日志分析功能,以支持他们的 SEO 优化和网站性能提升。

Oncrawl 是一款专为企业级客户设计的“行业领先的SEO爬虫和日志分析工具”

您是否需要保护网站免受恶意网络爬虫的侵害?

保护网站免受恶意网络爬虫的侵害是很重要的。尽管大多数网络爬虫是为了收集和索引网页内容而设计的,但有一些恶意爬虫可能会对您的网站造成负面影响。

恶意网络爬虫可能会导致以下问题:

  • 影响网站性能:某些恶意爬虫可能会以异常高的频率请求您的网站页面,导致服务器过载和网站性能下降。这可能导致网站变得缓慢或无法正常访问。

  • 盗取数据:恶意爬虫可能会尝试窃取您的网站上的敏感数据,如个人信息、登录凭据或其他重要数据。这可能对您和您的用户的隐私和安全构成威胁。

  • 破坏网站结构:某些恶意爬虫可能会试图通过大量请求或非法操作来破坏您的网站结构。这可能导致页面错误、链接损坏或其他功能故障。

为了保护您的网站免受恶意爬虫的影响,您可以采取以下措施:

  • 使用robots.txt文件:通过正确配置robots.txt文件,您可以指示爬虫哪些页面可以访问,哪些页面应该被排除。这可以帮助您控制允许访问您网站的爬虫类型。

  • IP 封锁或访问控制:您可以使用IP封锁或其他访问控制措施来限制只有特定IP地址或IP地址范围的爬虫才能访问您的网站。

  • 基于用户代理(User-Agent)的过滤:某些恶意爬虫可能伪装成常见的爬虫或浏览器,您可以使用用户代理过滤来检测和阻止这些恶意爬虫。

  • 使用CAPTCHA验证:为了识别和阻止自动化爬虫,您可以使用CAPTCHA验证来确保只有真实的用户能够访问您的网站。

  • 实时监控和日志分析:定期监控您的网站流量和日志,以识别异常活动或潜在的恶意爬虫,并及时采取相应的防护措施。

综上所述,保护网站免受恶意网络爬虫的侵害是至关重要的,采取适当的安全措施可以帮助保护您的网站的可用性、