搜索引擎与爬虫

关于 Neevabot

关于 Neevabot

Snowflake 宣布将于 2023 年 5 月收购专注于隐私的搜索初创公司 Neeva。

Snowflake 收购 Neeva 之后,Neeva 的搜索引擎爬虫 Neevabot 没有活跃的迹象。

Neevabot 是搜索引擎 neeva.com 的网络爬虫。

来自 Neevabot 的请求将用户代理设置为:

Mozilla/5.0 (compatible; Neevabot/1.0; +https://neeva.com/neevabot)

我们可以通过反向 DNS 查找主机名,示例如下:

$ host 100.26.127.17
17.127.26.100.in-addr.arpa domain name pointer 100-26-127-17.neevabot.com

Neevabot 遵守 robots.txt 协议。

例如,以下内容将允许 Neevabot 抓取除 /private/ 下的页面之外的所有页面:

User-Agent: Neevabot
Allow: /
Disallow: /private/

Neevabot 还支持 robots.txt 文件中的抓取延迟指令。 它将值解释为连续请求开始之间的最短持续时间(以秒为单位)。

例如,假设您在 robots.txt 文件中指定了以下内容:

User-Agent: Neevabot
Crawl-delay: 5

Neevabot 会将每天分成 5 秒的时间间隔,并在每个时间间隔内最多向您的域发出一个请求。

如果没有针对 Neevabot 的规则,但有针对 Googlebot 的规则,则 Neevabot 将遵循 Googlebot 指令。

例如,Neevabot 将使用以下 robots.txt 获取除 /private/ 下的页面之外的所有页面:

User-Agent: *
Disallow: /
User-Agent: Googlebot
Allow: /
Disallow: /private/