如何通过 robots 协议屏蔽 Googlebot

robots.txt 是一种遵循漫游器排除标准的纯文本文件,由一条或多条规则组成。每条规则可禁止或允许特定抓取工具抓取相应网站的指定文件路径下的文件。除非您在 robots.txt 文件中另行指定,否则所有文件均隐式允许抓取。

下面是一个包含两条规则的简单 robots.txt 文件:

 User-agent: Googlebot
 Disallow: /nogooglebot/

 User-agent: *
 Allow: /

 Sitemap: http://www.example.com/sitemap.xml

以下是该 robots.txt 文件的含义:

  1. 名为 Googlebot 的用户代理不能抓取任何以http://example.com/nogooglebot/开头的网址。

  2. 所有其他用户代理均可抓取整个网站。不指定这条规则也无妨,结果是一样的;默认行为是用户代理可以抓取整个网站。

  3. 该网站的站点地图文件路径为 http://www.example.com/sitemap.xml

这篇文章是否对您有帮助?
如何改善这篇文章,使其对你更有帮助?
很有帮助
没有帮助

服务器出现错误,请稍后再试!