什么是 robots.txt

robots.txt(统一小写)是一种存放于网站根目录下的 ASCII 编码的文本文件,它通常告诉网络搜索引擎的爬虫(又称网络蜘蛛),此网站中的哪些内容是不应被搜索引擎的爬虫获取的,哪些是可以被爬虫获取的。因为一些系统中的 URL 是大小写敏感的,所以robots.txt 的文件名应统一为小写。robots.txt 应放置于网站的根目录下。如果想单独定义搜索引擎的漫游器访问子目录时的行为,那么可以将自定的设置合并到根目录下的 robots.txt,或者使用 robots 元数据(Metadata,又称元数据)。

robots.txt 协议并不是一个规范,而只是约定俗成的,所以并不能保证网站的隐私。注意 robots.txt 是用字符串比较来确定是否获取 URL,所以目录末尾有与没有斜杠“/”表示的是不同的 URL。

这个协议也不是一个规范,而只是约定俗成的,有些搜索引擎会遵守这一规范,有些则不然。通常搜索引擎会识别这个元数据,不索引这个页面,以及这个页面的链出页面。

robots.txt 的文件要求

  • 文件大小不超过 500 KB。

  • 它是一个名为“robots”的 txt 文件,文件名为:robots.txt。

  • 该文件位于站点的根目录中。

  • 该文件可用于爬虫:托管站点的服务器使用状态为 200 OK 的 HTTP 代码进行响应。

  • robots.txt 文件可被爬虫读取。

robots.txt 文件内容解释

  • User-agent *:表示 robots.txt 中列出的规则适用的机器人。

  • Disallow:禁止索引站点部分或单个页面。

  • Sitemap:指定发布在站点上的站点地图文件的路径。

  • Clean-param:向机器人指示页面 URL 包含索引时应忽略的参数(如 UTM 标记)。

  • Allow:允许索引站点部分或单个页面。

  • Crawl-delay:指定搜索机器人在加载一个页面后等待开始加载另一个页面的最小时间间隔(以秒为单位)。

* 强制性指令。

使用西里尔字符

robots.txt 文件和服务器 HTTP 标头中不允许使用西里尔字母。

对于域名,请使用 Punycode。对于页面地址,使用与当前站点结构相同的编码。

robots.txt 文件示例:

# 错误:
User-agent: Yandex
Disallow: /корзина
Sitemap: сайт.рф/sitemap.xml

# 正确:
User-agent: Yandex
Disallow: /%D0%BA%D0%BE%D1%80%D0%B7%D0%B8%D0%BD%D0%B0
Sitemap: http://xn--80aswg.xn--p1ai/sitemap.xml

如何创建 robots.txt 文件

  • 在文本编辑器中,创建一个名为 robots.txt 的文件并在其中添加您需要的指令。

  • 将文件放到站点的根目录中。

示例文件,该文件允许为所有搜索引擎索引整个站点。

这篇文章是否对您有帮助?
如何改善这篇文章,使其对你更有帮助?
很有帮助
没有帮助

服务器出现错误,请稍后再试!