前言

Robots协议(也称为爬虫协议、机器人协议、爬虫规则等)——全称:“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。

搜索引擎机器人访问网站时,首先会寻找站点根目录有没有 robots.txt文件,如果有该文件就根据文件的内容确定收录范围,如果没有就按默认访问以及收录网站所有页面。通常我们都会填写好robots.txt 文件并将其添加至网站的根目录中,从而优化网站的收录结果和权重。

了解Robots协议的作用后,下面来看一下Wordpress为站点提供的默认robots.txt文件内容:
在浏览器中输入:http://你的域名/robots.txt,会显示如下内容:

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

作用:意思是告诉搜索引擎不要抓取后台程序文件。
注意:该robots.txt文件不真实存在,是Wordpress虚拟出来的,但可以正常访问。
关于 roboots.txt 的书写格式以及作用,可以查看百度的: robots.txt 配置教程

创建规则

显然以上的规则是不完善的,下面给出一个比较完整的robots.txt文件参考内容,也是本站在使用的一个规则:
注: 仅限于Wordpress主题使用.....

在网站的根目录下创建一个robots.txt的文件,并将以下内容粘贴进去即可。

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-content/
Disallow: /wp-includes/
Disallow: /*/comment-page-*
Disallow: /*?replytocom=*
Disallow: /*/trackback
Disallow: /feed
Disallow: /*/feed
Disallow: /comments/feed
Disallow: /*/*page/*
Disallow: /tag/*/page/
Disallow: /?s=*
Disallow: /*/?s=*\
Disallow: /attachment/

规则作用解释

User-agent: *

# 禁止搜索引擎抓取后台程序文件
Disallow: /wp-admin/
Disallow: /wp-content/
Disallow: /wp-includes/

# 禁止搜索引擎抓取收录评论分页等相关链接
Disallow: /*/comment-page-*
Disallow: /*?replytocom=*

# 禁止搜索引擎抓取收录trackback等垃圾信息
Disallow: /*/trackback

# 禁止搜索引擎抓取收录feed链接,feed只用于订阅本站,与搜索引擎无关
Disallow: /feed
Disallow: /*/feed
Disallow: /comments/feed

# 禁止搜索引擎抓取收录分类和标签的分页
Disallow: /*/*page/*
Disallow: /tag/*/page/

# 禁止搜索引擎抓取收录站内搜索结果
Disallow: /?s=*
Disallow: /*/?s=*\

# 禁止搜索引擎抓取收录附件页面,例:一些毫无意义的图片附件页面等
Disallow: /attachment/

# 注本代码为规则语意解析代码。不建议直接使用,正确的书写格式参考上文。
最后修改:2022 年 06 月 09 日
如果觉得我的文章对你有用,请随意赞赏