前言
Robots协议(也称为爬虫协议、机器人协议、爬虫规则等)——全称:“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。
搜索引擎机器人访问网站时,首先会寻找站点根目录有没有 robots.txt文件,如果有该文件就根据文件的内容确定收录范围,如果没有就按默认访问以及收录网站所有页面。通常我们都会填写好robots.txt 文件并将其添加至网站的根目录中,从而优化网站的收录结果和权重。
了解Robots协议的作用后,下面来看一下Wordpress为站点提供的默认robots.txt文件内容:
在浏览器中输入:http://你的域名/robots.txt,会显示如下内容:
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
作用:意思是告诉搜索引擎不要抓取后台程序文件。
注意:该robots.txt文件不真实存在,是Wordpress虚拟出来的,但可以正常访问。
关于 roboots.txt 的书写格式以及作用,可以查看百度的: robots.txt 配置教程。
创建规则
显然以上的规则是不完善的,下面给出一个比较完整的robots.txt文件参考内容,也是本站在使用的一个规则:
注: 仅限于Wordpress主题使用.....
在网站的根目录下创建一个robots.txt的文件,并将以下内容粘贴进去即可。
User-agent: *
Disallow: /wp-admin/
Disallow: /wp-content/
Disallow: /wp-includes/
Disallow: /*/comment-page-*
Disallow: /*?replytocom=*
Disallow: /*/trackback
Disallow: /feed
Disallow: /*/feed
Disallow: /comments/feed
Disallow: /*/*page/*
Disallow: /tag/*/page/
Disallow: /?s=*
Disallow: /*/?s=*\
Disallow: /attachment/
规则作用解释
User-agent: *
# 禁止搜索引擎抓取后台程序文件
Disallow: /wp-admin/
Disallow: /wp-content/
Disallow: /wp-includes/
# 禁止搜索引擎抓取收录评论分页等相关链接
Disallow: /*/comment-page-*
Disallow: /*?replytocom=*
# 禁止搜索引擎抓取收录trackback等垃圾信息
Disallow: /*/trackback
# 禁止搜索引擎抓取收录feed链接,feed只用于订阅本站,与搜索引擎无关
Disallow: /feed
Disallow: /*/feed
Disallow: /comments/feed
# 禁止搜索引擎抓取收录分类和标签的分页
Disallow: /*/*page/*
Disallow: /tag/*/page/
# 禁止搜索引擎抓取收录站内搜索结果
Disallow: /?s=*
Disallow: /*/?s=*\
# 禁止搜索引擎抓取收录附件页面,例:一些毫无意义的图片附件页面等
Disallow: /attachment/
# 注本代码为规则语意解析代码。不建议直接使用,正确的书写格式参考上文。