robots.txt正确写法和注意事项!

2016-05-26 20:16 阅读 3,427 次 评论 1 条

今天沈阳SEO为大家带来的是robots.txt的正确写法及一些需要我们注意的问题,一个网站要想让蜘蛛正常访问抓取一个重要的因素就是robots,因为robots协议是网站和搜索引擎的协议文件,他会告诉蜘蛛网站的哪些文件可以抓取,哪些文件不可以抓取。

robots的正确写法

因为,蜘蛛爬行网站时的首先就要访问的robots文件的,所以,robots写的是否准确直接决定网站是否能被蜘蛛正常抓取。robots文件是在上线之前就应该写好的,写好以后放到网站根目录上就可以了。下面沈阳SEO就给大家详细的一下robots文件的正确写法:

一、robots语法

首先先给大家介绍几个robots中用到的名词:

1、User-agent:意思是定义搜索引擎类型

因为搜索引擎有好几种有:百度蜘蛛:Baiduspider;谷歌蜘蛛:Googlebot;360蜘蛛:360Spider;SOSO蜘蛛:Sosospider;有道蜘蛛:YoudaoBot;搜狗蜘蛛:Sogou News Spider

一般没有特殊要求的话,正确写法是:User-agent: *   意思是允许所有搜索引擎来抓取。这是robots.txt文件中第一行的写法。

2、Disallow:意思是定义禁止抓取的地址

就是禁止蜘蛛抓取的地址,在我们的网站是静态或伪静态的时候一般网站要禁止蜘蛛抓取动态路径(?)、.js、后台的文件等一些不想让蜘蛛抓取的文件。我拿我的博客站为例,它的正确的写法如下:

Disallow: /      禁止蜘蛛抓取整站(一定不能这么写)
Disallow: /wp-admin/ 禁止抓取网站中带wp-admin的文件夹。
Disallow: /page/   禁止抓取网站中带page的文件夹。
Disallow: /*?*    禁止抓取网站中的所有动态路径。
Disallow: /.js$    禁止抓取网站中的所有带.js的路径。
Disallow: /*.jpeg$  禁止抓取网站中所有jpeg图片
3、Allow:意思是定义允许抓取收录地址

这个就不需要多说了就是允许的意思,在robots文件中不写Allow意思就是默认的允许。大家不必再写了。

4、认识一些语法符号
/ 如果只是一个单个/,搜索引擎会认为是根目录
* 是所有的意思;例如:Disallow: /*.jpeg$ 是禁止抓取网站中所有jpeg图片
$ 是结束符 

二、什么情况下使用

1、可以屏蔽死链接
2、可以屏蔽无内容页面和重复页面(统一路径 动态和静态)
3、可以屏蔽多路径的同一页面
4、中文链接
5、根据情况,不想让网站收的文件 隐私文件 会员

三、需要注意的细节: 

1、一定不要写绝对路径,就是不要带我们网站域名。用/代替就可以。 
2、注意robots文件中的所有符号都是在英文状态下写的,比如:Disallow: /wp-admin/ 中“:”是英文状态下的。
3、注意空格;例如:Disallow: /wp-admin/ 中":"后面紧跟着是一个空格;
4、注意大小写;例如:Disallow: /wp-admin/中Disallow的“D”是大写的。
5、robots是有生效时间的,是由百度决定的,几天或者两个月以内,所以,一定不要随便屏蔽整站。
6、还有一点要弄清楚的就是:
Disallow: /help 意思是禁止蜘蛛访问/help.html、/helpabc.html、/help/index.html所有的带help的文件及文件夹。
Disallow: /help/则是禁止蜘蛛访问/help/index.html这种形式的路径,允许访问/help.html、/helpabc.html,这两个是不一样的,大家要记清楚。

上述的就是今天沈阳SEO为大家分享的robots.txt正确的写法和要注意的问题,这也是SEO基础优化操作的一项重要的优化操作,希望大家都能学会。感谢大家阅读!


版权声明:本文著作权归原作者所有,欢迎分享本文,谢谢支持!
转载请注明:robots.txt正确写法和注意事项! | 沈阳SEO
分类:seo技术 标签:

发表评论


表情

 1. 恒泰
  恒泰 【农民】 @回复

  踩一下