当前位置:首页 > SEO教程 > SEO代码优化 > 正文

什么是robots.txt文件如何写robots.txt

  • 2018-06-23 16:35:39
  • 评论(0
  • 阅读(3
什么是robots.txt
robots.txt是搜索引擎访问网站首先要产看的文件,它是网站和搜索引擎之间的一个协议。告诉搜索引擎哪些文件可以抓取,那些文件不能抓取。这个协议对大多数搜索引擎都是起作用的。
Robots.txt的语法结构
User-agent:后面放的是搜索蜘蛛的名称,如果使用“*”表示对所有搜索引擎有效,”*”是通配符。如果只是对一种搜素引擎进行限制,那么就只需要填写限制的那个名字即可。
Disallow:后面跟的是不希望搜索引擎抓取的内容,直接加上相关的路径即可。例如:disallow:/abc 表示禁止搜索引擎抓取abc所包含的所有目录文件。
Allow:后面跟的是允许搜索引擎抓取的内容,写法和disallow一致。
“*”通配符,表示可以任意字符
“$”通配符,表示行结束符。
Robots.txt文件在SEO中有什么作用
1.网站中的文件多种多样,但是并非都是搜索引擎所需要的,或者说网站的内容并不需要都让搜索引擎抓取。个别内容只是网站本身的程序文件或者网站内部文件,对搜索引擎和用户来说并没有什么用处。因此,我们需要把它屏蔽掉。
2.为了提高搜索引擎的工作效率,节省搜索引擎蜘蛛的爬行时间,让搜索引擎把更多的时间用在最需要被抓取的内容方面,这样以来不但增强了网站对于搜索引擎的友好性还有利于网站的优化。让搜索引擎抓取更多有价值内容,提高网站收录量。
3.还有一部分网站并希望搜索引擎抓取网站上的内容,就可以使用robots.txt文件屏蔽所有搜索引擎,从而保护网站的隐私和网站权益。例如:淘宝就屏蔽了百度的索引。

Robots.txt用法
例如:如果想屏蔽所有搜索引擎收录网站可以使用
User-agent:*
Disallow:/
允许所有搜索引擎访问网站
User-agent:*
Allow:/
仅禁止360抓取本网站内容
User-agent:360spider
Disallow:/
禁止所有搜索引擎抓取特定的文件目录
User-agent:*
Disallow:/abc/
禁止所有搜索引擎蜘蛛抓取某目录下以.htm为结尾的url文件
User-agent:*
Disallow:/abc/*.htm
禁止所有搜索引擎抓取网站的所有图片
User-agent:*
Disallow:/*.jpg$
Disallow:/*.gif$
Disallow:/*.png$
通常情况下我们可以屏蔽网站的后台文件,以及一些js文件,安装文件,数据库文件、模板文件等。然后将robots.txt文件上传到网站的根目录即可。
Robots.txt使用误区
  1. 认为允许所有的搜索引擎抓取网站的所有文件,会增加网站的收录量,这个想法是错误的。收录量的增加和网站的本身内容质量有关系,不给网站添加robots.txt文件不但不利于收录,还会增加搜索引擎蜘蛛的工作负担,降低网站对搜索引擎的友好度。
  2. Disllow和allow后面的斜杠“/”忽略不写,这样是不对的。
  3. 照搬别人的robots.txt的写法,完全不考虑自己的网站情况。这种情况是非常严重的错误,希望大家避免。
各搜索引擎蜘蛛名称
google蜘蛛: googlebot
百度蜘蛛:baiduspider
360蜘蛛:360spider
搜狗蜘蛛:sogouspider

声明:部分内容来源互联网,本网站不保证内容的权威性,如果有内容不愿意被传播请联系站长,将及时删除