最近更新


海瑶seo:如何去面对优化中的...

海瑶SEO:负面SEO不等于黑帽SEO,负面SEO就是通过一些不益于搜...
haiyaoseo:学SEO技...

测试专用:最近不少人同学或者朋友在QQ、QQ群、微信等等社交平台里提问...
刘军SEO:教你一招SEO神技...

今天刘军SEO跟大家分享一个SEO神技——百度霸屏,这个词语听起来很霸...
泊君seo:钻研不更新背后的s...

泊君seo:钻研不更新背后的seo原理,为何人家半年不更新一篇文章,每...
狼雨seo:2018年做好se...

狼雨seo:2018年做好seo你需要了解这四个趋势,保证你们的网站在...
刘军seo博客:百家号审核要多...

因为刘军seo博客之前有开通百度百家,所有百家号一上线我登陆百家号的时...
洋舰SEO研究中心培训教程:如...

洋舰SEO研究中心今天给大家分享一下案例,如何刷百度指数。本来这种操作...
sitemap是什么?site...

sitemap是一个网站提供给网络爬虫用以获取该网站链接数据的文件,以...
百度指数是什么?百度指数如何查...

百度指数是什么?百度指数(Baidu Index)是以百度海量网民行为...
关键词密度是什么意思?关键词密...

关键词密度(Keyword Density)是用来量度关键词在网页上出...
软文是什么意思?软文如何写?...

软文是什么意思?是由企业的市场策划人员或广告公司的文案人员来负责撰写的...
搜索引擎沙盒效应...

沙盒效应(Sandbox Effect),指的是网站在搜索引擎中很难得...

robots.txt是什么

robots.txt是什么意思?robots.txt文件是一个文本文件,robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。

robots.txt是一个协议,而不是一个命令。robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。robots.txt文件告诉蜘蛛程序在服务器上什么文件是可以被查看的。

当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。百度官方建议,仅当您的网站包含不希望被搜索引擎收录的内容时,才需要使用robots.txt文件。如果您希望搜索引擎收录网站上所有内容,请勿建立robots.txt文件。


robots.txt


robots.txt的标准写法


1.robots.txt 放置位置

robots.txt文件应该放置在网站根目录下。举例来说,当spider访问一个网站(比如http://www.seoyj.com)时,首先会检查该网站中是否存在http://www.seoyj.com/robots.txt这个文件,如果 Spider找到这个文件,它就会根据这个文件的内容,来确定它访问权限的范围。

2. robots.txt 格式

文件包含一条或更多的记录,这些记录通过空行分开(以CR,CR/NL, or NL作为结束符),每一条记录的格式如下所示:”:”。在该文件中可以使用#进行注解。该文件中的记录通常以一行或多行User-agent开始,后面加上若干Disallow和Allow行,详细情况如下。

User-agent:

该项的值用于描述搜索引擎robot的名字。在”robots.txt”文件中,如果有多条User-agent记录说明有多个robot会受到”robots.txt”的限制,对该文件来说,至少要有一条User-agent记录。 如果该项的值设为*,则对任何robot均有效,在”robots.txt”文件中,”User-agent:*”这样的记录只能有一条。如果在”robots.txt”文件中,加入”User- agent:SomeBot”和若干Disallow、Allow行,那么名为”SomeBot”只受到”User-agent:SomeBot”后面的 Disallow和Allow行的限制。 Disallow: 该项的值用于描述不希望被访问的一组URL,这个值可以是一条完整的路径,也可以是路径的非空前缀,以Disallow项的值开头的URL不会被robot访问。例 如”Disallow: /help”禁止robot访问/help*.html、/help/index.html, 而”Disallow: /help/”则允许robot访问/help*.html,不能访问/help/index.html。

"Disallow:"说明允许robot访问该网站的所有url,在”/robots.txt”文件中,至少要有一条Disallow记录。如果”/robots.txt”不存在或者为空文件,则对于所有的搜索引擎robot,该网站都是开放的。

Allow:

该项的值用于描述希望被访问的一组URL,与Disallow项相似,这个值可以是一条完整的路径,也可以是路径的前缀,以Allow项的值开头的URL是允许robot访问的。例如”Allow:/hibaidu”允许robot访问/hibaidu.htm、/hibaiducom.html、 /hibaidu/com.html。一个网站的所有URL默认是Allow的,所以Allow通常与Disallow搭配使用,实现允许访问一部分网页同时禁止访问其它所有URL的功能。

需要特别注意的是Disallow与Allow行的顺序是有意义的,robot会根据第一个匹配成功的 Allow或Disallow行确定是否访问某个URL。

使用”*”和”$”: Baiduspider 支持使用通配符”*”和”$”来模糊匹配url。 “$” 匹配行结束符。 “*” 匹配0或多个任意字符。

robots.txt文件用法举例:

1. 允许所有的robot访问

User-agent: * Allow: / 或者 User-agent: * Disallow:

2. 禁止所有搜索引擎访问网站的任何部分

User-agent: *

Disallow: /

3. 仅禁止Baiduspider访问您的网站

User-agent: Baiduspider

Disallow: /

4. 仅允许Baiduspider访问您的网站

User-agent: Baiduspider

Disallow:

5. 禁止spider访问特定目录

User-agent: *

Disallow: /cgi-bin/

Disallow: /tmp/

Disallow: /~joe/

6. 允许访问特定目录中的部分url

User-agent: *

Allow: /cgi-bin/see

Allow: /tmp/hi

Allow: /~joe/look

Disallow: /cgi-bin/

Disallow: /tmp/

Disallow: /~joe/

7. 使用”*”限制访问url

禁止访问/cgi-bin/目录下的所有以”.htm”为后缀的URL(包含子目录)。

User-agent: *

Disallow: /cgi-bin/*.htm

8. 使用”$”限制访问url

仅允许访问以”.htm”为后缀的URL。

User-agent: *

Allow: .htm$

Disallow: /

例9. 禁止访问网站中所有的动态页面

User-agent: *

Disallow: /*?*

10. 禁止Baiduspider抓取网站上所有图片

仅允许抓取网页,禁止抓取任何图片。

User-agent: Baiduspider

Disallow: .jpg$

Disallow: .jpeg$

Disallow: .gif$

Disallow: .png$

Disallow: .bmp$

11. 仅允许Baiduspider抓取网页和.gif格式图片

允许抓取网页和gif格式图片,不允许抓取其他格式图片

User-agent: Baiduspider

Allow: .gif$

Disallow: .jpg$

Disallow: .jpeg$

Disallow: .png$

Disallow: .bmp$

12. 仅禁止Baiduspider抓取.jpg格式图片

User-agent: Baiduspider

Disallow: .jpg$


相关链接:

洋舰SEO教程自学网,提供SEO优化的SEO培训教程、SEO优化培训VIP服务,同时提供SEO查询站长工具、SEO排名查询等。SEO交流QQ号 :   28770128
标签: SEO术语 SEO入门教程 seo教程网 seo培训教程 seo优化教程 seo自学网
上一篇:Description标签是什么意思?
下一篇:nofollow属性极其设置