深入了解robots.txt的工作原理

大家都知道robots.txt是设置，让百度禁止抓取页面的代码，可是大家不知道robots内幕真正的原理，让百度更好地收录你的网站，今天北京网站开发就给大家详细地介绍一下robots.txt内幕原理。

robots.txt文件放在网站根目录下，是搜索引擎中访问网站的时候要查看的第一个文件。当一个搜索蜘蛛访问一个站点时，它会首先检查该站点根目录下是否存在robots.txt，如果存在，搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在，所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。每个网站都应该有一个robots，它告诉搜索引擎我的网站里有哪些东西是不允许抓取的，有哪些页面是欢迎爬行与抓取。

robots的几种作用：

1.屏蔽所有的搜索引擎抓取信息，如果你的网站只是你的私密性的网站，不想太多的人知道的话，可以利用robots屏蔽掉所有的搜索引擎,例如你写的私人博客。你就可以把搜索引擎全都屏蔽掉

Useragent:*

Disallow:/

2.如果你只想某一个搜索引擎抓取你的信息，这个时候就可以用robots进行设置,例如：我只想我的网站被百度这个收录，而不想被别的搜索引擎收录。就可以利用robots进行设置

Useragent:Baiduspider

Allow:

Useragent:*

Disallow:/

3.可以利用各种通配符对网站进行相对应的调配，例如我不想网站抓取我的所有图片，这个时候就可以运用$来进行设置。一般我们常见的图片的格式是BMP、JPG、GIF、JPEG等格式。这个时候设置就是：

Useragent:*

Disallow:/.bmp$

Disallow:/.jpg$

Disallow:/.gif$

Disallow:/.jpeg$

4.还可以利用*来屏蔽掉相关的URL，有些网站不允许搜索引擎抓取动态地址的时候可以利用这个*通配符来进行匹配设置。一般情况下动态URL的有一个特点就是有“?”这个时候我们就可以利用这个特性来进行匹配的屏蔽：

Useragent:*

Disallow:/*?*

5.如果网站改版了，整个文件夹都没有了的时候，这个情况下就要考虑屏蔽掉整个文件夹。我们可以运用robots来对这整个的文件夹进行屏蔽，例如网站里的ab文件夹因改版全都给删掉了，这个时候就可以这样子设置：

Useragent:*

Disallow:/ab/

6.如果网站里有一个文件夹不想被收录，但是在这个文件夹里面有一个信息是允许被收录。那可以运用robots的allow进行设置。例如我网站里ab文件夹不允许搜索引擎抓取，但是在ab文件夹里面又有一个信息cd是允许被抓取的，这个时候就可以运用robots进行设置：

Useragent:*

Disallow:/ab/

Allow：/ab/cd

7.可以在robots里定义出网站地图的位置，有利于网站的收录。

sitemap:<网站地图的位置>

上面所介绍的就是robots的工作原理，北京网站开发建议大家最好别试用这种原理，除非，你这个网站是没用的网站，如果你在一个正常使用的网站，设置robots，有可能百度终身不会抓取你。