robots.txt文件揭秘

搜索引擎在访问每个网站的时，都会先访问该网站的robots.txt文件，如果文件中禁止某个搜索引擎的爬行，那么该搜索引擎就会遵从该协议，放弃对该网站的抓取。如果该网站禁止搜索引擎抓取某些文件，搜索引擎也会遵从该协定，只收录允许它爬行的部分。

robots.txt文件夹应该放在网站的根目录下面，查看一个网站是否有robots.txt文件夹，可以在此网站的地址后面直接加上robots.txt，例：www.seotcs.com/robots.txt,打开后如果显示无该页面，那么则说明该网站没有robots.txt文件夹。如果打开后显示以下类似，则说明该网站有robots.txt文件夹。

上图，robots.txt中的文件名必须用小写，如“templets”“dede”等文件夹名，“User-agent”是定义的搜索引擎的类型，这里的“*”是一个通配符，表示所有的搜索引擎。“Disallow”表示不允许访问，那么相对的“Allow”表示允许访问。上图则表示，搜索的搜索引擎不允许访问如“templets”“dede”等文件夹，最后的“Sitemap:http://www.seotcs.com/sitemap.html”则表示允许访问。

我们可以看下淘宝的robots.txt文件：

[caption id="attachment_1057" align="aligncenter" width="389" caption="淘宝的robots文件"]

[/caption]

则表示，不允许百度搜索引擎（baiduspider）访问所有的文件夹。如允许百度访问可写为：

User-agent：baiduspider

Allow：/

认识几种常见的搜索引擎蜘蛛的写法，如上的百度蜘蛛，为baiduspider；谷歌蜘蛛，为googlebot；yahoo蜘蛛，Yahoo!slurp；bing蜘蛛MSNbot。第一张图片的robots中，是把plus这个数据文件下面的很多单一的文件屏蔽了，如果plus这个数据文件是完全不需要给搜索引擎看的，那么我们可以直接写为：Disallow：/plus/,这即为把plus这个文件目录全部不允许搜索引擎访问。以上为一些最基本的写法，一些如只屏蔽网站的动态页面，如只屏蔽以.htm后缀的url，这些如何去实际屏蔽，大家自己去学习下吧，这边就不多说。

robots.txt文件夹可以告诉搜索引擎应该抓取网站的哪些部分，不应该抓取网站的哪些部分，一般我们会把网站的一些数据库以及网站后台等屏蔽掉，这也减少了搜索引擎的工作量。同时在SEO中，我们常常会把sitemap文件放入robots.txt文件夹中，引导蜘蛛的爬取。对于一些爬取量很高但是一些没有意义的页面，我们也可以用robots禁止，以强迫蜘蛛去爬取其他的有意义的页面。如http://www.seotcs.com/blog/?p=885这篇文章，文中网站因为被加了黑链，虽然黑链被删除，但是谷歌蜘蛛每天还是大量的抓取这些黑链所处的文件目录，导致这个网站的谷歌抓取返回码全部为404，导致了谷歌排名消失。那这时候，我们对这个无用甚至有害的文件目录采用了robots屏蔽具体见博文。

在这里我们可以看到，robots.txt的文件在不同的时候有不同的作用，只有正确的利用好robots.txt文件夹也能更好的做好网站的SEO。

WJMonitor舆情之声

robots.txt文件揭秘

最新文章

热门文章