400-685-0732

WJMonitor舆情之声

企业大数据智能舆情监测管理解决方案

全网监测海量数据按需发布监测预警

实时把握舆情动态精准追溯信息源头

获取验证码
企业采购 个人使用
当前位置: 首页 > SEO博客 > robots.txt文件揭秘

robots.txt文件揭秘

时间:2011-12-24 16:32:09
搜索引擎在访问每个网站的时,都会先访问该网站的robots.txt文件,如果文件中禁止某个搜索引擎的爬行,那么该搜索引擎就会遵从该协议,放弃对该网站的抓取。如果该网站禁止搜索引擎抓取某些文件,搜索引擎也会遵从该协定,只收录允许它爬行的部分。

robots.txt文件夹应该放在网站的根目录下面,查看一个网站是否有robots.txt文件夹,可以在此网站的地址后面直接加上robots.txt,例:www.seotcs.com/robots.txt,打开后如果显示无该页面,那么则说明该网站没有robots.txt文件夹。如果打开后显示以下类似,则说明该网站有robots.txt文件夹。

robots.txt文件上图,robots.txt中的文件名必须用小写,如“templets”“dede”等文件夹名,“User-agent”是定义的搜索引擎的类型,这里的“*”是一个通配符,表示所有的搜索引擎。“Disallow”表示不允许访问,那么相对的“Allow”表示允许访问。上图则表示,搜索的搜索引擎不允许访问如“templets”“dede”等文件夹,最后的“Sitemap:http://www.seotcs.com/sitemap.html”则表示允许访问。

我们可以看下淘宝的robots.txt文件:

[caption id="attachment_1057" align="aligncenter" width="389" caption="淘宝的robots文件"][/caption]

则表示,不允许百度搜索引擎(baiduspider)访问所有的文件夹。如允许百度访问可写为:

User-agent:baiduspider

Allow:/

认识几种常见的搜索引擎蜘蛛的写法,如上的百度蜘蛛,为baiduspider;谷歌蜘蛛,为googlebot;yahoo蜘蛛,Yahoo!slurp;bing蜘蛛MSNbot。第一张图片的robots中,是把plus这个数据文件下面的很多单一的文件屏蔽了,如果plus这个数据文件是完全不需要给搜索引擎看的,那么我们可以直接写为:Disallow:/plus/,这即为把plus这个文件目录全部不允许搜索引擎访问。以上为一些最基本的写法,一些如只屏蔽网站的动态页面,如只屏蔽以.htm后缀的url,这些如何去实际屏蔽,大家自己去学习下吧,这边就不多说。

robots.txt文件夹可以告诉搜索引擎应该抓取网站的哪些部分,不应该抓取网站的哪些 部分,一般我们会把网站的一些数据库以及网站后台等屏蔽掉,这也减少了搜索引擎的工作量。同时在SEO中,我们常常会把sitemap文件放入robots.txt文件夹中,引导蜘蛛的爬取。对于一些爬取量很高但是一些没有意义的页面,我们也可以用robots禁止,以强迫蜘蛛去爬取其他的有意义的页面。如http://www.seotcs.com/blog/?p=885这篇文章,文中网站因为被加了黑链,虽然黑链被删除,但是谷歌蜘蛛每天还是大量的抓取这些黑链所处的文件目录,导致这个网站的谷歌抓取返回码全部为404,导致了谷歌排名消失。那这时候,我们对这个无用甚至有害的文件目录采用了robots屏蔽具体见博文。

在这里我们可以看到,robots.txt的文件在不同的时候有不同的作用,只有正确的利用好robots.txt文件夹也能更好的做好网站的SEO。
分享按钮