400-685-0732

WJMonitor舆情之声

企业大数据智能舆情监测管理解决方案

全网监测海量数据按需发布监测预警

实时把握舆情动态精准追溯信息源头

获取验证码
企业采购 个人使用
当前位置: 首页 > SEO博客 > 分享几个SEO蜘蛛的技术概念名词

分享几个SEO蜘蛛的技术概念名词

时间:2012-03-08 15:17:19
刚看到网络概念的一篇博客,是zac写的几个名词解释,跟大家分享下:

爬行,抓取,索引,收录这四个的实际含义

爬行是指蜘蛛在页面上沿着链接发现新页面,然后“爬”过去抓取新页面。抓取是指蜘蛛发现新页面后,像浏览器一样打开页面,把页面HTML代码存入数据库。两个概念在英文中通常都是用crawl或spider(这里是动词)表示,视上下文才能分出是指哪个。

显然,爬行和抓取是相互交织的。抓取是实际发生的我们能够观察到的过程,在原始日志中,蜘蛛的抓取是有完整记录的,比如:抓取确切时间、状态码、抓取的文件是哪个、抓取了多大文件等等。蜘蛛对页面的抓取就和浏览器读取文件是完全一样的。

而爬行只是一个形象的比喻,实际上并不存在蜘蛛抓取文件时发现链接然后立即跟踪过去这样一个过程。蜘蛛抓取文件后存入数据库,程序解析出文件中的链接后将URL存入页面地址库,然后蜘蛛从地址库中按一定规则选取URL进行抓取。蜘蛛不是真的访问页面时看到一个URL就爬过去。

索引指的是将一个URL的信息进行各种整理,如去重、分词等等,然后将关于这个URL的信息存入数据库,被称为索引库。真正用于搜索的是倒排索引,要注意的是,索引库中关于URL的信息不仅是组成页面内容的关键词及其特征(位置、格式等),还有链接、更新情况等信息。英文索引这个词是index。

收录是SEO们最关心也最常用的词,其实也是4个概念中最不明确的。被收录指的是我们能查到页面被搜索引擎存入了索引库。但后面我们会看到,进入索引库的URL并不一定被抓取过,这和SEO们的直觉可能是不一样的。

当然,精准掌握概念不是为了咬文嚼字,而是对很多SEO问题的理解和处理有影响。

收录不全,索引不全,抓取不全的解释?

收录不全指的是你网站有100个页面,只收录10个,这叫收录不全。这个一般都是从(原创?采集?所谓伪原创?敏感内容或产品?复制内容?站内优化合理?架构布局合理?树形扁平网状?)这些方向去找原因。如果页面被抓取过却没被索引和收录,那就不是结构有问题,可以通过这个日志看出是否站内有问题。

索引不全是指页面被搜索引擎索引过了,但是不抓取。表现形式就是收录的标题描述都是空的或者很久以前的,或者很久不收录。这个一个可能是页面压根就没被抓取过,则应该往网站和链接结构、搜索引擎不友好的技术障碍、域名权重等方面去找。一个可能是robots文件屏蔽了爬虫,搜索引擎抓取到了这个页面,但是禁止访问,所以会索引不全。

抓取不全是指蜘蛛抓取了页面内容的一部分。表现形势就是收录中看百度快照这个页面只有一部分。这个出现一般是页面代码量过大,这就是问什么把重要内容在代码中尽量靠前,js代码尽量靠后的原因。如果你发现你的网站收录正常就是没有排名,那么点开快照看看,搜索引擎对页面重要的内容抓取全了么?

抓取不全
分享按钮