400-685-0732

WJMonitor舆情之声

企业大数据智能舆情监测管理解决方案

全网监测海量数据按需发布监测预警

实时把握舆情动态精准追溯信息源头

获取验证码
企业采购 个人使用
当前位置: 首页 > SEO博客 > 谈谈我自己对百度搜索引擎工作原理中“拿来”和“筛选”的认知

谈谈我自己对百度搜索引擎工作原理中“拿来”和“筛选”的认知

时间:2014-01-14 11:28:16
作为一个seoer,我们首先要知道搜索引擎的工作原理,因为只要有了对它的了解,那么在操作上,你就会知道如何去应对。生活中我们最熟悉的搜索引擎就是百度和谷歌,相信大家对这个两个都很了解。百度和谷歌的原理,在细节上有这很大的不同,如在分词技术。鉴于我们国内一般是用百度,因此我们就谈谈关于百度的工作原理。

我们所说的百度,其工作的原理我们大致上可以分出四步:拿来(蜘蛛爬取)→筛选(数据分析系统)→算法(索引系统)→显示(查询系统)。现在就让我们来捋一捋百度的“拿来”和“筛选”

首先,我们就来说说蜘蛛抓取网页,那么蜘蛛是怎么抓取网页的呢?蜘蛛通过一个个链接进到一个网页中然后抓取这个网页并且存入临时库中,同时也把这个页面的所有链接都提取,然后循环的处理。说到这里,就出现了一个问题,网上那么多上网页而且还是每天在不断的增加,它这样去爬,它不麻烦吗,它爬的过来吗?

对于这个问题,搜索引擎蜘蛛有着一个规律。简单的说蜘蛛在一个页面发现一个连接,就顺着这个连接爬下去,然后再下一个页面又发现一个连接,然后再次爬下去同时全部抓取。如图


接着,就是所谓的“筛选”,也就是数据分析系统。而这个数据分析系统主要可分为

1.提取文字
将网页的内容进行文字信息提取,包括meta标签中的文字、alt标签中的链接,链接所使用的锚文本等等。

2.去重
去重比较好理解,就是搜索引擎查找重复的网页与内容,如果找到重复的页面,就删除。

3.分词
这个分词是什么呢?就是搜索引擎蜘蛛在进行了前面的步骤,然后提取出正文的内容,然后把内容分成N个词语,去停顿词,去噪,然后排列出来,存入索引库!同时也会计算这一个词在这个页面出现了多少次。

4.链接关系计算
这一个步骤就是我们平时所做的做烦躁的工作,搜索引擎会查询,这个页面的反向链接有多少,导出链接有多少以及内链,然后给这个页面多少的权重等。


以上便是我对对百度搜索引擎工作原理的大致了解,希望大家多多给予指教。我在文军,我在进步,我在努力。
分享按钮