400-685-0732

WJMonitor舆情之声

企业大数据智能舆情监测管理解决方案

全网监测海量数据按需发布监测预警

实时把握舆情动态精准追溯信息源头

获取验证码
企业采购 个人使用
当前位置: 首页 > SEO博客 > Google是如何判断原创与伪原创

Google是如何判断原创与伪原创

时间:2012-03-18 21:39:19
今天无意间看到这篇文章,现在我们做SEO肯定是原创是最好的,同时也有过多次的实战经历,百度对原创文章的网站给予的权重很高。但是现在大家普遍的手法是伪原创。今天看到这篇谷歌如何去判断原创和伪原创的文章,觉得对大家还是有一定的帮助,特意整理下,发上来给大家参考下。另我的上海SEO博客希望大家多支持点原创文章,谢谢。以下为正题:

1. 相似度

相似度主要依靠词频和反文档频率两个来判断。词频指的是某一个给定的词语在该文件中出现的次数。反文档频率指的是:如果包含词条的文档越少,反文档频率越大,则说明词条具有很好的类别区分能力。大概意思是如果某个词或短语在一篇文章中出现的频率高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。当两篇文章的特征向量趋于一致的时候,我们认为这两篇文章的内容接近,如果一致则说明是重复的。

2. 数据指纹

当搜索引擎通过相似度把文章收集起来后,要判别一下是否是重复文章,经常用的就是数据指纹,数据指纹有很多种算法,常见的比如讲文章的标点符号提出,进行对比,你很难想象有两篇不同的文章,标点符合是一致的。还有对向量进行对比,也就是关键词密度等等来判断。像我们一般的把文章的段落重排,但是文章的词频等是一致的,也会被判断出来。

3. 代码噪音

何为代码噪音?先让我们了解一下原理:

--------------------------------------------------------------------

学过信息论和有信号处理经验的读者可能知道这么一个事实,我们如果在发动机很吵的汽车里用手机打电话,对方可能听不清;但是如果我们知道了汽车发动机的频率,我们可以加上一个和发动机噪音相反的信号,很容易地消除发动机的噪音,这样,收话人可以完全听不到汽车的噪音。

消除噪音的流程可以概括如下,



-------------------------------------------------------------------

一般Google都会通过对代码的布局和噪音比例进行区分,哪些是导航,哪些是正文,并可以对一些典型的代码进行忽略。那么我们在做模板的时候,就要注意了。这里有个纠结点,就是整页面降噪,方便搜索引擎进行正文的确认,但是正文区要适当的加燥,增加搜索引擎识别重复性的难度。

 
分享按钮