关于Google判断原创内容及如何应对问题我说下我的几点看法(里面有转自网络的也有些我自己的)。希望对大家有点帮助。8 B& x5 `" u, n
1.相似度:相似度是搜刮引擎去重用的最多的算法,用的多的一种是TF/IDF算法
当一篇文章被TF/IDF算法筛选后,形成了一个多维的向量,这个向量便是这篇文章的内容特性向量,当两篇文章的特性向量趋于同等的时间,我们以为这两篇文章的内容靠近,要是同等则阐明是反复的。
2.数据指纹:当搜索引擎通过相似度把文章收集起来后,要判别一下是否是重复文章,经常用的就是数据指纹,数据指纹有很多种算法,常见的比如讲文章的标点符号提出,进行对比,你很难想象有两篇不同的文章,标点符合是一致的。还有对向量进行对比,也就是TF词频(关键词密度)等等来判断。
这时候你可以想象出,现在很多伪原创工具,只是把关键词进行了替换,你想关键词替换后,标点符号指纹是不变的,甚至连TF词频都不变。还有对文章进行段落的重拍,这个的确是打乱了标点符号,但是向量和词频问题依然存在。那么这样的伪原创工具有没有价值你就可想而知了。
3.代码噪音
前面说的这些,都是基于一个条件的,就是搜索引擎要知道文章是什么,因为每个网站的模板都不同,代码也不同,各种信息混合在一起,如果能找到正文就是搜索引擎第一要处理的。
一般Google都会通过对代码的布局和噪音比例进行区分,哪些是导航,哪些是正文,并可以对一些典型的代码进行忽略。那么我们在做模板的时候,就要注意了。这里有个纠结点,就是整页面降噪,方便搜索引擎进行正文的确认,但是正文区要适当的加燥,增加搜索引擎识别重复性的难度。" x3 M" u; v. i. a% F
4.内容的传播性
从客户角度出发对于好的内容。很多人还是会去收藏和转载。如果文章发出后传播的比较快。有时候谷歌则认为该文章为原创内容。这也就是很多人喜欢把文章发布到文章站的好处了。另外快速传播的方式还有facebook等。
写的有点零零散散。除了这些特性外其实还有很多别的方式。大家平时多注意下。不早了 收工 休息
转载请注明来源: http://www.sem9.com/thread-13412-1.html#ixzz2D1OF9qWZ