目前大部分的搜索引擎算法都是基于网页/网站链接来进行分析排序的,这些算法存在对新上线的原创内容网站有极为不利的共同问题,也就是没有考虑文章内容相同的原创文章和转载文章之间的排序问题。
由于网络知识版权保护的不力及其实施的难度,原创网站的文章很有可能会被其他网站随意地转载。而搜索引擎在排序的时候,却不会考虑网页的转载与被转载问题,假如转载文章的站点“经营”得好的话,转载页面得搜索引擎排名完全有可能要高于被转载页面。这样一来,网站经营者就会把原本要投入到网站内容的人力物力投入到网站经营上去,如在其它网站做广告、找专业地SEO公司进行优化等。这种不公平的竞争无疑会影响到现代网络的发展。
故此,为了提高现在网络竞争的公平性,更好的“保护”网络原创文章,有必要对搜索引擎的排序结果进行修正,使之更加有利于原创文章,以促进现代网络事业的健康发展。
PageRank算法偏重旧网页。根据一些观察可以看出,决定一个网页PR值的主要因素是指向该网页的链接个数,如果一个网页被放到网络上不久,由于时间短暂,许多其它网页还没有指向它,通过PR算法计算出的PR值也就会很低。在搜索引擎返回的结果中往往会把它排在较后的位置,这样,返回结果中新的网页反而被放在后面,可能正好与用户的需求恰恰相反,因为许多情况下,用户想首先看到最新的网页.
PageRank算法无法区分网页中的超链接是和网页主题相关还是不相关,即无法判断网页内容上的相似性,这样就很容易导致出现主题漂移问题。比如,Google,Yahoo!是互联网上最受欢迎的网页,拥有很高的PageRank值。这样,如果用户输入一个查询关键字时,这些网页往往也会出现在该查询结果中,并占据很靠前的位置。而事实上,这个网页与用户的查询主题有时并不太相关。
Google的信任算法过于依赖旧的网页和网站,而延长新网页或网站在Google搜索引擎上的表现。目前阶段,网站内容主要来源于转载的网站,如果自身没有足够高的网站权重,很难获得搜索引擎的重视。