外墙保温装饰板厂家
免费服务热线

Free service

hotline

010-00000000
外墙保温装饰板厂家
热门搜索:
行业资讯
当前位置:首页 > 行业资讯

分析搜索引擎如何判断网站的相似度

发布时间:2020-03-09 16:50:05 阅读: 来源:外墙保温装饰板厂家

大家都知道文章内容重复过高不好,会被K,会降权,不会被收录,各种说法流连在SEO初学者的脑海中,一个新站数据怎么来?你能每天更新几十篇内容吗?显然很多人搞不定,于是采集这个说法就有了,继而出现了伪原创,常见的为原创方式是颠倒文章内容,近义词替换,添加或者减少一部分内容,但是用久了后发现,这样还是不会收录,原因是什么呢?今天笔者就详细的分析了下,希望这篇文章可以解决大家的疑问。

百度并不是不收录内容相同的网站,像经常写软文的就知道,写了软文就是为了让别人转载,就是为了增加外链和相关域,显然是可以收录的,举个明显的例子:百度新闻搜索关云长

可以很明显的看到有相同新闻,这就代表同样的内容还是可以收录的,如果仔细查看,可以点击上图花红圈的地方进去,

这些都是相似页面,仔细看看会发现,有的标题不一样,描述大部分也不一样,所以标题细微的变化和描述的不相同对伪原创是没有作用的,百度可以识别出来,

然后我们再看看正文部分,笔者找到一个工具,可以检测两篇文章的相似度,大家来看看正文部分的相似度:

忘记标红了,呵呵,大家将就下,数值在最上边,内容是从标题到文章结束部分,相似度是96.973%,相似度很高,很明显这样的文章简直就可以说是采集的,可是仔细想想,搜索引擎是通过蜘蛛来访问的页面,那么判断文章相似度会不会和源代码有关系呢?于是笔者有把两个网站的源代码复制进去检测了下相似度,请看下图:

这个是百度新闻搜索cnzz的2个相似页面的源代码,相似度大大降低了,才45.332%,这样的两个页面很显然是无法判断出来的,但是百度偏偏又可以判断出这2篇文章相似。

总结:通过以上观察,搜索引擎的判断能力加强了,不再局限于网站的源代码,而是可以直接找出文章的中文部分,并来对比其他网站,所以即使大家的网站程序不一样,页面布局不一样,只要内容是采集的,那么搜索引擎就可以判断出文章的相似度,但是并不是内容相似百度就不收录。

版权没有,盗版不究,任意抄袭,确保完整,。交流才能进步,借助A5平台和大家分享,交流

20号钢板

注册新加坡

移动泵车