2013-10-7 0:0:0 | 作者:sw996 | 0个评论 | 人浏览
现在百度提倡用户体验,更加强调网站内容的原创度,但是百度蜘蛛是怎样分辨一篇文章是不是原创呢?同一篇文章发在不同平台上被收录后百度是如何辨别哪篇是原创哪篇不是原创呢?
1、文章对比
搜索引擎来到这个网站并且抓取到了这篇文章,放到数据库,并且在收录数据库中没有发现类似内容,那么就会被认为是原创,也有站长朋友认为是用公式计算出的,即:TF IDF ,TF是TermFrequency的缩写,译成中文是词频,指的是某一个词在文章中出现的次数;IDF是InverseDocumentFrequency的缩写,中文译成反文档频率,IDF越大,表明这个词在其它文章中出现的次数很少,说明这个词有很好的类别区分能力。
2、文章与网站主题的相关性
在网站初期就会对此网站规划一个主题,那么百度等搜索引擎在收录此网站的时候,就已经为这个站确定了主题范围。如果某篇文章的主题与整个站点的主题相关度很低,比如你的站是一个做seo的站,其中却有篇文章是说教育类的,那么百度蜘蛛就会认为这篇文章与网站主题不符,即不会判断为原创。
搜索引擎比较喜欢原创类文章,那么在网站建设完成后在做关键词布署时一定要考虑是否与网站主题相关,因为站内不相关的文章或者网页占到一定幅度,就可能被降权甚至K站,所以网站的主题相关性也很重要。
3、网站权重
同一篇文章发在不同平台上,收录快慢都是有区别的,如果你写了一篇文章,在未收录前被别人转载了,并且没有保留你网站的链接,那么他发在一个权重较高的网站上,隔天收录了,这个时候如果百度再去收录你网站中这篇文章时,在数据库里面发现了同一篇文章,那么百度就会认为你这边是抄袭的,并且不会被收录,所以很多站长朋友都很清楚,写的原创文章一定是发布在自己网站上等收录后再发到其他网站上。
4、网站的跳出率等
百度现在更多的是考虑用户体验,所以伪原创文章,尤其是程序生成的伪原创文章,大量存在网站中,用户体验是非常差的,这样会导致用户快速跳出页面,并且点击其他搜索结果,如果跳出率过高的话,百度就会认为这个站点是垃圾站点,那么以后这个网站内的文章,也会被认为是伪原创文章。