• 欢迎访问刘浪seo网站,跨境电商俱乐部 QQ群262187934-一个无私分享亚马逊干货的群,一群年轻活力的跨境电商人!

谷歌是怎么判定原创文章和伪原创文章的

SEO算法和思维 Charles.z 8年前 (2016-03-23) 2973次浏览 0个评论

一、内容相似度
这是搜索引擎的去重机制,常用的是 TF/IDF 算法,如果某个词或者短句在一篇文章中出现的频率高,并且在其它文章中少,就认为这个词或短句可以用来分类。TF 词频(Term Frequency)指的是某一个给定的词语在该文件中出现的次数。IDF 反文档频率(Inverse Document Frequency)指的是:如果包含词条的文档越少,IDF 越大,则说明词条具有很好的类别区分能力。当一篇文章根据 TF/IDF 进行计算,形成一个多维的向量,当两篇文章的特征向量趋于一致的时候,就会被认为是内容接近,如果一致说明重复的文章。
二、数据指纹
数据指纹判定有很多种算法,常见的提取有文章的标点符号进行对比。
三、代码噪音
搜索引擎会通过对代码的布局和噪音比例进行区分,忽略一些典型的代码,找到哪些是栏目,哪些是正文。我们设计网页的时候,要对整页降噪,正文区域适当加噪。


刘浪 BLOG , 版权所有丨如未注明 , 均为原创
喜欢 (0)
[13362309299]
分享 (0)
Charles.z
关于作者:

您必须 登录 才能发表评论!