郑州SEO | SEO学习 | 郑州网站优化 欢迎来到小辉SEO博客!

郑州SEO| 网站地图| XML地图

郑州seo

郑州seo

SEO学习

请联系我

地址:

河南郑州

微信:

1101525132

Q群:

853094090
seo百科

>>当前位置:主页 > seo百科 >

IDF怎么计算-TFIDF没那么复杂

文章来源:未知 添加时间:2019/12/27

最近,在TFIDF这个知识上,很多的人不是很明白,看了网上那么多的解释也没办法清晰的理解TFIDF 究竟是啥,今天郑州seo小辉就给大家用短短数字给大家把这个TFIDF解释清楚。TFIDF是算法核心之一,所以这个我们一定是要掌握的。

第一点:什么是TF-IDF

TF-IDF是一种用于信息检索与数据挖掘的常用加权技术。TF意思是词频,IDF意思是逆文本频率指数。

TF=页面关键词总字数/页面总字数  假如郑州网站优化在我的首页出现20次,我首页总字数是4000   那么我此页面的TF就是  (20*6)/4000=0.03  这个0.03就是我的TF 也就是郑州网站优化这个词出现的频率。

下面说一下IDF:


IDF是指的逆向文件频率,是一个词语普遍重要性的度量。怎么计算:
IDF怎么计算-TFIDF没那么复杂
 
因为这个语料库的文档总数谁也不知道,百度默认最高收录为1亿。 那么我们就可以把1亿作为默认文档总数,除以收录的词条数+1,得出的结果再取log值 就得到了这个词的IDF值。

细心的朋友可能会发现,
IDF值其实跟你没啥关系,你说跟你有啥关系,语料库的文档总数你能控制吗?包含的词条数你能控制吗?(你自己做的收录能有多少,少到可以忽略不计)。还是以郑州网站建设这个词为例。我们去查下收录:


 
IDF怎么计算-TFIDF没那么复杂
 
那么IDF就是log(100 000 000/21700 000+1)≈log46  然后再计算下log46≈1.66

 
IDF怎么计算-TFIDF没那么复杂

IDF怎么计算-TFIDF没那么复杂

 
所以郑州网站建设这个词的TFIDF就是0.03*1.66=0.0498 

或许会有人说,
你怎么知道文档总数就是一个亿?我不知道文档总数就是一个亿,但是这个数对于你对于你的竞争对手都是固定的,所以我们可以吧文档总数默认为一个亿,你默认2亿、3亿都行。都不影响。所以在IDF固定的情况下,在一定区间内TF越高,TFIDF就越高。就有机会获取更好的排名。看关键词密度并不准。没什么用。或许会有人说既然TF越高越好,那我直接全站文字都放关键词不完了?记住它是有一个区间的。过犹不及或者太少都不符合TFIDF。

那么,怎么才能算出适合排名的TFIDF。在这里给大家提供一种方式:

1、搜索需要排名的关键词。计算排名前5-10的TF值,(
再说一遍IDF都一样,所以没必要计算。)取得平均值。
2、然后把这个平均值,作为你网站的TF。
3、结合常规优化手法,相信你的网站会有好的结果。
4、快排刷上来的页面忽略,因为有的刷上来的页面甚至一个关键词都没有。遇到这种直接顺延下一网站。最多选取是个取平均值就行了。


TFIDF是算法核心内容。我们必须要会去找到这种规律,这是一种加权技术,用好了,如鱼得水。本篇文章由小辉SEO博客原创,禁止抄袭。

上一篇:飓风算法3.0即将上线,跨领域采集及站群你们还

下一篇:没有了

返回