當(dāng)前位置:首頁(yè) >  站長(zhǎng) >  搜索優(yōu)化 >  正文

[tf-idf]百度分詞快排算法

  域名預(yù)訂/競(jìng)價(jià),好“米”不錯(cuò)過(guò)

做為SEO行業(yè)老鳥(niǎo)應(yīng)該聽(tīng)說(shuō)過(guò)TF-IDF算法,TF-IDF算法屬于搜索引擎中的核心部分。TF-IDF算法是增加相關(guān)詞的覆蓋率,以及高優(yōu)布局關(guān)鍵詞密度,從而在百度谷歌等搜索引擎內(nèi)容質(zhì)量這一項(xiàng)上的排名加分,獲取超高分值。

最近在網(wǎng)上有幾篇TF-IDF算法原理及公式本文將深入為大家解析,有興趣請(qǐng)往下深度閱讀。

一,什么是TF-IDF

先來(lái)看百度百科對(duì)TF-IDF的解釋:

“TF-IDF是一種統(tǒng)計(jì)方法,用以評(píng)估一字詞對(duì)于一個(gè)文件集或一個(gè)語(yǔ)料庫(kù)中的其中一份文件的重要程度。字詞的重要性隨著它在文件中出現(xiàn)的次數(shù)成正比增加,但同時(shí)會(huì)隨著它在語(yǔ)料庫(kù)中出現(xiàn)的頻率成反比下降。TF-IDF加權(quán)的各種形式常被搜索引擎應(yīng)用,作為文件與用戶查詢之間相關(guān)程度的度量或評(píng)級(jí)。”文章鏈接:https://baike.baidu.com/item/tf-idf

假如說(shuō)我們?cè)诎俣壬纤阉?ldquo;水果”這個(gè)詞,百度爬蟲抓取的網(wǎng)站內(nèi)容有下面5個(gè),你覺(jué)得哪個(gè)內(nèi)容排名第一?

內(nèi)容1:水果有水果,水果,水果,水果,水果

內(nèi)容2:水果有蘋果,桃子,西瓜,菠蘿,梨子

內(nèi)容3:蔬菜都很好吃,我最愛(ài)吃茄子了

內(nèi)容4:蘋果,梨子都是很好吃的水果

內(nèi)容5:好吃的水果有西瓜,蘋果,葡萄,其他水果還有菠蘿,獼猴桃

相信很多人心里面有了答案,大家憑直覺(jué),內(nèi)容2跟內(nèi)容5應(yīng)該排名靠前,內(nèi)容5很可能是第1,內(nèi)容2是排名第2。

其實(shí)按照TF-IDF算法也能得出這個(gè)結(jié)論,那么TF-IDF是怎么做的,請(qǐng)大家跟上我的步伐。

二,TF-IDF算法的計(jì)算步驟

第1步:計(jì)算逆文檔頻率

我們先統(tǒng)計(jì)各個(gè)詞語(yǔ)被包含的文章數(shù)。比如“水果”被4篇文章(內(nèi)容1、2、4、5)引用,4就是“水果”的逆文檔頻率。

分詞后,各個(gè)單詞的逆文檔頻率如下:

水果=4、蘋果=3、好吃=2、菠蘿=2、西瓜=2、梨子=2,桃子=1、獼猴桃=1、蔬菜=1,茄子=1計(jì)算逆文檔頻率

PS:IDF=log(語(yǔ)料庫(kù)中的文件總數(shù)/包含詞語(yǔ)t的文件數(shù)目),為了便于理解,這里做了精簡(jiǎn)。

按照我們的直覺(jué),如果一篇文章把逆文檔頻率最高的前面的詞都包含了,說(shuō)明這篇文章內(nèi)容更貼合用戶意圖,更受到搜索引擎喜歡?;氐嚼?,"水果、蘋果"是本例中重要性最高的2個(gè)詞,如果內(nèi)容中包含“水果、蘋果”,那么這篇內(nèi)容質(zhì)量就越好。

所以把包含“水果、蘋果”的內(nèi)容拿出來(lái),就是比較靠譜的內(nèi)容了:

內(nèi)容2:水果有蘋果,桃子,西瓜,菠蘿,梨子

內(nèi)容4:蘋果,梨子都是很好吃的水果

內(nèi)容5:好吃的水果有西瓜,蘋果,葡萄,其他水果還有菠蘿,獼猴桃

第2步:計(jì)算詞頻(TF)

我們把內(nèi)容1、內(nèi)容3砍掉了,剩下的內(nèi)容2、內(nèi)容4、內(nèi)容5怎么排序。我們想一下,一個(gè)詞語(yǔ)在內(nèi)容中出現(xiàn)的次數(shù)越高,也說(shuō)明這個(gè)詞語(yǔ)對(duì)這篇文章更重要?;氐奖纠?,“水果”是我們的核心詞,那么因?yàn)閮?nèi)容5中出現(xiàn)“水果”兩次,內(nèi)容2、內(nèi)容4次數(shù)是1,那么內(nèi)容5勝出。最后的排序結(jié)果如下

內(nèi)容5:好吃的水果有西瓜,蘋果,葡萄,其他水果還有菠蘿,獼猴桃(第一名)

內(nèi)容2:水果有蘋果,桃子,西瓜,菠蘿,梨子(第二名)

內(nèi)容4:蘋果,梨子都是很好吃的水果(第三名)

內(nèi)容1:水果有水果,水果,水果,水果,水果(相關(guān)度不夠,被剔除)

內(nèi)容3:蔬菜都很好吃,我最愛(ài)吃茄子了(相關(guān)度不夠,被剔除)

以上是砍了又砍的TF-IDF算法簡(jiǎn)化解讀版,真實(shí)的TFIDF算法比這個(gè)要正規(guī)復(fù)雜很多,這里只是讓大家get到重點(diǎn),目的就達(dá)到了。

TF-IDF對(duì)SEO非常重要!

TF-IDF對(duì)SEO非常非常非常重要,重要的事情說(shuō)三遍!

我們可以看到,TFIDF算法,不僅可以衡量關(guān)鍵詞對(duì)頁(yè)面的重要性,更能衡量文章的廣度相關(guān)性。對(duì)于百度、360、google來(lái)說(shuō),TFIDF算法的出現(xiàn)屏蔽了一大批用關(guān)鍵詞密度來(lái)獲取排名的SEO小白,同時(shí)提升了搜索質(zhì)量啊,真是一箭雙雕。

百度百科里面說(shuō)了:“除了TF-IDF以外,因特網(wǎng)上的搜索引擎還會(huì)使用基于鏈接分析的評(píng)級(jí)方法,以確定文件在搜尋結(jié)果中出現(xiàn)的順序。”。意思是什么?你排名可以由下面的公式?jīng)Q定。文章得分=TFIDF得分+鏈接得分,百度搜索引擎在用TFIDF?。?/p>

文章來(lái)源:公眾號(hào)SEO實(shí)戰(zhàn)營(yíng)(ID:ilottecn),原文鏈接:https://mp.weixin.qq.com/s/KyRpW5-10voYKaM4fNIdYg

申請(qǐng)創(chuàng)業(yè)報(bào)道,分享創(chuàng)業(yè)好點(diǎn)子。點(diǎn)擊此處,共同探討創(chuàng)業(yè)新機(jī)遇!

相關(guān)標(biāo)簽
快速排名方法
百度算法

相關(guān)文章

熱門排行

信息推薦