石榴算法—低質(zhì)量頁面終結(jié)者:2013年5月17日下午,百度網(wǎng)頁搜索反作弊團(tuán)隊(duì)在百度站長平臺發(fā)布公告稱:將于一星期后正式推出新的算法“石榴算法”。新算法前期將重點(diǎn)整頓含有大量妨礙用戶正常瀏覽的惡劣廣告的頁面
那么,“石榴算法”中,百度究竟是如何判斷網(wǎng)頁質(zhì)量呢?網(wǎng)上較多文章對此發(fā)表觀點(diǎn),歸納有以下幾點(diǎn):
感興趣的受眾群大小
該頁面的稀缺程度(可替代性)
該頁面是否有彈窗
該頁面廣告的多少
由上可見,目前我們的研究重點(diǎn)大部分集中在對網(wǎng)頁的頁面價(jià)值的判斷上,缺乏對搜索用戶交互行為的研究與分析。
今天,我們嘗試從搜索用戶交互行為的角度出發(fā),猜測百度如何判斷文章質(zhì)量。
對于安裝了百度統(tǒng)計(jì)的用戶,百度可以根據(jù)跳出率、退出率、頁面停留時(shí)間幾個(gè)關(guān)鍵指標(biāo),很容易對網(wǎng)頁質(zhì)量加以判斷。
然而,對大部分沒有安裝百度統(tǒng)計(jì)的搜索用戶,百度是不可能跟蹤這些關(guān)鍵指標(biāo)的,百度通過迂回戰(zhàn)術(shù)從側(cè)面分析關(guān)鍵詞的匹配度,匹配度越高,表明文章質(zhì)量度越高。
百度如何通過搜索行為判斷文章質(zhì)量?我以為,主要根據(jù)以下2點(diǎn):
一、通過對搜索結(jié)果的二次點(diǎn)擊率(或多次)進(jìn)行判斷
二次點(diǎn)擊率是指:當(dāng)用戶點(diǎn)擊某結(jié)果后,(因不滿意結(jié)果)產(chǎn)生第二次點(diǎn)擊(或多次)的比率
如果某頁面二次點(diǎn)擊率非常低,百度搜索引擎有理由相信,此網(wǎng)頁的關(guān)鍵詞匹配度非常高,同時(shí)文章的質(zhì)量也有保證。因?yàn)?,眾多用戶的行為已?jīng)為網(wǎng)頁投了關(guān)鍵的一票。
二次點(diǎn)擊率是相對上一條點(diǎn)擊而言。百度搜索默認(rèn)顯示10條搜索結(jié)果,我們假設(shè)一個(gè)這樣的情景:大量用戶點(diǎn)擊到第6條結(jié)果,就不再點(diǎn)擊其他結(jié)果,從常理來說,第6條結(jié)果的網(wǎng)頁,是最匹配的,那么質(zhì)量度自然較高。如果這種數(shù)據(jù)表現(xiàn)達(dá)到一定程度,百度很可能會把它的排序提高到前面幾位(提高排序權(quán)重)。
二、通過兩次點(diǎn)擊之前花費(fèi)的間隔時(shí)間進(jìn)行判斷
假設(shè)百度搜索某個(gè)關(guān)鍵詞,并按分別順序點(diǎn)擊了A/B/C 3個(gè)結(jié)果。如下圖:
根據(jù)普通用戶習(xí)慣,他會先打開并查看A網(wǎng)頁,可能結(jié)果不滿意或信息量不足夠,他又回到百度搜索界面,點(diǎn)擊了B網(wǎng)頁,閱讀完B網(wǎng)頁后,他又打開C網(wǎng)頁。
我們可以看到,A->B 時(shí)間間隔, B->C 時(shí)間間隔 是百度可以獲取的信息。 通過海量用戶的間隔時(shí)間的橫向比較分析,百度足夠建立這樣一個(gè)關(guān)鍵指標(biāo)。
假設(shè)大量數(shù)據(jù)顯示,A->B 時(shí)間間隔為30秒,B->C 時(shí)間間隔為 50秒,那么搜索引擎認(rèn)為,B的質(zhì)量高于A。 這就是間隔時(shí)間判斷的一個(gè)重要邏輯。
以上是我們對“百度如何判斷網(wǎng)頁質(zhì)量”猜測的一些邏輯與思路,實(shí)際上百度搜索的算法模型肯定更復(fù)雜龐大。尤其現(xiàn)在百度產(chǎn)品已經(jīng)涉及方方面面,百度統(tǒng)計(jì)、百度分享還有最近的百度瀏覽器,相信百度會把這幾方面的數(shù)據(jù)綜合利用起來,能夠更精準(zhǔn)的分析判斷網(wǎng)頁質(zhì)量。本文原創(chuàng):新華書店 轉(zhuǎn)載請注明出處!
申請創(chuàng)業(yè)報(bào)道,分享創(chuàng)業(yè)好點(diǎn)子。點(diǎn)擊此處,共同探討創(chuàng)業(yè)新機(jī)遇!