10月21日,百度lee簡要介紹了搜索引擎索引系統(tǒng)概述(一),主要講的就是搜索引擎的倒排索引,還是先來百科一下:Query,是查詢的意思,為了在數(shù)據(jù)庫中尋找某一特定文件、網(wǎng)站、記錄或一系列記錄,由搜索引擎或數(shù)據(jù)庫送出的消息;term是單詞文本,即關(guān)鍵詞。
今天,百度Lee公布了搜索引擎索引系統(tǒng)概述第二部分,以下是原文:
實(shí)際上在建立倒排索引的最后還需要有一個(gè)入庫寫庫的過程,而為了提高效率這個(gè)過程還需要將全部term以及偏移量保存在文件頭部,并且對數(shù)據(jù)進(jìn)行壓縮,這涉及到的過于技術(shù)化在此就不多提了。今天簡要給大家介紹一下索引之后的檢索系統(tǒng)。
檢索系統(tǒng)主要包含了五個(gè)部分,如下圖所示:
(1)Query串切詞分詞即將用戶的查詢詞進(jìn)行分詞,對之后的查詢做準(zhǔn)備,以“10號線地鐵故障”為例,可能的分詞如下(同義詞問題暫時(shí)略過):
10 0x123abc
號 0x13445d
線 0x234d
地鐵 0x145cf
故障 0x354df
(2)查出含每個(gè)term的文檔集合,即找出待選集合,如下:
0x123abc 1 2 3 4 7 9…..
0x13445d 2 5 8 9 10 11……
……
……
(3)求交,上述求交,文檔2和文檔9可能是我們需要找的,整個(gè)求交過程實(shí)際上關(guān)系著整個(gè)系統(tǒng)的性能,這里面包含了使用緩存等等手段進(jìn)行性能優(yōu)化;
(4)各種過濾,舉例可能包含過濾掉死鏈、重復(fù)數(shù)據(jù)、色情、垃圾結(jié)果以及你懂的;
(5)最終排序,將最能滿足用戶需求的結(jié)果排序在最前,可能包括的有用信息如:網(wǎng)站的整體評價(jià)、網(wǎng)頁質(zhì)量、內(nèi)容質(zhì)量、資源質(zhì)量、匹配程度、分散度、時(shí)效性等等,之后會詳細(xì)給大家介紹。
好了,上面的的大家可能不太懂,木木SEO給大家來解釋一下:
前面(1)就是搜索引擎將提取文中關(guān)鍵詞,按分詞程序劃分好的詞,同時(shí)記錄每個(gè)詞在頁面中出現(xiàn)的頻率、出現(xiàn)的次數(shù)、格式(如加粗、傾斜、黑體、H標(biāo)簽、加顏色、錨文字等)、位置。然后把這些詞語記錄為串關(guān)鍵詞集合,那么這些詞的相關(guān)信息如格式、權(quán)重等也會記錄在案。實(shí)際在搜索引擎中每個(gè)關(guān)鍵詞也被轉(zhuǎn)換為ID形式記錄,然后每個(gè)文件ID對應(yīng)一串關(guān)鍵詞ID。這種每個(gè)文件ID對應(yīng)一個(gè)串關(guān)鍵詞ID這樣的數(shù)據(jù)結(jié)構(gòu)被稱之為正向索引。比如文件1對應(yīng)1、2這二個(gè)關(guān)鍵詞,文件2對應(yīng)1、3這二個(gè)關(guān)鍵詞。
而(2)就是將每一串關(guān)鍵詞ID對應(yīng)文件ID,比如關(guān)鍵詞2對應(yīng)文件1、3,如此一來大大縮短搜索引擎掃描索引庫中的文件,縮短掃描時(shí)間。提升搜索引擎的效率。
文章編輯自:木木SEO博客 有問題可以咨詢!
申請創(chuàng)業(yè)報(bào)道,分享創(chuàng)業(yè)好點(diǎn)子。點(diǎn)擊此處,共同探討創(chuàng)業(yè)新機(jī)遇!