當(dāng)前位置:首頁(yè) >  站長(zhǎng) >  搜索優(yōu)化 >  正文

百度站長(zhǎng)平臺(tái):搜索引擎索引系統(tǒng)概述

 2015-06-17 15:00  來(lái)源: 百度站長(zhǎng)平臺(tái)   我來(lái)投稿 撤稿糾錯(cuò)

  域名預(yù)訂/競(jìng)價(jià),好“米”不錯(cuò)過(guò)

眾所周知,搜索引擎的主要工作過(guò)程包括:抓取、存儲(chǔ)、頁(yè)面分析、索引、檢索等幾個(gè)主要過(guò)程。過(guò)去幾周給大家介紹了抓取相關(guān)的簡(jiǎn)要過(guò)程。今天簡(jiǎn)要介紹一下索引系統(tǒng),以億為單位的網(wǎng)頁(yè)庫(kù)中查找特定的某些關(guān)鍵詞猶如大海里面撈針,也許一定的時(shí)間內(nèi)可以完成查找,但是用戶等不起,從用戶體驗(yàn)角度我們必須在毫秒級(jí)別給予用戶滿意的結(jié)果,否則用戶只能流失。怎樣才能達(dá)到這種要求呢?

如果能知道用戶查找的關(guān)鍵詞(query切詞后)都出現(xiàn)在哪些頁(yè)面中,那么用戶檢索的處理過(guò)程即可以想象為包含了query中切詞后不同部分的頁(yè)面集合求交的過(guò)程,而檢索即變成了頁(yè)面名稱之間的比較、求交。這樣,在毫秒內(nèi)以億為單位的檢索成為了可能。這就是通常所說(shuō)的倒排索引及求交檢索的過(guò)程。如下為建立倒排索引的基本過(guò)程:

(1)頁(yè)面分析的過(guò)程實(shí)際上是將原始頁(yè)面的不同部分進(jìn)行識(shí)別并標(biāo)記,例如:title、keywords、content、link、anchor、評(píng)論、其他非重要區(qū)域等等;

(2)分詞的過(guò)程實(shí)際上包括了切詞分詞同義詞轉(zhuǎn)換同義詞替換等等,以對(duì)某頁(yè)面title分詞為例,得到的將是這樣的數(shù)據(jù):term文本、termid、詞類、詞性等等;

(3)之前的準(zhǔn)備工作完成后,接下來(lái)即是建立倒排索引,形成{termàdoc},可以粗略的理解為如下,為什么是【term->doc】,而不是直接應(yīng)用【doc->term】呢?

上述即是索引系統(tǒng)中的倒排索引過(guò)程,是搜索引擎實(shí)現(xiàn)毫秒級(jí)檢索非常重要的一個(gè)環(huán)節(jié)。

申請(qǐng)創(chuàng)業(yè)報(bào)道,分享創(chuàng)業(yè)好點(diǎn)子。點(diǎn)擊此處,共同探討創(chuàng)業(yè)新機(jī)遇!

相關(guān)文章

  • 最接地氣的SEO指南 讓新入行的你少走一大段彎路

    老賀是2005年開(kāi)始做網(wǎng)站的,那時(shí)候我們國(guó)內(nèi)的網(wǎng)站并不多,但是每天分享知識(shí)的人卻不少,整天混跡在A5站長(zhǎng)網(wǎng)、站長(zhǎng)之家、落伍者上面,不斷的充實(shí)自己,不過(guò)信息良莠不齊,也走了很多的彎路。之后在實(shí)踐、實(shí)戰(zhàn)中有了技能,在2008年的時(shí)候,老賀開(kāi)始對(duì)外搞SEO,就這樣一晃十多年過(guò)去了。今天這篇文章,老賀只寫(xiě)一

  • 百度會(huì)區(qū)別對(duì)待不同域名前后綴嗎?

    我曾在另一個(gè)SEO博客中發(fā)表過(guò)一篇文章,是關(guān)于“百度是否會(huì)區(qū)別對(duì)待不同域名后綴”的文章,在文章中我提出了一個(gè)觀點(diǎn),明確指出“百度不會(huì)區(qū)別對(duì)待不同后綴的域名”,每一種后綴的域名享有同等待遇。

    標(biāo)簽:
    百度seo
  • 談?wù)勅W(wǎng)SEO矩陣是什么?一般怎么做?【舉例】

    大家好,我是白楊SEO,專注SEO十年,SEO流量實(shí)戰(zhàn)派,企業(yè)流量增長(zhǎng)顧問(wèn)。擅長(zhǎng)研究各平臺(tái)自然搜索流量玩法。曾帶一個(gè)PCB項(xiàng)目,從0-1,現(xiàn)該項(xiàng)目年?duì)I收10億+。曾靠一篇文章引流精準(zhǔn)粉絲1000+,變現(xiàn)3萬(wàn)+。個(gè)人原創(chuàng)公眾號(hào):白楊SEO。一年不到,關(guān)注人數(shù)從0到5000+,目前關(guān)注25000+。

  • 百度正在暴力截流SEO還有用嗎

    百度的核心流量階層基本已經(jīng)固化,新的站點(diǎn)很難會(huì)有太多的流動(dòng)機(jī)會(huì),這個(gè)時(shí)候就需要去豐富流量的來(lái)源類型,避免把雞蛋都裝在一個(gè)籃子里。比如下面這個(gè)站點(diǎn),谷歌和必應(yīng)的流量占比都在不斷的上漲中,這也是平臺(tái)向內(nèi)容生產(chǎn)者釋放出的友好信號(hào),是值得去重點(diǎn)拓展維護(hù)的。

    標(biāo)簽:
    百度seo
  • 怎么巧用百科讓網(wǎng)站排名上升流量倍增?

    怎么巧用百科讓網(wǎng)站排名上升流量倍增?很多朋友的網(wǎng)站優(yōu)化以后還是沒(méi)有得到很好的排名,沒(méi)關(guān)系,今天給大家分享一個(gè)技巧,就是使用百科讓沒(méi)排名的網(wǎng)站迅速排名,需要的朋友可以參考下

    標(biāo)簽:
    網(wǎng)站流量
    百度seo

熱門(mén)排行

信息推薦