很多人在做SEO的時候,搞不清蜘蛛爬取的原理或者對收錄索引都搞不清關(guān)系,這篇文章主要針對實(shí)戰(zhàn)來講解蜘蛛和收錄的關(guān)系,不講原理,只講干貨和經(jīng)驗(yàn)。
首先我們提到蜘蛛可能就可能想到IP,比如以下這些;
220.181.108.89專用抓取首頁IP 權(quán)重段,一般返回代碼是304 0 0代表未更新。
220.181.108.94專用抓取首頁IP 權(quán)重段,一般返回代碼是304 0 0代表未更新。
220.181.108.97專用抓取首頁IP 權(quán)重段,一般返回代碼是304 0 0代表未更新。
220.181.108.80專用抓取首頁IP 權(quán)重段,一般返回代碼是304 0 0代表未更新。
220.181.108.77 專用抓首頁IP 權(quán)重段,一般返回代碼是304 0 0代表未更新。
是不是很難理解?但是如果做過網(wǎng)絡(luò)維護(hù)、或者局域網(wǎng)組網(wǎng)的就能明白,其實(shí)每個IP對應(yīng)的就是一臺電腦,每組服務(wù)器組對應(yīng)的就是網(wǎng)段。
比如,220.181.108.x這個網(wǎng)段,我們暫且叫收錄服務(wù)器組,這個服務(wù)器組下面有電腦ABCDE,對應(yīng)的IP,每臺電腦上裝著相應(yīng)的收錄程序。
那么這樣是不是清楚了呢?比如你提交一個鏈接到百度,那么相當(dāng)于把這個鏈接提交到收錄服務(wù)器組的C號電腦。
比如你提交了1、2、3個鏈接,這三個鏈接分別提交到了收錄服務(wù)器組的C、D、E號電腦,所以你查看日志的時候會發(fā)現(xiàn),這三條鏈接對應(yīng)不同的IP,也就是對應(yīng)著不同的電腦。
那為什么提交3條鏈接會提交到三臺不同電腦呢?我個人猜測,或許提交的數(shù)據(jù)太多,同一臺電腦處理不了,所以采取了分布處理方式。(個人猜測,并非是研究證明,或許是更高級的處理方式)。
我昨天針對這個做了一個測試,寫了3篇原創(chuàng)文章,發(fā)布后,我以最短的時間查看蜘蛛爬取情況,結(jié)果這三篇文章,分別爬取的IP是;
116.179.32.135——服務(wù)器1
220.181.108.122——服務(wù)器2
220.181.108.180——服務(wù)器3
第一篇文章寫完后,文章過幾分鐘秒收錄,然后我模仿第一篇寫作框架,繼續(xù)寫第二篇,第二篇也過幾分鐘秒收,然后接著寫第三篇,可惜的是,第三篇沒有收錄。
但第二天,這三篇全部收錄,也就是說,第三篇變成了隔天收錄。
我又查看了116.179.32.135這個IP,這個IP屬于山西省陽泉市 聯(lián)通,目前很多人都奇怪現(xiàn)在出現(xiàn)了116.179.32.X網(wǎng)段的蜘蛛,現(xiàn)在可以確定 的是,這個網(wǎng)段就是百度蜘蛛,除了nslookup可以驗(yàn)證外,以下幾點(diǎn)也是證據(jù);
蜘蛛爬身上是報喜?是時候了解蜘蛛爬取原理了!揭秘收錄難題!
另外百度李總裁老家也是陽泉的,所以幾個證據(jù)足以說明,搜索服務(wù)器一部分也搬到了山西。
結(jié)合上面實(shí)戰(zhàn)的經(jīng)驗(yàn)包括以往收錄爬取的蜘蛛分析,只要是鏈接提交到116.179.32.135,或者220.181.108.122、220.181.108.180等等,那么鏈接必定收錄,所以唯一解開收錄密碼的難點(diǎn)在于,如果控制鏈接提交到這些服務(wù)器?
甚至有人戲謔稱,220開頭的是官方蜘蛛,而116開頭是老家蜘蛛,呵呵,希望大佬一起來研究這個問題。
文章首發(fā)運(yùn)營正經(jīng)說:https://www.yyzjs.cn/zhanzhang/779.html
申請創(chuàng)業(yè)報道,分享創(chuàng)業(yè)好點(diǎn)子。點(diǎn)擊此處,共同探討創(chuàng)業(yè)新機(jī)遇!