日志分析是做網(wǎng)站必要步驟,很多人只管做站,從來不看日志,認(rèn)為看日志是一個(gè)浪費(fèi)時(shí)間的活,更別說是日志分析了。
我個(gè)人認(rèn)為日志分析有以下幾個(gè)好處:
了解網(wǎng)站蜘蛛爬取情況
看是否有人盯住你的網(wǎng)站
優(yōu)化網(wǎng)站配置
我們分析網(wǎng)站一般用到日志分析工具,在這里推薦三款:愛站日志分析、站長日志分析和LOGHAO等。為了公平起見,我用同一份日志,在三個(gè)工具里都跑了一遍:
結(jié)果是,LOGHAO和站長日志分析比較準(zhǔn)確,愛站不準(zhǔn)。以下是分析步驟:我提取了收錄的url鏈接;
這些url是按照快照時(shí)間,大約是15個(gè)小時(shí)收錄的,按照文章發(fā)布時(shí)間,推算出這些文章大概都是秒收。
220.181.108.147 文章A /original/38.html
220.181.108.145 文章B /zhuanzai/42.html
220.181.108.146 文章C /original/53.html
220.181.108.171 文章D /original/44.html
220.181.108.117
220.181.108.86 文章E /down/36.html
124.166.232.42 (山西省陽泉市 聯(lián)通 ) 文章F /zhuanzai/51.html
那么這個(gè)IP段,LOGHAO和站長是一致的。根據(jù)IP段來說,220.181.108.*這個(gè)IP段(專用抓取首頁IP權(quán)重段,爬過的文章或首頁,隔日快照)
124.166.232.42這個(gè)IP通過nslookp反查也是百度的蜘蛛。
我們拿到這些數(shù)據(jù)除了看看,還能干嗎呢?
如果你做了蜘蛛池或者做了引蜘蛛的操作,那就看下來IP多的到底是多少,一般情況下,只有220.181.108.*等網(wǎng)段IP過來才能被收錄,如果這些IP不過來,那怎么收錄呢?
如果你的網(wǎng)站出現(xiàn)很多莫名其妙的路徑的IP,趕緊去堵住漏洞或者網(wǎng)站做上安全防護(hù),因?yàn)槟惚蝗擞霉ぞ邟吡恕?/p>
如果日志里過多的404錯(cuò)誤,檢查下你的網(wǎng)站內(nèi)部是不是因?yàn)槟承┰虺霈F(xiàn)死鏈,或者是因?yàn)楦陌娉霈F(xiàn)鏈接失效,記得把這些鏈接提交到站長工具死鏈提交工具里。
另外,這網(wǎng)段的IP是收錄的前提,有這些IP過來才有可能被收錄,但不是一定收錄。請注意理解意思,還有一點(diǎn)值得注意的是robots的合理應(yīng)用。
文章首發(fā)運(yùn)營筆記。
申請創(chuàng)業(yè)報(bào)道,分享創(chuàng)業(yè)好點(diǎn)子。點(diǎn)擊此處,共同探討創(chuàng)業(yè)新機(jī)遇!