前幾日有文章稱由于眾多站長濫發(fā)信息做外鏈,導致垃圾博文充斥新浪博客,因此新浪博客開始屏蔽百度蜘蛛,有網(wǎng)友發(fā)現(xiàn)大部分新浪博客快照在百度中已經(jīng)沒有更新,通過查看新浪robots文件()發(fā)現(xiàn)其內(nèi)容為:
#####################################################
# SINA BLOG 禁止搜索引擎收錄配置文件
# 文件: ~/robots.txt
# 編寫: 阿狼
# 日期: 2005-03-24
#####################################################
#開放百度的搜索引擎的User-Agent代碼,*表示所有###########
User-agent: Baiduspider
#限制不能搜索的目錄,Disallow: 為空時開放所有目錄####
Disallow: /admin/
Disallow: /include/
Disallow: /html/
Disallow: /queue/
Disallow: /config/
#限制的搜索引擎的User-Agent代碼,*表示所有###########
User-agent: *
#臨時限制對所有目錄的禁止抓取
Disallow: /
由于該文件中有一句:User-agent: Baiduspider 由此很多站長判定,新浪已經(jīng)徹底屏蔽百度蜘蛛,今后靠養(yǎng)新浪博客做外鏈的方法已經(jīng)不可行了。
看到這則消息后,我感覺有幾個疑點:
1、新浪作為世界知名的中文門戶網(wǎng)站,其數(shù)據(jù)處理能力,違規(guī)內(nèi)容管理方法,都足以應(yīng)付目前的垃圾信息,而屏蔽百度蜘蛛會導致流量大減,這與新浪的發(fā)展戰(zhàn)略不符。
2、該robots文件的日期為:2005-03-24,似乎是新浪博客剛上線的時候建立的文件,如果近期新浪的網(wǎng)管修改過robots的話,日期應(yīng)該更改為新的日期。
3、熟悉robots寫法的朋友都知道,該robots.txt文件中僅僅是是設(shè)置了禁止百度蜘蛛訪問后臺文件夾,并沒有其他限制。
基于以上幾點疑慮,我感覺文章中的觀點有失誤的地方,事情應(yīng)該沒有那么糟糕,果然在8月18日有網(wǎng)友發(fā)現(xiàn)新浪博客悄悄更換了robots.txt文件,內(nèi)容改為:
#開放百度的搜索引擎的User-Agent代碼
User-agent: Baiduspider
#限制不能搜索的目錄,Disallow: 為空時開放所有目錄####
Disallow: /admin/
Disallow: /include/
Disallow: /html/
Disallow: /queue/
Disallow: /config/
#開放bing.com的搜索引擎的User-Agent代碼
User-agent: msnbot
#限制不能搜索的目錄,Disallow: 為空時開放所有目錄####
Disallow: /admin/
Disallow: /include/
Disallow: /html/
Disallow: /queue/
Disallow: /config/
User-agent: bing
#限制不能搜索的目錄,Disallow: 為空時開放所有目錄####
Disallow: /admin/
Disallow: /include/
Disallow: /html/
Disallow: /queue/
Disallow: /config/
#限制的搜索引擎的User-Agent代碼,*表示所有###########
User-agent: *
#臨時限制對所有目錄的禁止抓取
Disallow: /
#限制不能搜索的目錄,Disallow: 為空時開放所有目錄####
##Disallow: /admin/
##Disallow: /include/
##Disallow: /html/
##Disallow: /queue/
##Disallow: /config/
#開放搜索的目錄有####################################
# /
# /advice/
# /help/
# /lm/
# /main/
# /myblog/
可以看出新修改的robots.txt文件中的寫法已經(jīng)完全支持各類主流搜索引擎抓取博客內(nèi)容,一個開放的新浪博客又回來了!
針對前幾日出現(xiàn)的情況,個人猜測可能是由于以下幾種原因:
1、前幾日大部分新浪博客被K,可能是由于百度調(diào)整算法所導致的。
2、原來的robots.txt文件很可能是新浪博客剛上線得到時候建立的,由于當時google還沒有正式進入中國,中文搜索還是百度一家獨大,因此設(shè)置的內(nèi)容主要針對百度,此后該文件一直沒有修改,直到最近被網(wǎng)友發(fā)現(xiàn),新浪工作人員才想起重新修改。
雖然這次”屏蔽門“只是一場虛驚,但是也給各位站長敲響了警鐘,不要一味的盲目濫發(fā)垃圾信息,及污染了互聯(lián)網(wǎng)環(huán)境又耗費了網(wǎng)絡(luò)服務(wù)商的資源,小心竭澤而漁!培養(yǎng)10個高質(zhì)量的博客比養(yǎng)100個垃圾博客更有效!
以上是我的一點見解,希望有朋友轉(zhuǎn)載的時候保留我的一個鏈接 多一份保留 多一倍運氣,多一份口碑,多一份成功,謝謝!
申請創(chuàng)業(yè)報道,分享創(chuàng)業(yè)好點子。點擊此處,共同探討創(chuàng)業(yè)新機遇!