當(dāng)前位置:首頁(yè) >  站長(zhǎng) >  搜索優(yōu)化 >  正文

關(guān)于如何設(shè)置robots.txt文件淺談

 2015-11-20 15:10  來(lái)源: 用戶投稿   我來(lái)投稿 撤稿糾錯(cuò)

  域名預(yù)訂/競(jìng)價(jià),好“米”不錯(cuò)過(guò)

一個(gè)合格的網(wǎng)站,有必要在根目錄下包括一下robots.txt文件,這個(gè)文件的效果對(duì)悉數(shù)運(yùn)營(yíng)網(wǎng)站的朋友來(lái)說(shuō)并不陌生,網(wǎng)上也供應(yīng)了很多制作 robots.txt文件的方法和軟件,可謂恰當(dāng)便當(dāng)??墒?,你真的知道網(wǎng)站的robots.txt文件設(shè)置是不是合理,哪些文件或許目錄需要屏蔽、哪些設(shè) 置方法對(duì)網(wǎng)站運(yùn)營(yíng)有利益?

那下面帶著這些疑問(wèn),筆者會(huì)進(jìn)行具體的答復(fù),希望對(duì)菜鳥站長(zhǎng)朋友們有所幫忙,老鳥勿噴。

一、啥是robots.txt

筆者引證baidu站長(zhǎng)東西中后段話來(lái)闡明。查找引擎運(yùn)用spider程序自動(dòng)訪問(wèn)互聯(lián)網(wǎng)上的頁(yè)面并獲取頁(yè)面信息。spider在訪問(wèn)一個(gè)網(wǎng)站時(shí),會(huì)首先會(huì) 查看該網(wǎng)站的根域下是不是有一個(gè)叫做 robots.txt的純文本文件,這個(gè)文件用于指定spider在您網(wǎng)站上的抓取計(jì)劃。您可以在您的網(wǎng)站中創(chuàng)立一個(gè)robots.txt,在文件中聲明 該網(wǎng)站中不想被查找引擎錄入的有些或許指定查找引擎只錄入特定的有些。

二、robots.txt文件對(duì)網(wǎng)站有啥利益

1、快速添加網(wǎng)站權(quán)重和訪問(wèn)量;

2、阻遏某些文件被查找引擎索引,可以節(jié)省服務(wù)器帶寬和網(wǎng)站訪問(wèn)速度;

3、為查找引擎供應(yīng)一個(gè)簡(jiǎn)潔明了的索引環(huán)境

三、哪些網(wǎng)站的目錄需要運(yùn)用robots.txt文件阻遏抓取

1)、圖畫目錄

圖畫是構(gòu)成網(wǎng)站的首要構(gòu)成元素。跟著現(xiàn)在搭站越來(lái)越便當(dāng),很多CMS的出現(xiàn),真實(shí)做到了會(huì)打字就會(huì)建網(wǎng)站,而恰是因?yàn)槿绱吮惝?dāng),網(wǎng)上出現(xiàn)了很多的同質(zhì) 化模板網(wǎng)站,被重復(fù)運(yùn)用,這么的網(wǎng)站查找引擎是一定不喜愛的,就算是你的網(wǎng)站被錄入了,那你的效果也是很差的。假定你非要用這種網(wǎng)站的話,建議你應(yīng)當(dāng)在 robots.txt文件中進(jìn)行屏蔽,通常的網(wǎng)站圖畫目錄是:imags 或許 img;

2)、網(wǎng)站模板目錄

如上面 圖畫目錄 中所說(shuō),CMS的強(qiáng)大和活絡(luò),也致使了很多同質(zhì)化的網(wǎng)站模板的出現(xiàn)和亂用,高度的重復(fù)性模板在查找引擎中構(gòu)成了一種冗余,且模板文件常常與生成文件高度相 似,一樣易構(gòu)成一樣內(nèi)容的出現(xiàn)。對(duì)查找引擎很不友善,嚴(yán)峻的直接被查找引擎打入冷宮,不得翻身,很多CMS有具有獨(dú)立的模板存放目錄,因而,應(yīng)當(dāng)進(jìn)行模板 目錄的屏蔽。通常模板目錄的文件目錄是:templets

3)、CSS、JS目錄的屏蔽

CSS目錄文件在查找引擎的抓取中沒有用處,也無(wú)法供應(yīng)有價(jià)值的信息。所以劇烈建議站長(zhǎng)朋友們?cè)赗obots.txt文件中將其進(jìn)行屏蔽,以跋涉查找 引擎的索引質(zhì)量。為查找引擎供應(yīng)一個(gè)簡(jiǎn)潔明了的索引環(huán)境更易行進(jìn)網(wǎng)站友善性。CSS樣式的目錄通常情況下是:CSS 或許 style

JS文件在查找引擎中無(wú)法進(jìn)行辨認(rèn),這兒只是建議,可以對(duì)其進(jìn)行屏蔽,這么做也有一個(gè)利益:為查找引擎供應(yīng)一個(gè)簡(jiǎn)潔明了的索引環(huán)境;

4)、屏蔽雙頁(yè)面的內(nèi)容

這兒拿DEDECMS來(lái)舉例吧。咱們都知道DEDECMS可以運(yùn)用靜態(tài)和動(dòng)態(tài)URL進(jìn)行同一篇內(nèi)容的訪問(wèn),假定你生成全站靜態(tài)了,那你有必要屏蔽動(dòng)態(tài)地 址的URL銜接。這兒有兩個(gè)利益:1、查找引擎對(duì)靜態(tài)的URL比動(dòng)態(tài)的URL更友善、更簡(jiǎn)略錄入;2、避免靜態(tài)、動(dòng)態(tài)URL能訪問(wèn)同一篇文章而被查找引擎 判為重復(fù)內(nèi)容。這么做對(duì)查找引擎友善性來(lái)說(shuō)是有益無(wú)害的。

5)、模板緩存目錄

很多CMS程序都有緩存目錄,這種緩存目錄的利益我想不用說(shuō)咱們也了解了吧,可以十分有用的行進(jìn)網(wǎng)站的訪問(wèn)速度,減少網(wǎng)站帶寬,對(duì)用戶體會(huì)也是極好 的。不過(guò),這么的緩存目錄也有一定的缺點(diǎn),那就是會(huì)讓查找引擎進(jìn)行重復(fù)的抓取,一個(gè)網(wǎng)站中內(nèi)容重復(fù)也是大祭,對(duì)網(wǎng)站百害而無(wú)一利。很多運(yùn)用CMS搭站的朋 友都沒有留心到,有必要要致使注重。

6)被刪去的目錄

死鏈過(guò)多,對(duì)查找引擎優(yōu)化來(lái)說(shuō),是喪身的。不能不致使站長(zhǎng)的高度注重,。在網(wǎng)站的打開過(guò)程中,目錄的刪去和調(diào)整是不行避免的,假定你的網(wǎng)站其時(shí)目錄不 存在了,那有必要對(duì)此目錄進(jìn)行robots屏蔽,并回來(lái)精確的404過(guò)錯(cuò)頁(yè)面(留心:在IIS中,有的朋友在設(shè)置404過(guò)錯(cuò)的時(shí)分,設(shè)置存在疑問(wèn),在自定義 過(guò)錯(cuò)頁(yè)面一項(xiàng)中,404過(guò)錯(cuò)的精確設(shè)置應(yīng)當(dāng)是挑選:默認(rèn)值 或許 文件,而不應(yīng)該是:URL,以避免查找引擎回來(lái)200的狀況碼。至于怎么設(shè)置,網(wǎng)上教程很多,咱們要吧查找一下)

這兒有一個(gè)爭(zhēng)議性的疑問(wèn),關(guān)于網(wǎng)站后臺(tái)處理目錄是不是需要進(jìn)行屏蔽,正本這個(gè)可有可無(wú)。在能確保網(wǎng)站安全的情況下,假定你的網(wǎng)站運(yùn)營(yíng)計(jì)劃較小,就算網(wǎng)站 處理目錄出現(xiàn)在robots.txt文件中,也沒有多大疑問(wèn),這個(gè)我也見過(guò)很多網(wǎng)站這么設(shè)置的;但假定你的網(wǎng)站運(yùn)營(yíng)計(jì)劃較大,競(jìng)爭(zhēng)奪手過(guò)多,劇烈建議千萬(wàn) 別出現(xiàn)任何你網(wǎng)站后臺(tái)處理目錄的信息,以防被存心不良的人運(yùn)用,損害你的利益;正本查找引擎越來(lái)越智能,關(guān)于網(wǎng)站的處理目錄仍是能極好的辨認(rèn),并扔掉索引 的。其他,咱們?cè)谧鼍W(wǎng)站后臺(tái)的時(shí)分,也可以在頁(yè)面元標(biāo)簽中添加:進(jìn)行查找引擎的屏蔽抓取。

究竟,需要闡明一點(diǎn),很多站長(zhǎng)朋友喜愛把站點(diǎn)地圖地址放在robots.txt文件中,當(dāng)然這兒并不是去屏蔽查找引擎,而是讓查找引擎在初度索引網(wǎng) 站的時(shí)分便能通過(guò)站點(diǎn)地圖快速的抓取網(wǎng)站內(nèi)容。這兒需要留心一下:1、站點(diǎn)地圖的制作一定要規(guī)范;2、網(wǎng)站一定要有高質(zhì)量的內(nèi)容。

本文來(lái)自-資產(chǎn)之家www.zichanzhijia.com

申請(qǐng)創(chuàng)業(yè)報(bào)道,分享創(chuàng)業(yè)好點(diǎn)子。點(diǎn)擊此處,共同探討創(chuàng)業(yè)新機(jī)遇!

相關(guān)標(biāo)簽
robots標(biāo)簽
robots

相關(guān)文章

  • robots協(xié)議怎么寫 作用是什么?

    robots協(xié)議也叫robots.txt(統(tǒng)一小寫)是一種存放于網(wǎng)站根目錄下的ASCII編碼的文本文件,它通常告訴網(wǎng)絡(luò)搜索引擎的漫游器(又稱網(wǎng)絡(luò)蜘蛛),此網(wǎng)站中的哪些內(nèi)容是不應(yīng)被搜索引擎的漫游器獲取的,哪些是可以被漫游器獲取的。

    標(biāo)簽:
    robots
  • robots具體應(yīng)該禁止些什么文件

    今天大概總結(jié)一下:首先說(shuō)明一點(diǎn):每天百度派出的蜘蛛是有限的,robots寫出來(lái)是為了節(jié)省蜘蛛資源讓蜘蛛能更快的進(jìn)行有效爬取和收錄!

  • robots文件編寫秘籍 新手必看

    當(dāng)我們的網(wǎng)站上線之后,一定會(huì)有一些不想讓百度抓取的頁(yè)面、文件,針對(duì)這種問(wèn)題,我們就要使用協(xié)議去屏蔽。那么這個(gè)協(xié)議是什么?究竟怎么寫這個(gè)協(xié)議呢?

    標(biāo)簽:
    robots文件
    robots
  • robots.txt文件怎么寫才正確呢?

    曾慶平SEO在前面的文章中講過(guò)robots.txt概念的時(shí)候,留下一個(gè)問(wèn)題:為什么曾慶平SEO的robots.txt寫得那么復(fù)雜?曾慶平SEO的robots.txt:http://www.xxx.com/robots.txt這樣做的目的是,讓搜索引擎看來(lái)網(wǎng)站更規(guī)范和權(quán)威。

  • 百度站長(zhǎng)平臺(tái)檢測(cè)robots.txt 提示301錯(cuò)誤代碼 怎么解決

    如果以上都沒有錯(cuò)誤,那么你就要檢查你的CDN了,很可能是因?yàn)镃DN緩存而造成的,或者是你配置了https,而站長(zhǎng)平臺(tái)卻綁定的http,無(wú)法訪問(wèn),這兩點(diǎn)自己排查,如果以上都做到,那么是不會(huì)提示這類錯(cuò)誤的,當(dāng)然也不排查百度站長(zhǎng)平臺(tái)本身的問(wèn)題,不過(guò)這種機(jī)率性很小。

熱門排行

信息推薦