如何制作對應(yīng)關(guān)系sitemap文件(pattern級別)?
1、格式
Pattern級別對應(yīng)關(guān)系提交支持XML sitemap的形式,每個xml sitemap文件可包含1組或者多組pattern對應(yīng)關(guān)系。格式說明如下:
各URL字段可以被CDATA標(biāo)記包含,如 。
示例:
2、字段詳細(xì)說明
pc_url_pattern: 表示PC頁pattern,在PC頁url的基礎(chǔ)上,首先確定url中哪些路徑或參數(shù)是可替換的。然后根據(jù)其類型,使用正則匹配符號(\d+)或者(\w+)表示該路徑或參數(shù)。(\d+)表示純數(shù)字字符串,(\w+)表示數(shù)字或字母組成的字符串。
xhtml_url_pattern / html5_url_pattern/ wml_url_pattern:表示xhtml/html5/wml版式的手機(jī)頁pattern,在手機(jī)頁url的基礎(chǔ)上,根據(jù)可替換參數(shù)在對應(yīng)的PC頁pattern中出現(xiàn)的順序,依次用${1},${2},……表示該參數(shù)。
3、舉例
以網(wǎng)易的新聞頁“漫游接電話移動也不要錢了”為例,其PC頁url地址為, 其對應(yīng)的xhtml格式的手機(jī)頁url地址為
步驟一:確定PC頁中的可替換參數(shù)或者路徑,得到其位置序號和類型。
根據(jù)網(wǎng)站自身url的層次結(jié)構(gòu),其中09,1001,07和5KH8DE1F000120GR為動態(tài)可替換的路徑。除5KH8DE1F000120GR為字母和數(shù)字混合外,其余均為純數(shù)字。
步驟二:根據(jù)可替換參數(shù)或路徑的類型,得到PC頁pattern (即sitemap中的pc_url_pattern)。
使用正則匹配符號(\d+)或者(\w+)表示該路徑或參數(shù)。(\d+)表示純數(shù)字字符串,(\w+)表示數(shù)字或字母組成的字符串。
步驟三:根據(jù)手機(jī)頁url,以及可替換參數(shù)在步驟一中的位置序號,依次用${1},${2},……表示替換掉手機(jī)頁url中的可替換參數(shù)或路徑,得到手機(jī)頁pattern。
步驟四:根據(jù)手機(jī)頁的頁面類型,將手機(jī)頁pattern寫入對應(yīng)的字段。各字段可以用CDATA標(biāo)記包含,如 。
如示例中該pattern的手機(jī)頁面為xhtml版式,將pattern {1}/${2}/${3}/${4}.html 寫入到xhtml_url_pattern字段中。
最終得到sitemap文件如下:
備注:
· 通過sitemap只能提交具有簡單對應(yīng)關(guān)系的pattern,也即,在PC頁url與手機(jī)頁路徑或參數(shù)之間存在直接的對應(yīng)關(guān)系,使得機(jī)器能根據(jù)PC頁url按照一定的正則pattern自動計算出與其對應(yīng)的手機(jī)頁的url。如和雖然是對應(yīng)的,但是從url本身很難找到聯(lián)系,就不屬于簡單對應(yīng)關(guān)系。
· 正則匹配符號只支持(\d+)和(\w+),且不可嵌套使用,如(d+(\w+))這種形式不合法。域名中不可出現(xiàn)正則匹配符號。
· pattern中,站長無需對特殊字符進(jìn)行轉(zhuǎn)義,例如不需要用\.代替. ,不需要用&代替&。
· pattern級別對應(yīng)關(guān)系和url級別對應(yīng)關(guān)系的sitemap格式不一樣,請分別制作不同的文件并分開提交。
申請創(chuàng)業(yè)報道,分享創(chuàng)業(yè)好點子。點擊此處,共同探討創(chuàng)業(yè)新機(jī)遇!