當(dāng)前位置:首頁 >  站長 >  搜索優(yōu)化 >  正文

網(wǎng)站在優(yōu)化過程中頁面抓取過程簡述

 2018-11-07 08:43  來源: 用戶投稿   我來投稿 撤稿糾錯(cuò)

  域名預(yù)訂/競價(jià),好“米”不錯(cuò)過

url,即統(tǒng)一資源定位符,通過對(duì)url的分析,我們可以更好地理解頁面抓取過程。今天,小小課堂SEO學(xué)網(wǎng)帶來的是《頁面抓取過程簡述》。希望本次的SEO技術(shù)培訓(xùn)對(duì)大家有所幫助。

一、url是什么意思?

URL,英文全稱為“uniform resource locator”,中文譯為“統(tǒng)一資源定位符”。

在網(wǎng)站優(yōu)化中要求每一個(gè)頁面有且僅有一個(gè)唯一的統(tǒng)一資源定位符(URL),但往往很多網(wǎng)站同一頁面對(duì)應(yīng)了很多個(gè)URL,如果都被搜索引擎收錄且未做URL轉(zhuǎn)向,就會(huì)產(chǎn)生權(quán)重不集中的情況,通常稱為URL不規(guī)范。

二、url的組成

統(tǒng)一資源定位符(URL),由三部分組成:協(xié)議方案、主機(jī)名和資源名。

例如:

https:// www.x**.org /11806

其中https為協(xié)議方案,www.***.org 為主機(jī)名 ,11806為資源,不過這個(gè)資源不太明顯,一般資源后綴為.html,當(dāng)然還可以是.pdf、.php、.word等格式。

三、頁面抓取過程簡述

無論是我們平時(shí)用的互聯(lián)網(wǎng)瀏覽器,還是網(wǎng)絡(luò)爬蟲,雖然是兩種不同的客戶端,但獲取頁面的方式卻是相同的。頁面抓取過程如下:

① 連接DNS域名系統(tǒng)服務(wù)器

客戶端都會(huì)先連接到DNS域名服務(wù)器上,DNS服務(wù)器將主機(jī)名( www.***.org )轉(zhuǎn)換為IP地址,并反饋給客戶端。

PS:本來我們通過111.152 . 151.45 的地址來訪問某網(wǎng)站,為了方便記憶和使用,才利用DNS域名系統(tǒng)轉(zhuǎn)換為了 www.***.org 。這也就是DNS域名系統(tǒng)的作用。

② 連接IP地址服務(wù)器

該IP服務(wù)器下可能會(huì)有很多程序(網(wǎng)站),可以通過端口號(hào)來做區(qū)分,同時(shí)每個(gè)程序(網(wǎng)站)都會(huì)監(jiān)聽端口是否有新的連接請(qǐng)求,HTTP網(wǎng)站默認(rèn)為80,HTTPS網(wǎng)站默認(rèn)為443。

不過通常情況下,端口號(hào)80和443是默認(rèn)不出現(xiàn)的。

舉例來講:

https://www.***.org:443/ = https://www.***.org/

http://www.***.org:80/ = http://www.***.org/

③ 建立連接并發(fā)送頁面請(qǐng)求

客戶端與服務(wù)器建立連接后,會(huì)發(fā)送頁面請(qǐng)求,通常為get,也可以是post。

get 11806 HTTPS/1.0

獲取HTTPS協(xié)議下的頁面11806 返回給客戶端。之后如需繼續(xù)獲取更多頁面,則發(fā)送其他請(qǐng)求,否則將關(guān)閉該連接。

PS:通常情況下 ,/seo/11806.html 可能會(huì)更清晰。也就是發(fā)送 https://www.***.org/ 下的 seo文件夾下的 11806.html 的頁面請(qǐng)求。

以上就是小小課堂SEO自學(xué)網(wǎng)帶來的是《頁面抓取過程簡述》。感謝您的觀看。網(wǎng)絡(luò)營銷培訓(xùn)認(rèn)準(zhǔn)小小課堂!SEO培訓(xùn)認(rèn)準(zhǔn)小小課堂!更多seo教程搜索小小課堂。原創(chuàng)文章歡迎轉(zhuǎn)載并保留版權(quán):https://www.xxkt.org/

申請(qǐng)創(chuàng)業(yè)報(bào)道,分享創(chuàng)業(yè)好點(diǎn)子。點(diǎn)擊此處,共同探討創(chuàng)業(yè)新機(jī)遇!

相關(guān)文章

熱門排行

信息推薦