當前位置:首頁 >  站長 >  搜索優(yōu)化 >  正文

采集規(guī)則設置注意事項

 2016-01-07 15:41  來源: 用戶投稿   我來投稿 撤稿糾錯

  域名預訂/競價,好“米”不錯過

在這個越來越浮躁的社會,越來越多的人期望事情能夠越來越輕松,越來越容易。特別是對于瞬息萬變的互聯(lián)網(wǎng)來說,需要時間去仔細琢磨的事情并不適合。就拿網(wǎng)站運營來說,完全的原創(chuàng)文章雖然對網(wǎng)站優(yōu)化排名有很好的幫助,但大部分的網(wǎng)站運營的寫作能力并不高,再加上題材的限制、時間的規(guī)律性,希望完全通過原創(chuàng)及全手工來運營和優(yōu)化一個網(wǎng)站是很困難的事情,特別是對于一些資訊類網(wǎng)站、商城類網(wǎng)站、視頻類網(wǎng)站等此類頁面較多、內容更新要求較快的網(wǎng)站來說,無論是內容建設還是外鏈發(fā)布都是個龐大而復雜的任務,靠手工完成無論是時間上還是成本上都不劃算。因而,有時候我們需要使用到一些工具的輔助。采集工具就是其中的一種。

目前在網(wǎng)站采集中使用得比較多的采集工具是火車頭采集工具以及織夢自身的dede采集工具,采集工具之間的優(yōu)劣對比網(wǎng)絡上有很多,百度一下你就知道,而采集規(guī)則的設置網(wǎng)絡上也有很多攻略,大抵都差不多,因而本文也不再多加說明,有興趣的童鞋可以自行搜索看看。今天美孕寶防輻射服小美要跟大家分享的是,在設置采集規(guī)則的時候,有哪些注意事項?

一、采集起止代碼設置

在采集規(guī)則設置中,很重要的一個步驟就是采集起止代碼的設置。一般是一小段代碼,以“數(shù)字/英文+符號”形式為主。代碼越短越不容易出錯,并需要具有唯一性,以方便機器快速辨別采集的起止位置。在網(wǎng)上的教程中,這段起止代碼一般是完整的一段,如[內容],其中,是開始采集位置,[內容]代表需要采集的部分信息,是終止采集位置,很多人會誤以為起止代碼一定需要是完整的一段,但實際上并非如此。

如下圖兩種:

代碼的某一部分,或者甚至是夾雜中文的代碼也可以作為采集的起止代碼,這可以去掉一些網(wǎng)站內容開頭與結尾帶有網(wǎng)站專有標識。

二、標題采集設置

標題采集很簡單,有兩種方式,如下圖所示:

在需要采集的頁面點擊右鍵選擇“查看源代碼”,在打開的頁面中使用快捷鍵Ctrl+F,在出現(xiàn)的搜索欄中輸入該采集內容的標題,就能查看到該頁面的標題規(guī)則,一般為title標簽以及H標簽,數(shù)量在1~4個不等。一般頁面會兩種標題標簽并存。這種情況下,使用H標簽會比title標簽采集更不容易出錯。

需要注意的是,有時候H標簽有H1標簽H2標簽H3標簽等,一般只使用H1標簽。

三、分頁采集規(guī)則設置

一些網(wǎng)站由于文章篇幅過長或者希望增加點擊率,往往把一篇文章分成幾個分頁來呈現(xiàn)。這種情況下采集的起止代碼就不在同一個頁面上,而應該在文章開始頁尋找采集開始代碼,而在文章結束頁尋找終止代碼,設置如下:

四、幾個可能導致采集失敗的因素

1、網(wǎng)站隱藏內容禁止采集。這種情況以騰訊新聞為例,騰訊新聞的內容在打開的源代碼頁面里不會呈現(xiàn)出來,因而也無法判別文章的起止位置,也無法采集到其網(wǎng)站內容。

2、網(wǎng)站采集出錯。大多數(shù)網(wǎng)站內容在網(wǎng)頁以及代碼中都正常顯示,但當采集到目標網(wǎng)站時卻顯示出錯。這種出錯分為幾類:

A、標題出錯。如下圖所示,文章的內容會全部集中到標題上。

B、只采集到標題,內容空白。即無法采集到相關的內容。

C、采集終止符失效,采集內容包括了被采集網(wǎng)站上的廣告/版權信息/版尾信息等信息。

這些都是采集中經(jīng)常會遇到的問題,了解這些,對于采集以及偽原創(chuàng)都有很大的幫助。雖然在優(yōu)化上我們并不建議使用采集的方式,但在必要的情況下,了解采集規(guī)則,對網(wǎng)站運營還是有一定的好處的。原文出處:美孕寶防輻射服,專載請保留原文鏈接。謝謝!

申請創(chuàng)業(yè)報道,分享創(chuàng)業(yè)好點子。點擊此處,共同探討創(chuàng)業(yè)新機遇!

相關標簽
關鍵詞采集工具

相關文章

  • 看臉年代,十萬數(shù)據(jù)采集做到“收錄爆棚”

    多年前,站長打開“采集”按鈕,就可以繼續(xù)倒頭睡大覺,而現(xiàn)在呢?偽原創(chuàng)心驚膽戰(zhàn),原創(chuàng)也要看臉的年代,更不用說“采集”站了。不過,采集真的一點機會都沒有嗎?筆者前段時間剛剛“為難”的操盤了一個幾十萬數(shù)據(jù)的新站,不過近期看來運氣還不錯:首先我們來看一下抓取頻次:8.31日下午網(wǎng)站正式處理完畢,之后開放蜘蛛

  • 和SEO初學者分享網(wǎng)站關鍵詞的選取方法

    我是一個SEO的初學者,最近在YY上學習了一個有關關鍵詞怎樣選擇的課程,感覺對自己很有幫助,決定總結出來和一些也是新手,同時對關鍵詞的選擇也很茫然的朋友們一起分享一下,希望能夠對大家有所幫助。首先,我們要知道,我們在選擇關鍵詞的時候。不要選擇競爭程度很低和競爭程度很大的,低的可能根本就不會有什么人搜

  • 如何通過騰訊微博做品牌長尾關鍵詞的推廣引流

    今天分享一個騰訊微博做品牌詞排名的思路。騰訊微博,從影響力來說,是遠遠遜于新浪微博的。而且,在前段時間,騰訊宣布停止為騰訊微博開發(fā)新功能,只做維護,人員架構也做了調整。被業(yè)界視為騰訊放棄微博的信號。我之前一直也沒怎么去關注騰訊微博的傳播價值。而是注重新浪微博。但是最近我經(jīng)過觀察,發(fā)現(xiàn)騰訊微博其實還是

  • 影響阿里旺鋪關鍵詞排名的5大交易因素

    凡是在阿里上開通了旺鋪的商家,都希望自己的關鍵詞能夠出現(xiàn)在阿里內部搜索引擎的第一頁。關鍵詞排名越靠前,曝光量就越大,被客戶找到的機會就越大。對于阿里旺鋪關鍵詞的排名優(yōu)化手段,我稱之為“阿里SEO”。阿里SEO包含了十幾個內容,而在線交易是阿里SEO中非常重要的內容。在線交易是指在阿里巴巴中國站通過支

  • 為什么有些網(wǎng)站不設置關鍵詞排名卻很好

    常有朋友問,為什么有些網(wǎng)站不設置關鍵詞,排名還很好,這是為什么了?比如大多數(shù)SEO都去的盧松松博客和月光博客首頁keywords里面都沒有看到關鍵詞的設置,只寫了一個/。為什么他們沒有設置關鍵詞排名還這么好呢?權重還這么高呢?關鍵詞不是很重要的嗎,他們怎么不設置了?一、先說說搜索引擎技術的改變現(xiàn)在的

信息推薦