123,123

　一鍵部署OpenClaw

對于搜索引擎來說，重復的網(wǎng)頁內(nèi)容是非常有害的。重復網(wǎng)頁的存在意味著這些網(wǎng)頁就要被搜索引擎多處理一次。更有害的是搜索引擎的索引制作中可能會在索引庫里索引兩份相同的網(wǎng)頁。當有人查詢時，在搜索結(jié)果中就會出現(xiàn)重復的網(wǎng)頁鏈接。所以無論是從搜索體驗還是系統(tǒng)效率檢索質(zhì)量來說這些重負網(wǎng)頁都是有害處的。

網(wǎng)頁查重技術(shù)起源于復制檢測技術(shù)，即判斷一個文件內(nèi)容是否存在抄襲、復制另外一個或多個文件的技術(shù)。1993年Arizona大學的Manber(Google現(xiàn)副總裁、工程師)推出了一個sif工具，尋找相似文件。1995年Stanford大學的Brin(Sergey Brin，Google創(chuàng)始人之一)和Garcia-Molina等人在“數(shù)字圖書觀”工程中首次提出文本復制檢測機制COPS(Copy Protection System)系統(tǒng)與相應(yīng)算法[Sergey Brin et al 1995].之后這種檢測重復技術(shù)被應(yīng)用到搜索引擎中，基本的核心技術(shù)既比較相似。

網(wǎng)頁和簡單的文檔不同，網(wǎng)頁的特殊屬性具有內(nèi)容和格式等標記，因此在內(nèi)容和格式上的相同相似構(gòu)成了4種網(wǎng)頁相似的類型。

1、兩個頁面內(nèi)容格式完全相同。

2、兩個頁面內(nèi)容相同，但格式不同。

3、兩個頁面部分內(nèi)容相同并且格式相同。

4、兩個頁面部分重要相同但格式不同。

實現(xiàn)方法：

網(wǎng)頁查重，首先將網(wǎng)頁整理成為一個具有標題和正文的文檔，來方便查重。所以網(wǎng)頁查重又叫“文檔查重”。“文檔查重”一般被分為三個步驟，

一、特征抽取。

二、相似度計算和評價。

三、消重。

1.特征抽取

我們在判斷相似物的時候，一般是才能用不變的特征進行對比，文件查重第一步也是進行特征抽取。也就是將文檔內(nèi)容分解，由若干組成文檔的特征集合表示，這一步是為了方面后面的特征比較計算相似度。

特征抽取有很多方法，我們這里主要說兩種比較經(jīng)典的算法，“I-Match算法”、“Shingle算法”。“I-Match算法”是不依賴于完全的信息分析，而是使用數(shù)據(jù)集合的統(tǒng)計特征來抽取文檔的主要特征，將非主要特征拋棄。“Shingle算法”通過抽取多個特征詞匯，比較兩個特征集合的相似程度實現(xiàn)文檔查重。

2.相似度計算和評價

特征抽取完畢后，就需要進行特征對比，因網(wǎng)頁查重第二步就是相似度計算和評價。

I-Match算法的特征只有一個，當輸入一篇文檔，根據(jù)詞匯的IDF值(逆文本頻率指數(shù)，Inverse document frequency縮寫為IDF)過濾出一些關(guān)鍵特征，即一篇文章中特別高和特別低頻的詞匯往往不能反應(yīng)這篇文章的本質(zhì)。因此通過文檔中去掉高頻和低頻詞匯，并且計算出這篇文檔的唯一的Hash值(Hash簡單的說就是把數(shù)據(jù)值映射為地址。把數(shù)據(jù)值作為輸入，經(jīng)計算后即可得到地址值。)，那些Hash值相同的文檔就是重復的。

Shingle算法是抽取多個特征進行比較，所以處理起來比較復雜一些，比較的方法是完全一致的Shingle個數(shù)。然后除以兩個文檔的Shingle總數(shù)減去一致的Shingle個數(shù)，這種方法計算出的數(shù)值為“Jaccard 系數(shù)”，它可以判斷集合的相似度。Jaccard 系數(shù)的計算方法集合的交集除以集合的并集。

3.消重

對于刪除重復內(nèi)容，搜索引擎考慮到眾多收錄因素，所以使用了最簡單的最實用的方法。先被爬蟲抓取的頁面同時很大程度也保證了優(yōu)先保留原創(chuàng)網(wǎng)頁。

網(wǎng)頁查重工作是系統(tǒng)中不可缺少的，刪除了重復的頁面，所以搜索引擎的其他環(huán)節(jié)也會減少很多不必要的麻煩，節(jié)省了索引存儲空間、減少了查詢成本、提高了PageRank計算效率。方便了搜索引擎用戶。

申請創(chuàng)業(yè)報道，分享創(chuàng)業(yè)好點子。點擊此處，共同探討創(chuàng)業(yè)新機遇！

相關(guān)文章

SEO技術(shù)：提高網(wǎng)頁速度的10個方法

早在2010年的某個時候，Google向全世界宣布頁面速度會影響網(wǎng)站的排名。頁面速度是許多網(wǎng)絡(luò)營銷人員仍然誤認為“網(wǎng)站速度”的意思，它是指網(wǎng)站訪問者必須等待頁面加載的時間，或完全顯示特定頁面的內(nèi)容所花費的時間

標簽：

網(wǎng)頁速度慢

seo優(yōu)化技術(shù)

網(wǎng)頁技術(shù)
5個網(wǎng)頁制作的小技巧，快速提高你的網(wǎng)站轉(zhuǎn)化率

在信息爆炸的時代，用戶的每一個點擊都很珍貴。我們通過各種渠道好不容易吸引來了網(wǎng)站的流量，如果這些流量沒有得到轉(zhuǎn)換，就等于白白浪費了。本文通過總結(jié)5個網(wǎng)頁制作的小技巧，來提高我們的網(wǎng)頁轉(zhuǎn)化率。

標簽：

網(wǎng)頁設(shè)計

網(wǎng)頁技術(shù)

網(wǎng)站優(yōu)化

網(wǎng)站轉(zhuǎn)化

網(wǎng)頁制作

網(wǎng)頁制作教程

frontpage制作網(wǎng)頁
回顧網(wǎng)頁技術(shù)發(fā)展智能建站時代來臨

自從互聯(lián)網(wǎng)誕生以來，網(wǎng)站始終是互聯(lián)網(wǎng)發(fā)展的基石?；仡櫥ヂ?lián)網(wǎng)發(fā)展的歷程，誕生了無數(shù)經(jīng)典的網(wǎng)站。從谷歌、雅虎、百度這些搜索引擎，到新浪、網(wǎng)易、搜狐這些國內(nèi)的傳統(tǒng)門戶，還有淘寶、亞馬遜這些網(wǎng)購鼻祖，翻看他們的網(wǎng)站設(shè)計歷程，由簡到繁，或者由繁至簡，從簡單的網(wǎng)頁瀏覽，到完善的用戶體驗，都是整個網(wǎng)頁設(shè)計、網(wǎng)站建

標簽：

網(wǎng)頁設(shè)計

智能建站

建站系統(tǒng)

網(wǎng)頁建站

網(wǎng)頁技術(shù)
與SEO密切相關(guān)的網(wǎng)頁技術(shù)

SEO與技術(shù)是密切相關(guān)的，許多人都認為做SEO是不需要技術(shù)的，其實這是一個誤區(qū)，如果你不懂技術(shù)，就不可能把SEO做得很成功，出了問題也不能做出科學的決策，在許多人的眼里，SEO無非是每天發(fā)一些文章、發(fā)一些外鏈這樣，如果你也這樣理解SEO，那說明你的水平還處于一個非

標簽：

網(wǎng)頁技術(shù)

當前位置：首頁 > 站長 > 搜索優(yōu)化 > 正文

網(wǎng)頁的查重技術(shù) 搜索引擎知識

相關(guān)文章

SEO技術(shù)：提高網(wǎng)頁速度的10個方法

5個網(wǎng)頁制作的小技巧，快速提高你的網(wǎng)站轉(zhuǎn)化率

回顧網(wǎng)頁技術(shù)發(fā)展智能建站時代來臨

與SEO密切相關(guān)的網(wǎng)頁技術(shù)

熱門排行

信息推薦

編輯推薦

站內(nèi)站外形成鏈輪的深度分析

如何研究行業(yè)用戶數(shù)據(jù)與熱點追蹤

錨文本對關(guān)鍵詞排名優(yōu)化用處大嗎如何操作

逆冬分享2個SEO實戰(zhàn)干貨收錄+快排深度剖析結(jié)果

利用全拼域名快速排名的技巧

熱門標簽

當前位置：首頁 > 站長 > 搜索優(yōu)化 > 正文

網(wǎng)頁的查重技術(shù) 搜索引擎知識

相關(guān)文章

SEO技術(shù)：提高網(wǎng)頁速度的10個方法

5個網(wǎng)頁制作的小技巧，快速提高你的網(wǎng)站轉(zhuǎn)化率

回顧網(wǎng)頁技術(shù)發(fā)展 智能建站時代來臨

與SEO密切相關(guān)的網(wǎng)頁技術(shù)

熱門排行

信息推薦

編輯推薦

站內(nèi)站外形成鏈輪的深度分析

如何研究行業(yè)用戶數(shù)據(jù)與熱點追蹤

錨文本對關(guān)鍵詞排名優(yōu)化用處大嗎如何操作

逆冬 分享2個SEO實戰(zhàn)干貨 收錄+快排深度剖析結(jié)果

利用全拼域名快速排名的技巧

熱門標簽

5個網(wǎng)頁制作的小技巧，快速提高你的網(wǎng)站轉(zhuǎn)化率

回顧網(wǎng)頁技術(shù)發(fā)展智能建站時代來臨

逆冬分享2個SEO實戰(zhàn)干貨收錄+快排深度剖析結(jié)果