域名預(yù)訂/競(jìng)價(jià),好“米”不錯(cuò)過
網(wǎng)頁去重算法-怎么和搜索引擎算法做斗爭(zhēng),不知道大家有沒有仔細(xì)去研究過搜索引擎爬蟲抓取的一個(gè)過程,這里可以簡(jiǎn)單的說一下:
一、定(要知道你準(zhǔn)備在哪個(gè)范圍或者網(wǎng)站去搜索);百度提交,合作DNS,已有爬蟲入口
二、爬(將所有的網(wǎng)站的內(nèi)容全部爬下來)
三、取(分析數(shù)據(jù),去掉對(duì)我們沒用處的數(shù)據(jù)); 去重:Shingle算法》SuperShinge算法》I-Match算法》SimHash算法
四、存(按照我們想要的方式存儲(chǔ)和使用)
五、表(可以根據(jù)數(shù)據(jù)的類型通過一些圖標(biāo)展示)
搜索引擎簡(jiǎn)單的看就是抓取到頁面到數(shù)據(jù)庫,然后存儲(chǔ)頁面到數(shù)據(jù)庫,到數(shù)據(jù)庫取出頁面進(jìn)行展現(xiàn),所以這里面是有很多算法的,到現(xiàn)在搜索引擎為了防止作弊,更好的滿足用戶需求對(duì)很多算法已經(jīng)進(jìn)行改進(jìn),具體的有哪些基礎(chǔ)算法大家可以自己去了解(點(diǎn)擊: SEO算法 -進(jìn)行了解 )。今天主要講的是源碼去重,也就是第三部取。
通過上面幾個(gè)步驟可以了解到,搜索引擎不可能把互聯(lián)網(wǎng)上的所有頁面都存儲(chǔ)到數(shù)據(jù)庫,在把你的頁面存到數(shù)據(jù)庫之前是要對(duì)你的頁面進(jìn)行檢查的,檢查你的頁面是否跟已經(jīng)存儲(chǔ)的頁面重復(fù)了,這也是很多seoer要去做偽原創(chuàng)增加收錄幾率的原因。
根據(jù)去重的基礎(chǔ)算法可以了解到頁面去重它是分代碼去重和內(nèi)容去重的,如果我把別人網(wǎng)站的模板程序原封不動(dòng)的拿過來做網(wǎng)站,那我需要怎么做代碼去重呢?今天分享一下怎么做代碼去重。
如圖,可以看到在每個(gè)模板的class后面加上自己的特征字符,這樣是既不不影響css樣式,又可以做到代碼去重的效果,欺騙搜索引擎,告訴它我這是你沒有見過的代碼程序。
很多東西說出來簡(jiǎn)單,都是經(jīng)過很多實(shí)操總結(jié)出來的,大家需要多去操作,那給大家提一下發(fā)散的問題。
如果去重算法有效的話,互聯(lián)網(wǎng)上面這么多相同程序的網(wǎng)站他們的代碼幾乎相同(很多程序用相同的模板:織夢(mèng),帝國等),他們的權(quán)重排名為什么都可以做的很好?
去重算法他有一個(gè)發(fā)展升級(jí)的,簡(jiǎn)單的說就是最開始的Shingle算法,到后面的SuperShinge算法再升級(jí)到I-Match算法之后到SimHash算法,現(xiàn)在每個(gè)搜索引擎的算法都是在這些基礎(chǔ)的算法上面進(jìn)行升級(jí)改進(jìn),我們可以了解大致的原理。
簡(jiǎn)單點(diǎn)說就是搜索引擎給每個(gè)頁面一個(gè)指紋,每個(gè)頁面分層很多個(gè)小模塊,由很多個(gè)小模塊組成一個(gè)頁面,就像指紋一樣由很多條線組成。
知道這個(gè)原理的話我們就知道現(xiàn)在大家所做的偽原創(chuàng)是沒有用的,打亂段落順序,改一些詞,是不會(huì)影響頁面指紋的。
真正的可以做到抄別人內(nèi)容,還不被判定為重復(fù)內(nèi)容要怎么去做呢?
首先了解一個(gè)機(jī)制,搜索引擎存儲(chǔ)的頁面數(shù)據(jù)他是分層級(jí)的,簡(jiǎn)單點(diǎn)說就是你輸入一個(gè)搜索詞的時(shí)候它優(yōu)先排名的是優(yōu)質(zhì)層的數(shù)據(jù),其次再是普通層,劣質(zhì)層。平時(shí)看到的很多高權(quán)重平臺(tái)他的內(nèi)頁的排名也可以超過很多網(wǎng)站首頁有這里面的原因。
當(dāng)2個(gè)網(wǎng)站程序代碼幾乎相同,內(nèi)容也幾乎相同的時(shí)候,搜索引擎怎么去發(fā)現(xiàn)他們是重復(fù)的呢?
因?yàn)樗阉饕娲鎯?chǔ)的數(shù)據(jù)量很大,不可能每存儲(chǔ)一個(gè)新頁面就把之前所有存儲(chǔ)的頁面拿出來對(duì)比,那他只能是通過算法判斷拿出與新頁面標(biāo)題描述相關(guān)的優(yōu)質(zhì)層的頁面,來與新頁面進(jìn)行重復(fù)度對(duì)比。如果重復(fù)度達(dá)到某個(gè)值那么他就會(huì)被判斷為重復(fù)內(nèi)容,就被去重算法給去掉不被收錄,如果沒有被判定為重復(fù)內(nèi)容則被收錄到劣質(zhì)層。當(dāng)你想對(duì)這個(gè)新頁面做優(yōu)化讓他的排名有所提,進(jìn)入到優(yōu)質(zhì)層,那它相應(yīng)的要求也會(huì)提升,它會(huì)調(diào)取更多的頁面數(shù)據(jù)出來,與其進(jìn)行對(duì)比,而不僅僅是通過調(diào)取相關(guān)標(biāo)題描述的數(shù)據(jù)。這樣的話就會(huì)被搜索引擎發(fā)現(xiàn),它不是原創(chuàng)的,通過綜合的一個(gè)評(píng)估不給予它進(jìn)入到優(yōu)質(zhì)層。
這也是我們看到的一個(gè)現(xiàn)象,為什么很多抄的內(nèi)容可以收錄,但是沒辦法獲得好的排名。
如果我們抄了一篇文章,但是我們用了不同的標(biāo)題,那對(duì)于搜索引擎來說,他在劣質(zhì)層里面沒辦法發(fā)現(xiàn)他是重復(fù)的。這也是解釋很多奇怪的現(xiàn)象,比如圖中:
一個(gè)克隆的網(wǎng)站,因?yàn)闃?biāo)題的不同,搜索引擎在抓取去重過程中沒有發(fā)現(xiàn)它,但是之后如果這個(gè)頁面想要進(jìn)去到優(yōu)質(zhì)層數(shù)據(jù)庫,它就會(huì)被發(fā)現(xiàn)是重復(fù)的,不會(huì)給予好的排名展現(xiàn)。
總結(jié):市面上面的偽原創(chuàng)工具是沒有用的,沒有影響要頁面的指紋,如果非要抄別人的修改標(biāo)題即可,但是不會(huì)獲得好的排名。在新站初期可以用改標(biāo)題的方法增加收錄,增加網(wǎng)站蜘蛛,中期開始要自己做內(nèi)容,為獲得好的排名展現(xiàn)做鋪墊。
那如果就是想抄別人的內(nèi)容,放到自己的網(wǎng)站上面,怎么把它變成優(yōu)質(zhì)的內(nèi)容?文章轉(zhuǎn)載:https://leosem.com/
申請(qǐng)創(chuàng)業(yè)報(bào)道,分享創(chuàng)業(yè)好點(diǎn)子。點(diǎn)擊此處,共同探討創(chuàng)業(yè)新機(jī)遇!