不清楚您的網站日志中是否有出現(xiàn)過一個不太常見的CC蜘蛛,訪問名稱為:CCBot/2.0,下面我們具體來了解一下CCbot是什么蜘蛛?
一. CCbot是什么蜘蛛?
CCbot,全稱為Common Crawl Bot,是一個非營利性基金會致力于提供可以被所有人訪問和分析的Web爬網數(shù)據(jù)的開放存儲庫。
二. 你如何處理CCbot蜘蛛?
方法1. 使用robots.txt
使用robots.txt文件來允許或禁止蜘蛛訪問頁面的權限。robots.txt是放在網站根目錄中,蜘蛛來訪問時會先查找并查看robots.txt文件,并遵守robots協(xié)議來訪問網站上的內容,允許訪問則訪問,不允許訪問蜘蛛則離開。
①. 不允許任何蜘蛛訪問您站點的任何部分
User-agent:*
Disallow:/
②. 允許任何蜘蛛訪問您站點的任何部分
User-agent:*
Disallow:
③. 不允許CCbot蜘蛛訪問網站的任何部分
User-agent:ccbot
Disallow:/
④. 允許CCbot蜘蛛訪問您站點的任何部分
User-agent:ccbot
Disallow:
⑤. 允許CCbot蜘蛛訪問您站點,但不允許CCbot訪問“wp-admin”文件夾
User-agent:ccbot
Disallow:/wp-admin
方法2. 使用元標記
可以在頁面中使用元標記來幫助控制搜索引擎蜘蛛對您網站的訪問權限。如果您為所有頁面使用模板,則可以在和之間添加元標記, 它將適用于使用該模板的所有頁面。如果要控制特定頁面,可以在和之間的各個頁面上添加元標記 。
①. 允許所有蜘蛛訪問您的頁面
②. 允許所有蜘蛛訪問您的網頁并跟蹤頁面上的鏈接
③. 允許所有蜘蛛訪問您的網頁,但不允許他們跟蹤鏈接
④. 不允許任何蜘蛛訪問您的網頁
⑤. 允許CCbot訪問您的網頁
⑥. 不允許CCbot訪問您的頁面
⑦. 允許CCbot訪問您的頁面并跟蹤更多頁面的鏈接
如果你在網站日志中也發(fā)現(xiàn)了CCbot,不要驚慌,你接下來需要做的就是是允許它繼續(xù)爬行還是禁止爬行?May個人覺得這類蜘蛛沒有多大的意義,一旦發(fā)現(xiàn)這類蜘蛛爬行比較頻繁,最好的方式就是禁止這些蜘蛛繼續(xù)訪問我們的網站。
原創(chuàng):MAY的SEO博客 https://may90.com/share/ccbot.html 未經允許,請勿轉載!
申請創(chuàng)業(yè)報道,分享創(chuàng)業(yè)好點子。點擊此處,共同探討創(chuàng)業(yè)新機遇!