不靠譜
包子餡不靠譜,
包子餡的報道更不靠譜
韓國隊不靠譜
日本隊也不靠譜
中國隊掉鏈子靠譜
17tech說呂博望的報告不靠譜
呂博望說CNNIC的報告不靠譜
雅虎覺得艾瑞報告不靠譜
搜狗覺得易觀報告的不靠譜
百度說,你們都不靠譜,我來做報告
這是我在上一篇文章《誰的話不靠譜》的結(jié)尾。
最近不靠譜的事情太多,不靠譜的人也太多。不過,呂伯望的報告就因為四舍五入產(chǎn)生了0.1%的誤差,遭遇質(zhì)疑,筆者看來頗有些冤枉;而他在第一次IT龍門陣上所演示的CNNIC的報告的缺陷,倒有幾分道理。之后的幾份搜索報告(艾瑞和易觀)也因調(diào)查結(jié)果大相徑庭而遭遇了質(zhì)疑,看來搜索報告還真沒有多少靠譜的。
百度卻是真的開始作報告了。最近百度新開辟了二級頻道:百度數(shù)據(jù)研究中心(data.baidu.com),其中有六個行業(yè)的報告可供了下載,分別是銀行行業(yè)、基金行業(yè)、網(wǎng)絡(luò)游戲、汽車業(yè)、化妝品和家電業(yè)。
大型網(wǎng)站網(wǎng)絡(luò)調(diào)查優(yōu)勢
我對大網(wǎng)站涉足咨詢行業(yè)還是有些信心,他們至少能在數(shù)據(jù)源的樣本數(shù)量上能得到充分的保證,照理說應(yīng)該比較靠譜。呂伯望在回答我關(guān)于調(diào)查成本的問題時表示,電話調(diào)查雖然相對入戶調(diào)查成本大大降低,但也因此產(chǎn)生了一些誤差,調(diào)查受資金限制而產(chǎn)生了一些誤差。在我看來,CNNIC只要把中國有多少上網(wǎng)人口調(diào)查出來即可,其他關(guān)于互聯(lián)網(wǎng)用戶更深入的調(diào)查完全可以通過網(wǎng)絡(luò)問卷的方式完成。網(wǎng)絡(luò)調(diào)查成本極低,而調(diào)查樣本可以大大增加,數(shù)據(jù)的準(zhǔn)確性也有了保證。因此,大型網(wǎng)站在數(shù)據(jù)收集方面擁有一定的優(yōu)勢。
百度的報告靠譜么?
百度雖然一下子編制了6本報告,人們卻沒有看到相關(guān)網(wǎng)絡(luò)調(diào)查表,那么百度是通過什么方法獲得數(shù)據(jù)的呢?筆者打開了其中的一份報告,關(guān)于調(diào)查方法是這樣描述的:
搜索引擎能采集用戶主動需求的文字表達(dá)(即關(guān)鍵詞查詢),因此對用戶真實需求的把握較之門戶網(wǎng)站更占優(yōu)勢。通過 Cookie 跟蹤,能把關(guān)鍵詞與具體的需求掛上鉤。我們假設(shè)每一個Cookie 代表一個潛在消費者(在技術(shù)上和統(tǒng)計學(xué)上是成立的,同時技術(shù)后臺可屏蔽掉多個用戶使用的 Cookie,如網(wǎng)吧 Cookie),那么該 Cookie 在一定時間內(nèi)的關(guān)鍵詞集合能全面反映他(她)關(guān)注的信息。我們對這些信息進(jìn)行系統(tǒng)編碼、清理和分析,把不同 Cookie 檢索的關(guān)鍵詞進(jìn)行交叉分析,發(fā)現(xiàn)網(wǎng)民搜索的群體行為,最后整合成行業(yè)報告。
原來百度是依靠用戶的cookie和對關(guān)鍵詞的整理分析生成的報告。那么百度的報告靠譜么?
從采樣數(shù)量看,百度是中國流量最高的網(wǎng)站,每天訪問人次數(shù)以億計,百度的報告稱采樣的數(shù)量達(dá)到了百萬數(shù)量級。可見,從調(diào)查用戶的數(shù)量上看的確非??捎^。
但從調(diào)查方法上看,筆者認(rèn)為還是存在一定的漏洞。
其一、百度的技術(shù)后臺“屏蔽掉多個用戶的cookie”,那么意味著,網(wǎng)吧用戶的統(tǒng)計被剔除掉。但國內(nèi)網(wǎng)民在網(wǎng)吧上網(wǎng)的比例有1/3強(qiáng),絕對數(shù)量巨大。去掉這些信息會導(dǎo)致結(jié)果出現(xiàn)偏差,這在網(wǎng)絡(luò)游戲上的結(jié)果上最為 明顯。
其二、國內(nèi)上網(wǎng)用戶還普遍存在一個家庭多個用戶的情形,如夫妻共用一臺電腦,家庭共用一臺電腦的情形(筆者認(rèn)為這些也比較普遍);
其三、某些用戶使用多臺電腦,例如筆者辦公和家庭就使用不同的電腦,按照百度的統(tǒng)計口徑,這些用戶的數(shù)據(jù)被重復(fù)計算了,而這正是統(tǒng)計學(xué)所忌諱的。
其四、百度所有用戶的調(diào)查結(jié)果是基于百度搜索用戶的。非搜索引擎用戶或者非百度用戶,就難以統(tǒng)計進(jìn)去,這部分用戶的比例保守估計也在1/3左右(根據(jù)CNNIC的搜索引擎數(shù)據(jù))。
因此,百度的報告正如CNNIC的報告一樣,在計算方法上還存在一定的漏洞,盡管龐大的采樣數(shù)據(jù)能夠彌補(bǔ)其中一些不足。筆者認(rèn)為百度的報告只具有一定參考意義,并不能完全反映行業(yè)全貌。
當(dāng)然,筆者更關(guān)心的是百度是如何利用我們的cookie來制作報告的,百度是不是動了我們的cookie,動了我們的蛋糕。
百度,請別動我的蛋糕
Cookie,英文指就著牛奶一起吃的點心,我直接翻譯為“蛋糕”。在因特網(wǎng)內(nèi),“cookie”這個字有了完全不同的意思。“cookie”是小量信息,由網(wǎng)絡(luò)服務(wù)器發(fā)送出來以存儲在網(wǎng)絡(luò)瀏覽器上,從而下次這位獨一無二的訪客又回到該網(wǎng)絡(luò)服務(wù)器時,可從該瀏覽器讀回此信息。
Cookie可以保持登錄信息到用戶下次與服務(wù)器的會話,換句話說,下次訪問同一網(wǎng)站時,用戶會發(fā)現(xiàn)不必輸入用戶名和密碼就已經(jīng)登錄了。我們在登錄論壇的時候就經(jīng)常發(fā)現(xiàn)這種情形。
百度的報告編制說明中,特意提到了Cookie:
通過“關(guān)鍵詞組合”判斷各個 Cookie 代表的個人信息,比如性別傾向、收入范圍、行業(yè)領(lǐng)域的相關(guān)喜好,我們對各種需求有一個“群”的把握,比如剛畢業(yè)(21-23 歲)的女性的總體消費特征。
但百度不以具體用戶的個人信息作為分析對象,一個 Cookie 只是收集需求(關(guān)鍵詞)的橋梁,它代表的人其實是一個與實際需求相聯(lián)系的虛擬人,我們完全不知道他(她)是誰,也沒有聯(lián)系方式,但通過他們的檢索軌跡,我們可以知道他(她)的需求。
看來cookie在百度的報告中是十分關(guān)鍵的一環(huán)。它居然能讓百度不利用傳統(tǒng)的市場調(diào)查問卷,僅憑對用戶cookie的分析,就能夠收集各種個人信息:通過人們的檢索軌跡,而得到用戶的需求資料,最后形成報告。
百度所利用的cookie數(shù)據(jù)應(yīng)該有以下兩種:
第一種是大多數(shù)情況下,人們并不是登錄百度就進(jìn)行搜索的,由于沒有錄入帳號和密碼,百度就沒法通過用戶ID和密碼來區(qū)分調(diào)查個體(所謂的虛擬人),為了能夠區(qū)分,百度不得不記錄用戶的一些電腦信息,如內(nèi)網(wǎng)IP,操作系統(tǒng)信息,瀏覽器信息等等,否則就無法區(qū)分不同的用戶。
第二種在用戶登錄的情況下(貼吧、知道博客等產(chǎn)品)使用搜索引擎,百度通過cookie記錄下用戶的ID和其他信息來區(qū)分不同對象。而這類用戶信息在百度的數(shù)據(jù)庫中可能更加詳細(xì),其中包括用戶向網(wǎng)站提供的年齡、性別、職業(yè)等等非常全面的信息。
只有在完成此步以后,百度才有可能對收集到的人們檢索軌跡進(jìn)行歸類,分析得到結(jié)果,否則,就只有一堆關(guān)鍵詞,沒有任何意義。
顯而易見,無論是哪種方式,百度都是在利用用戶的cookie和隱私獲得了報告結(jié)果。這也就不難理解,為什么百度沒有作一份調(diào)查問卷卻能獲得百萬數(shù)量調(diào)查樣本,百度在利用我們的cookie和隱私,百度通過我們的小蛋糕(cookie)完成了他們的大蛋糕(報告)。
百度已經(jīng)動了我們的蛋糕!百度正在動我們的蛋糕!
微軟公司07年7月23日宣布,用戶的IP地址和其他與網(wǎng)絡(luò)搜索相關(guān)的識別數(shù)據(jù),包括用戶身份證號碼、出生日期和居住地址等資料,將在18個月后永久刪除。此外,微軟還承諾,將把搜索關(guān)鍵字與賬戶資料分開存儲
雅虎和aol將刪除cookie的時間縮短為13個月,GOOGLE將刪除cookie的時間縮短為一年半,搜索引擎保留用戶敏感數(shù)據(jù)的時間也在不斷縮短。大型網(wǎng)絡(luò)公司隱私保護(hù)正在不斷加強(qiáng)。
百度卻在大多數(shù)人不知情的前提下(關(guān)于通過cookie收集資料,只有在報告中提及),利用我們的cookie,關(guān)鍵詞檢索記錄制作了一份份行業(yè)報告。與那些大型網(wǎng)站和他的搜索同行相比,百度實在應(yīng)該反思一下。
申請創(chuàng)業(yè)報道,分享創(chuàng)業(yè)好點子。點擊此處,共同探討創(chuàng)業(yè)新機(jī)遇!