123,123

　一鍵部署OpenClaw

不靠譜

包子餡不靠譜，

包子餡的報(bào)道更不靠譜

韓國(guó)隊(duì)不靠譜

日本隊(duì)也不靠譜

中國(guó)隊(duì)掉鏈子靠譜

17tech說呂博望的報(bào)告不靠譜

呂博望說CNNIC的報(bào)告不靠譜

雅虎覺得艾瑞報(bào)告不靠譜

搜狗覺得易觀報(bào)告的不靠譜

百度說，你們都不靠譜，我來做報(bào)告

這是我在上一篇文章《誰(shuí)的話不靠譜》的結(jié)尾。

最近不靠譜的事情太多，不靠譜的人也太多。不過，呂伯望的報(bào)告就因?yàn)樗纳嵛迦氘a(chǎn)生了0.1%的誤差，遭遇質(zhì)疑，筆者看來頗有些冤枉；而他在第一次IT龍門陣上所演示的CNNIC的報(bào)告的缺陷，倒有幾分道理。之后的幾份搜索報(bào)告（艾瑞和易觀）也因調(diào)查結(jié)果大相徑庭而遭遇了質(zhì)疑，看來搜索報(bào)告還真沒有多少靠譜的。

百度卻是真的開始作報(bào)告了。最近百度新開辟了二級(jí)頻道：百度數(shù)據(jù)研究中心(data.baidu.com)，其中有六個(gè)行業(yè)的報(bào)告可供了下載，分別是銀行行業(yè)、基金行業(yè)、網(wǎng)絡(luò)游戲、汽車業(yè)、化妝品和家電業(yè)。

大型網(wǎng)站網(wǎng)絡(luò)調(diào)查優(yōu)勢(shì)

我對(duì)大網(wǎng)站涉足咨詢行業(yè)還是有些信心，他們至少能在數(shù)據(jù)源的樣本數(shù)量上能得到充分的保證，照理說應(yīng)該比較靠譜。呂伯望在回答我關(guān)于調(diào)查成本的問題時(shí)表示，電話調(diào)查雖然相對(duì)入戶調(diào)查成本大大降低，但也因此產(chǎn)生了一些誤差，調(diào)查受資金限制而產(chǎn)生了一些誤差。在我看來，CNNIC只要把中國(guó)有多少上網(wǎng)人口調(diào)查出來即可，其他關(guān)于互聯(lián)網(wǎng)用戶更深入的調(diào)查完全可以通過網(wǎng)絡(luò)問卷的方式完成。網(wǎng)絡(luò)調(diào)查成本極低，而調(diào)查樣本可以大大增加，數(shù)據(jù)的準(zhǔn)確性也有了保證。因此，大型網(wǎng)站在數(shù)據(jù)收集方面擁有一定的優(yōu)勢(shì)。

百度的報(bào)告靠譜么？

百度雖然一下子編制了6本報(bào)告，人們卻沒有看到相關(guān)網(wǎng)絡(luò)調(diào)查表，那么百度是通過什么方法獲得數(shù)據(jù)的呢？筆者打開了其中的一份報(bào)告，關(guān)于調(diào)查方法是這樣描述的：

搜索引擎能采集用戶主動(dòng)需求的文字表達(dá)（即關(guān)鍵詞查詢），因此對(duì)用戶真實(shí)需求的把握較之門戶網(wǎng)站更占優(yōu)勢(shì)。通過 Cookie 跟蹤，能把關(guān)鍵詞與具體的需求掛上鉤。我們假設(shè)每一個(gè)Cookie 代表一個(gè)潛在消費(fèi)者（在技術(shù)上和統(tǒng)計(jì)學(xué)上是成立的，同時(shí)技術(shù)后臺(tái)可屏蔽掉多個(gè)用戶使用的 Cookie，如網(wǎng)吧 Cookie），那么該 Cookie 在一定時(shí)間內(nèi)的關(guān)鍵詞集合能全面反映他（她）關(guān)注的信息。我們對(duì)這些信息進(jìn)行系統(tǒng)編碼、清理和分析，把不同 Cookie 檢索的關(guān)鍵詞進(jìn)行交叉分析，發(fā)現(xiàn)網(wǎng)民搜索的群體行為，最后整合成行業(yè)報(bào)告。

原來百度是依靠用戶的cookie和對(duì)關(guān)鍵詞的整理分析生成的報(bào)告。那么百度的報(bào)告靠譜么？

從采樣數(shù)量看，百度是中國(guó)流量最高的網(wǎng)站，每天訪問人次數(shù)以億計(jì)，百度的報(bào)告稱采樣的數(shù)量達(dá)到了百萬(wàn)數(shù)量級(jí)?？梢?，從調(diào)查用戶的數(shù)量上看的確非常可觀。

但從調(diào)查方法上看，筆者認(rèn)為還是存在一定的漏洞。

其一、百度的技術(shù)后臺(tái)“屏蔽掉多個(gè)用戶的cookie”，那么意味著，網(wǎng)吧用戶的統(tǒng)計(jì)被剔除掉。但國(guó)內(nèi)網(wǎng)民在網(wǎng)吧上網(wǎng)的比例有1/3強(qiáng)，絕對(duì)數(shù)量巨大。去掉這些信息會(huì)導(dǎo)致結(jié)果出現(xiàn)偏差，這在網(wǎng)絡(luò)游戲上的結(jié)果上最為明顯。

其二、國(guó)內(nèi)上網(wǎng)用戶還普遍存在一個(gè)家庭多個(gè)用戶的情形，如夫妻共用一臺(tái)電腦，家庭共用一臺(tái)電腦的情形（筆者認(rèn)為這些也比較普遍）；

其三、某些用戶使用多臺(tái)電腦，例如筆者辦公和家庭就使用不同的電腦，按照百度的統(tǒng)計(jì)口徑，這些用戶的數(shù)據(jù)被重復(fù)計(jì)算了，而這正是統(tǒng)計(jì)學(xué)所忌諱的。

其四、百度所有用戶的調(diào)查結(jié)果是基于百度搜索用戶的。非搜索引擎用戶或者非百度用戶，就難以統(tǒng)計(jì)進(jìn)去，這部分用戶的比例保守估計(jì)也在1/3左右（根據(jù)CNNIC的搜索引擎數(shù)據(jù)）。

因此，百度的報(bào)告正如CNNIC的報(bào)告一樣，在計(jì)算方法上還存在一定的漏洞，盡管龐大的采樣數(shù)據(jù)能夠彌補(bǔ)其中一些不足。筆者認(rèn)為百度的報(bào)告只具有一定參考意義，并不能完全反映行業(yè)全貌。

當(dāng)然，筆者更關(guān)心的是百度是如何利用我們的cookie來制作報(bào)告的，百度是不是動(dòng)了我們的cookie，動(dòng)了我們的蛋糕。

百度，請(qǐng)別動(dòng)我的蛋糕

Cookie，英文指就著牛奶一起吃的點(diǎn)心，我直接翻譯為“蛋糕”。在因特網(wǎng)內(nèi)，“cookie”這個(gè)字有了完全不同的意思。“cookie”是小量信息，由網(wǎng)絡(luò)服務(wù)器發(fā)送出來以存儲(chǔ)在網(wǎng)絡(luò)瀏覽器上，從而下次這位獨(dú)一無二的訪客又回到該網(wǎng)絡(luò)服務(wù)器時(shí)，可從該瀏覽器讀回此信息。

Cookie可以保持登錄信息到用戶下次與服務(wù)器的會(huì)話，換句話說，下次訪問同一網(wǎng)站時(shí)，用戶會(huì)發(fā)現(xiàn)不必輸入用戶名和密碼就已經(jīng)登錄了。我們?cè)诘卿浾搲臅r(shí)候就經(jīng)常發(fā)現(xiàn)這種情形。

百度的報(bào)告編制說明中，特意提到了Cookie：

通過“關(guān)鍵詞組合”判斷各個(gè) Cookie 代表的個(gè)人信息，比如性別傾向、收入范圍、行業(yè)領(lǐng)域的相關(guān)喜好，我們對(duì)各種需求有一個(gè)“群”的把握，比如剛畢業(yè)（21-23 歲）的女性的總體消費(fèi)特征。

但百度不以具體用戶的個(gè)人信息作為分析對(duì)象，一個(gè) Cookie 只是收集需求（關(guān)鍵詞）的橋梁，它代表的人其實(shí)是一個(gè)與實(shí)際需求相聯(lián)系的虛擬人，我們完全不知道他（她）是誰(shuí)，也沒有聯(lián)系方式，但通過他們的檢索軌跡，我們可以知道他（她）的需求。

看來cookie在百度的報(bào)告中是十分關(guān)鍵的一環(huán)。它居然能讓百度不利用傳統(tǒng)的市場(chǎng)調(diào)查問卷，僅憑對(duì)用戶cookie的分析，就能夠收集各種個(gè)人信息：通過人們的檢索軌跡，而得到用戶的需求資料，最后形成報(bào)告。

百度所利用的cookie數(shù)據(jù)應(yīng)該有以下兩種：

第一種是大多數(shù)情況下，人們并不是登錄百度就進(jìn)行搜索的，由于沒有錄入帳號(hào)和密碼，百度就沒法通過用戶ID和密碼來區(qū)分調(diào)查個(gè)體（所謂的虛擬人），為了能夠區(qū)分，百度不得不記錄用戶的一些電腦信息，如內(nèi)網(wǎng)IP，操作系統(tǒng)信息，瀏覽器信息等等，否則就無法區(qū)分不同的用戶。

第二種在用戶登錄的情況下（貼吧、知道博客等產(chǎn)品）使用搜索引擎，百度通過cookie記錄下用戶的ID和其他信息來區(qū)分不同對(duì)象。而這類用戶信息在百度的數(shù)據(jù)庫(kù)中可能更加詳細(xì)，其中包括用戶向網(wǎng)站提供的年齡、性別、職業(yè)等等非常全面的信息。

只有在完成此步以后，百度才有可能對(duì)收集到的人們檢索軌跡進(jìn)行歸類，分析得到結(jié)果，否則，就只有一堆關(guān)鍵詞，沒有任何意義。

顯而易見，無論是哪種方式，百度都是在利用用戶的cookie和隱私獲得了報(bào)告結(jié)果。這也就不難理解，為什么百度沒有作一份調(diào)查問卷卻能獲得百萬(wàn)數(shù)量調(diào)查樣本，百度在利用我們的cookie和隱私，百度通過我們的小蛋糕（cookie）完成了他們的大蛋糕（報(bào)告）。

百度已經(jīng)動(dòng)了我們的蛋糕！百度正在動(dòng)我們的蛋糕！

微軟公司07年7月23日宣布，用戶的IP地址和其他與網(wǎng)絡(luò)搜索相關(guān)的識(shí)別數(shù)據(jù)，包括用戶身份證號(hào)碼、出生日期和居住地址等資料，將在18個(gè)月后永久刪除。此外，微軟還承諾，將把搜索關(guān)鍵字與賬戶資料分開存儲(chǔ)

雅虎和aol將刪除cookie的時(shí)間縮短為13個(gè)月，GOOGLE將刪除cookie的時(shí)間縮短為一年半，搜索引擎保留用戶敏感數(shù)據(jù)的時(shí)間也在不斷縮短。大型網(wǎng)絡(luò)公司隱私保護(hù)正在不斷加強(qiáng)。

百度卻在大多數(shù)人不知情的前提下（關(guān)于通過cookie收集資料，只有在報(bào)告中提及），利用我們的cookie，關(guān)鍵詞檢索記錄制作了一份份行業(yè)報(bào)告。與那些大型網(wǎng)站和他的搜索同行相比，百度實(shí)在應(yīng)該反思一下。

申請(qǐng)創(chuàng)業(yè)報(bào)道，分享創(chuàng)業(yè)好點(diǎn)子。點(diǎn)擊此處，共同探討創(chuàng)業(yè)新機(jī)遇！

當(dāng)前位置：首頁(yè) > 站長(zhǎng) > 網(wǎng)站運(yùn)營(yíng) > 正文

百度，請(qǐng)別在動(dòng)我的蛋糕（cookie）！

相關(guān)文章

cookie為何影響搜索引擎優(yōu)化排名？

百度優(yōu)化建議合理使用cookie如何解決

Cookie仍舊是清白的

Google ADID來了后Cookie時(shí)代的替代品是什么？

站長(zhǎng)網(wǎng)每日播報(bào)：Cookie引爭(zhēng)議京東啟用新域名

熱門排行

信息推薦

編輯推薦

網(wǎng)站如何快速增加網(wǎng)站外鏈“附詳細(xì)方法”

關(guān)于暴瘋團(tuán)隊(duì)博客網(wǎng)站的運(yùn)營(yíng)思考

熱門標(biāo)簽