嘉賓介紹:朱林,一個開發(fā)了17年程序的老程序員,熱愛開發(fā),有11年的安全開發(fā)經驗,現任賽克藍德公司技術總監(jiān),從事數據分析領域相關產品的研發(fā),公司現已開發(fā)一款日志分析產品(SeciLog)。
精彩觀點
在大數據時代已經到來的時候要用大數據思維去發(fā)掘大數據的潛在價值
在中國,絕大多數的公司是沒有太多數據的
現實的情況往往是數據只能驗證現在,數據無法預見未來
一切不以解決業(yè)務為出發(fā)點的技術都是耍流氓
很多時候數據并沒有我們想象的這么值錢,尤其是互聯(lián)網上很容易采集到的數據
大數據應該是從小數據逐漸演變上去的,是一個正常的生態(tài),而不是瞬間變化的
聲明
個人言論,本文僅從另一個視角看待大數據,如不能理解請一笑而過,勿做無謂的拍磚,僅此而已。
引言
現在很多人都熱衷于把大數據放在嘴邊,但你要問一下什么是大數據,大數據和你有什么關系?估計很少人能說出個一二三來。
究其原因,一是因為大家對新技術有著很深的原始渴求,至少在聊天時不會顯得很“土鱉”;二是在工作和生活環(huán)境中真正能參與實踐大數據的案例實在太少了。
一、什么是大數據
最早提出大數據時代到來的是麥肯錫,他說:
“數據,已經滲透到當今每一個行業(yè)和業(yè)務職能領域,成為重要的生產因素。人們對于海量數據的挖掘和運用,預示著新一波生產率增長和消費者盈余浪潮的到來。”
IBM 最早將大數據的特征歸納為4個“V”,即:
體量Volume,數據體量巨大。大數據的起始計量單位至少是P(1000個T)、E(100萬個T)或Z(10億個T)
多樣Variety,數據類型繁多。比如,網絡日志、視頻、圖片、地理位置信息等等。
價值Value,價值密度低,商業(yè)價值高。
快速Velocity,處理速度快。這一點也是和傳統(tǒng)的數據挖掘技術有著本質的不同。
其實這些V并不能真正說清楚大數據的所有特征,下面這張圖對大數據的一些相關特性做出了有效的說明。
維克托·邁爾-舍恩伯格在《大數據時代》一書中舉了百般例證,都是為了說明一個道理
在大數據時代已經到來的時候要用大數據思維去發(fā)掘大數據的潛在價值
書中,作者提及最多的是Google如何利用人們的搜索記錄挖掘數據二次利用價值,比如預測某地流感爆發(fā)的趨勢;
Amazon如何利用用戶的購買和瀏覽歷史數據進行有針對性的書籍購買推薦,以此有效提升銷售量;
Farecast如何利用過去十年所有的航線機票價格打折數據,來預測用戶購買機票的時機是否合適。
書中提到大數據的核心是預測。有三個思路的轉變:
不是隨機樣本,而是全量數據;
不是精確性,而是混雜型;
不是因果關系,而是相關關系。
二、現狀分析
根據國家統(tǒng)計局2014年12月16日發(fā)布的《第三次全國經濟普查主要數據公報》中顯示:
全國共有從事第二產業(yè)和第三產業(yè)活動的法人單位1085.7萬個,占全部企業(yè)法人單位95.6%。從業(yè)人員35602.3萬人,平均每個單位32.8人。
這個數據說明了中國絕大多數的企業(yè)都是中小企業(yè),在這種情況下,有多少企業(yè)有海量數據呢?
我們換個角度再看看以下數據,我們搜索一下國內幾個典型客戶的網站排名情況(查詢網站是alexa)。
用友:
東軟:
綠盟:
從中可以看出用友的PV最大,也就是一天75000個,一年的數據量也就是2300萬,在加上別的數據,數據的量級也就是G級別的,還遠未到T級,更別說P級了。
在這個量級上,一臺好點的 PC Server 就可以處理完成大部分的需求,如果考慮到可靠性最多需要兩臺。
通過上面的分析,我們可以發(fā)現在中國,絕大多數的公司是沒有太多數據的。
三、大數據的核心價值
《大數據時代》中提到的大數據的核心價值是預測,但我們提到大數據時,往往提到的都是大數據技術,比如Hadoop、Spark、Storm、Hbase、Hive等等,人們對此的討論總是樂此不彼。
但現實的情況往往是數據只能驗證現在,數據無法預見未來!
舉個最近的例子:
大數據告訴我們股市暴跌后必然有反彈。于是6.25大跌后,大家都認為周五必然有一個反彈。結果周五就被*們狠狠的教育了一把。
6.28的雙降(降息,降準),所有都說周一6.29會上漲,可周一中國的*讓散戶們明白,數據和經驗只是你的一廂情愿,他不會給你一絲的喘息機會。
一切不以解決業(yè)務為出發(fā)點的技術都是耍流氓,計算機技術的發(fā)展是非常迅速的,往往一個技術可能沒有多長時間就會被淘汰或者升級。
如果沒有業(yè)務場景作為支持,存粹的學習大數據的技術是沒有太大價值的,筆者崇尚的是學以致用。
因為大腦有個很明顯的特征是健忘,如果用不到,學這些技術過一段時間就會忘記,還不如暫時不學,等后面需要用到的時候在學(原理基礎知識等除外)。
四、數據真的值錢嗎
很多時候數據并沒有我們想象的這么值錢,尤其是互聯(lián)網上很容易采集到的數據,比如:爬蟲這個東西。
我一開始不是太懂,但是花點時間,基本上通了,無論是用Python自己寫一個,還是直接用現成的各種軟件,都是很快就可以部署并開始采集。
中國有大量的程序員,還有的稍微懂點編程的計算機愛好者,另外爬蟲軟件的出現可以讓一個新手隨便花點時間就可以學會采集。所以采集的門檻在降低。
另外,數據的可復制性導致其廉價,尤其是非結構性的數據,從現在互聯(lián)網上大量的轉載文章就可以看出知識的傳播復制是非常廉價的。
數據的利用才是有價值的。比如:
一個老板,他每天看幾十個零散數據放到他面前,但是卻沒有把行為數據和商業(yè)數據的關系告訴他,有什么用呢?
一個公司CEO,每天看到幾十個數據,什么PV、PU、UV等等是沒有意義的。
對于他們來說,只需要知道有問題嗎?問題是什么?有新的發(fā)現嗎?需要做什么?這就行了。
五、大數據的泡沫
伯克利的Jordan教授給出了答案,他是機器學習世界范圍內最被尊敬的專家之一(下面的翻譯來自知乎上的作者Quinn Sure)。
目前的大數據給出的結果可靠性太低,如果急于應用到實際中,就好比是土木工程都沒學好就開始造橋,結果只能造出“*工程”。
一大波“false positive”(假陽性)正在接近,因為數據增長的速度不夠支撐我們把大數據到處亂用的欲望。作為一個科學,不夠嚴謹(原文是“沒有error bar”)。
不像造橋的土木工程,經過多年的積累,明確地能告訴我們什么樣的情況可以造,什么不可以。而大數據沒有。
目前在computer vision領域進展還很小,只能在非常有限的范圍內識別,比如人臉識別這樣非常具體的引用(雖然這個不是直接說大數據,但是可以看出,作者認為真正做到萬物都sensor還很遠,大數據的采集能力終究還是有限的)
neural network根本和人腦的neural network不是一回兒事,我們對大腦的理解根本沒到可以引用到計算機科學的程度。
現在deep learning所采用的back propagation技巧,明顯不是大腦的運作方式,network的結構都完全不同,什么對數據的模糊性處理已經達到人腦的境界云云,主要是媒體扯談。
對他觀點的總結:
有些媒體為了讓公眾容易理解,打了些比方,但是這種比方造成了太多誤解,進而造成了太多hype(夸張的大肆宣傳)。
大數據還是一個沒有足夠嚴謹程度的科學,可能有一定的概率做出一些有用的預測,但是使用不當,過分過早地依賴,則會造成災難性的后果。
很多時候大家過早對一個技術爆發(fā)熱情,寄希望它可以改變世界,如果短時間沒有成果,有可能熱情一下子轉冷又覺得這是個錯誤,加速抽離給這個技術的資源。
顯然Michael很擔心現在公眾對這個技術的熱情,并不是基于對這個技術的理解,從而有可能會經歷這樣的態(tài)度轉變。但是他認為這個領域是現實存在的,很多重要的應用,假以時日,是會創(chuàng)造價值的。但是現在很多媒體宣傳,甚至投資行為,都是泡沫。
六、從小數據開始
那怎么做的呢?
從小數據開始,小數據就是個體化的數據,是我們每個個體或組織的數字化信息。
比如我天天都喝一兩酒,突然有天喝完酒了胃疼,我就想了,這天和之前有何不同?原來,這天喝的酒是個新牌子,可能就是喝了這個新牌子的酒讓我胃疼。
這就是我生活中的“小數據”,它不比大數據那樣浩瀚繁雜,卻對我自己至關重要。
現在很多企業(yè)面臨的最大問題不是怎么用大數據,而是小數據都沒用好的情況下怎么用大數據。
大數據應該是從小數據逐漸演變上去的,是一個正常的生態(tài),而不是瞬間變化的。
首先,要了解自己的企業(yè),自己所在的行業(yè)的核心是什么。有很多企業(yè)在競爭的過程中,最終不是被現在的競爭對手打敗,而是被很多不是你的競爭對手所打敗。
很簡單的一個例子,大家都認為亞馬遜是做電商的,但這是錯的,它現在最主要的收入來自于云服務。
所以要找到企業(yè)的核心數據,這個是最關鍵的。只有在這個基礎上,利用分析好這些數據,然后在做一些延伸。
其次,再找與內部相關的一些數據,去慢慢地成長它。有點像滾雪球,第一層是核心,第二層是外圍相關的數據。第三層是外部機構的一些結構化數據。第四層是社會化的,以及各種現在所謂的非結構化的數據。
這幾層要一層一層地找到它,而且要找到與自己相關的有價值的東西。這樣你的數據才能利用起來。
更多內容請關注微信公眾號:secisland,產品QQ*流:317896151
申請創(chuàng)業(yè)報道,分享創(chuàng)業(yè)好點子。點擊此處,共同探討創(chuàng)業(yè)新機遇!