究竟什麼才算是大數據

大家好,我是小眼中意。


  至於大數據,每個人都不再陌生,因為今天我們都在不知不覺中使用大數據,並且也在向為我們服務的公司提供大數據。當然,有些人會說使用大數據是信息技術公司或互聯網公司的事情。沒有信息技術,我如何使用大數據?


  事實上,如果您使用美圖秀秀編輯圖片或使用華為拍照,您實際上已經使用了大數據。美圖秀秀pmap不是基於規則,而是將你的臉靠在所謂的“標準臉”上,上述“標準臉”的維度基本上是我們每個人臉的平均值,這是大數據統計的結果。


  在美圖秀秀公開後,一些人把它告上了美國的法庭。這並不是因為產品做得不好,也不是因為財務數據有問題,而是因為一些美國的人覺得不管他們是白人還是黑人,他們都被p變成了黃色。這也表明它使用了大量中國的數據進行培訓。同樣,華為手機具有許多圖像識別功能,而且它們也是基於大數據的。


  那麼,什麼是大數據,它的特徵是什麼?今天,我經常在媒體上看到一些公司說他們是大數據公司。他們真的擁有並使用像美圖秀秀或華為這樣的大數據嗎,還是在大肆宣傳這一概念?我們如何訓練一雙金色的眼睛?這就是我們今天要談論的。


  讓我們從大數據的特徵開始,它可以幫助您判斷大數據的真假。


  首先,大數據需要大量數據,這一點我們毫不懷疑。少量數據必須不符合大數據原則。至於適當的數據量,我們早就引入了置信度的概念。數據至少應該足夠大,以使統計結果具有很高的可信度。


  其次,大數據需要具有多維特徵,並且每個維度最好是正交的。為什麼多維度很重要?我們不妨看看大量數據但維度不足的問題。


  一個人的遺傳圖譜數據總量約為1TB,即1,000 GB,這並不是一個很大的數據量,但它沒有太多的統計意義,因為我們無法從一個人的數據中看出是否存在潛在的疾病。這麼多人的數據足夠嗎?不一定。


  例如,我們有100個人的基因數據,我們發現一個人的一個基因不同於其他人。這是否意味著他有疾病?我們不能得出這樣的結論,因為不同人的基因總是或多或少不同的,否則我們不能通過基因來確認人的身份。


  然而,如果我們有來自另一個維度的信息,比如過去這100個人的病例,那麼就有可能找到某種基因和某種疾病之間的聯繫。這就是大數據在許多方面的作用。當然,100人的人數仍然太少,得到的統計數字可能不可信。2016年,谷歌啟動了與斯坦福大學和杜克大學的長期合作,以監控和獲取5000人的所有醫療數據。有了所有維度的數據,就有可能找到生活習慣或基因與其他生理特徵和疾病之間的聯繫。


  今天。淘寶或其他網上商店可以有效地向你推薦產品,很大程度上是因為它不僅有你網上購物的數據,還能從其他渠道獲得你生活的信息,包括無意識的。


  例如,它可以根據你的在線行為知道你的年齡、性別和教育背景,根據你晚上和白天的工作地點知道你的工作地點和地址,甚至知道你的工作性質和生活習慣,例如你是否經常旅行,你吃什麼樣的餐館,你是否喜歡運動,你是否使用名牌產品等。


  因為阿里巴巴數據收集的時間跨度很長,所以它也能看到人們消費習慣的變化。基於這些信息,它會知道你是誰,你需要什麼。沒有大數據,這種事情很難做。


  大數據的第三個重要特徵是數據的完整性,這在過去經常被忽略,因為在過去,人們習慣於通過採樣來使用數據,而不可能實現完整性。抽樣統計存在一個問題,即總有5%的小概率事件無法覆蓋。如果一個人最後運氣不佳,恰好落在5%的位置,統計方法就不起作用了。


  今天的情況不同了,因為數據採集設備無處不在,而且我們有意無意地向它發送數據,所以完全有可能獲得完整的信息,從而堵住了利用數據進行預測的死角。


  我們之前討論過提高名片識別率的方法,即從互聯網上抓取所有的商業和私人聯繫地址,並將其與名片上識別的信息進行比較,我們可以過濾掉幾乎所有的錯誤。事實上,數據的完整性是——,也就是說,我已經收集了所有的地址、電話和其他數據。完整性使大數據成為一種徹底的策略。


  除了上述三個特性之外,大數據通常需要是實時的,因為在那些應用場景中,經過一段時間後,數據變得毫無意義。


  幾個月前,我參加了在密雲舉行的大學生畢業週年晚會。會後,我會回到清華給學生們講課。講座時間是晚上7: 00。通常這部分(大約120公里)的通勤時間是2到2.5個小時。那天我兩點鐘出發。我本來可以在5點鐘之前到達清華,然後吃了一頓飯,就去了會場。


  誰知道剛離開密雲,進入京不久,由於交通管制,道路被封鎖,手機地圖上沒有及時給出這一信息,因為這只是幾分鐘前的事。所以我們繞道走了京沈高速公路。當我們最終到達那裡時,道路被堵塞了,很難通行,因為每個人都被困在那裡。最後,我們繞道進入密雲縣,穿過許多紅綠燈,然後進入懷柔縣,沿著城市的道路慢慢走。我通常在地圖上看到一條平坦的道路,當我出現時,我會遇到擁堵。幸運的是,司機熟悉北京路,並最終在7點前把我送到了。


  如果我們可以隨時獲取道路信息,並且比如高速公路的封鎖信息通過汽車網絡直接傳遞給我們的汽車,那就不會這麼尷尬了。從這個例子中,你可以看到所有事物相互聯繫的必要性。然而,僅僅從大數據開始,大多數時候如果實時信息不能得到保證,所做的決定往往是事後諸葛亮。


  要點總結


  今天,我們介紹了大數據的四個明顯特徵,即大數據量、多維性、完整性和某些場景的實時性。我們特別強調,僅大量數據並不能構成大數據,因為它可能無法獲得有效的統計規律,而多維特徵允許我們交叉驗證信息並提高準確性。


  每個人都已經看到了大數據的力量,所以有些人可能會問,有了大數據,我曾經工作過的行業會消失嗎?事實上,大多數行業不會很快消失,但它們可能會以另一種形式出現。有專業知識的人需要做的是用所謂的領域知識在不同維度之間搭建一座信息橋樑。


  當大數據有多個維度時,就會出現矛盾。下圖。左邊的圖形有兩個信息維度,它們共同描繪了一個目標範圍。右邊的圖表有三個維度的信息,但是它們沒有一個共同的交點,所以問題就出現了。我們應該相信誰?

究竟什麼才算是大數據


  消除數據之間的矛盾還需要領域知識。因此,在某個行業工作了很長時間並擁有專業知識的人不會被大數據所取代,他們可能會很好地利用大數據,並在職業生涯中爬上一級臺階。在未來時代,三種類型的企業將從大數據中受益。


  第一類企業類似於騰訊、阿里巴巴或今天的頭條公司。他們有自己的數據、技術、應用場景,不需要外人的幫助。


  第二類企業有數據,沒有技術,包括許多大型企業。比如移動通信運營商、傳統銀行和零售業務等。他們需要外來者的幫助,但通常他們不會為了保護自己的利益而與第一類公司合作。這裡的專業人員可以解決上述數據衝突和鏈接行業中不同維度的數據的問題。


  第三類企業缺乏數據但擁有技術,因此他們需要為第二類企業解決實際問題。當然,在解決問題的過程中,他們可能會進入很多領域,逐漸成為新的平臺公司。比如美國著名的大數據公司Splunk一步一步發展起來,如今市值高達200億美元。但一開始,這些公司肯定在做骯髒的工作。思考問題:根據大數據的多維特徵,談談它對你的影響。


謝謝大家的耐心看完,歡迎評論,與我交流。



分享到:


相關文章: