360商業產品首席架構師、《計算廣告》作者劉鵬:九評大數據

【CSDN現場報道】2015年11月19-21日,由CSDN重磅打造的“2015 中國軟件開發者大會”(以下簡稱SDCC 2015)在北京朗麗茲西山花園酒店隆重召開。今年是第七屆,大會為期三天,除了陣容強大的全體大會外,主辦方還精心籌備了九大技術專場論壇,包括:架構實踐論壇、前端開發論壇、數據庫實戰論壇、研發管理論壇、安全技術論壇、算法實戰論壇、編程語言論壇、產品與設計論壇、微信開發論壇。此外,還有五場特色活動及展覽展示。

360商業產品首席架構師、《計算廣告》作者劉鵬發表了《九評大數據》的演講。他風趣地拋出了這樣一個話題“為什麼Hadoop的Logo是一頭象”,他的理解是,Hadoop實際上就是盲人摸象,對於大數據每人都有自己的理解。劉鵬隨後對數據的來源特點、數據的使用方法、數據的加工技術等進行了詳細分享,最後他也對行業一些案例進行了展望。

以下是劉鵬發表的主題演講:

360商业产品首席架构师、《计算广告》作者刘鹏:九评大数据

360商業產品首席架構師、《計算廣告》作者 劉鵬

大家下午好我叫劉鵬,最近可能外面忽悠得多了一點,大家可能看到我講的不少,但是看到我穿皮鞋講的機會很少見,一般我都不穿皮鞋,今天我給大家分享什麼呢?CSDN這個組織者希望我們來做一個報告,我想不出來講什麼合適,最後決定就講大數據,大家不知道討論什麼的時候就討論大數據。我曾經過一個玩笑,咱們在互聯網+時代3個終極的哲學問題,我們從哪兒來到哪兒去?我們做的事情是不是大數據?我今天講的內容,不算什麼乾貨,都是我自己在接到這個題目之後,自己做的一番深入的思考:大數據在工業界裡邊,什麼樣數據本身,怎麼樣的應用的問題?怎麼樣的解決的方案組合在一起才會是大數據的問題?這些思考非常的膚淺,請大家多提意見。

360商业产品首席架构师、《计算广告》作者刘鹏:九评大数据

為什麼Hadoop的Logo是一頭象

這個圖大家肯定都認識,這個logo是什麼呢?是hadoop的logo,這個logo特別的好,因為hadoop 是咱們做大數據處理的,可以說是第一代的比較完善的基礎平臺,某一種程度上代表了大數據的現象。我們知道中國有一個詞叫做盲人摸象,我們每個人看待大數據這個詞的時候,在不同的社區裡、不同的領域裡有不同的觀點,比如說4V的理念、關於價值等,圖片中的4個就是大數據的根本特點,但是說實話,看完這4個V之後和沒有看一樣,還是不知道大數據是什麼,互聯網的人都是在討論大數據是什麼?討論大數據的個性化應用,比如說我們最常見的應用有計算廣告,個性化推薦、互聯網金融的個人徵信,我們利用數據把對人的服務變成個性化的。

我們從互聯網很多得到的視角,也有很多著重於底層架構的朋友在討論大數據的時候,更多的是討論開源的框架而且把開源的框架和廠商做比較。還有的人談到大數據的時候談的是商業智能的概念,這一點其實在我來看就不太認同,我認為商業智能主要是上一個時代的數據處理的任務,和我們現在所講的有蠻大的差別。我為什麼這樣說,我會給到自己的觀點。用這個logo告訴大家是:我覺得大家對大數據的理解就是盲人摸象的故事一樣,每個人都有不同的理解,我想了很長的時間也沒有辦法對大數據給出一個整體的定義。所以我整理了一下工業界在碰到大數據這個詞的時候,我們有哪些方面的不一樣,也就是下面9點的觀察和思考。

我把9點分為3個部分,第一關於大數據的數據來源,什麼樣的數據來源我們認為是注重關注的數據源,第二大數據基本的應用問題,什麼問題是傳統的數據分析問題,第三就是關於大數據的加工和使用技術。

360商业产品首席架构师、《计算广告》作者刘鹏:九评大数据

數據的來源特點

我們先來看一下大數據的數據源問題。關於大數據的來源特點,首先第一個我的觀點,我每一點都是這樣,左右兩塊,左邊是傳統狀態,右邊是我們將來的狀態和現在正在走的方向。從數據來源上來講,最重要的是我們要區分什麼是交易數據什麼是行為數據,這個詞是我的定義,並沒有討論和規範。交易數據,我指的是你的業務流程之中要記錄的數據,舉一個例子,比如說電信運營商在它的業務運轉過程之中必須要記錄你所有的通話的時長、通話的費用。銀行,所有的存取款和理財的行為是必須要進行記錄的,這就是銀行的交易數據。對醫療來說更有意思,醫療的交易數據是什麼呢?你們去醫院看病的病例,這個病例同樣是一個醫療的業務開展所需要的必要的條件,這樣的數據是不能不記的,所以我把它稱之為交易數據。

今天上午有人問到工業4.0的問題,工業界也有這個問題,工業界傳統所記錄的數據當中,所謂的交易數據是很少的,而是生產貨物以後的數據,在生產過程之中的所有的數據基本上都沒有被系統的記錄下來。這樣的交易數據有什麼特點呢?有兩個重要的特點,首先一致性的要求很高,銀行、電信的交易數據每一條都不錯,而且處理的時事性要求很高。另外一個特點,就是它的數據量並沒有到達海量的程度,銀行,你們可以算一下,比如說工行,一天有多少筆交易,從筆數上來,比互聯網的任何一個網站都要少很多。但我說這個話並不意味著他的交易數據的處理是簡單的,因為它的一致性的要求很高,很複雜。於此對應的是行為數據,行為數據是是業務流程之中可以記也可以不記的數據。

我們為什麼會記行為數據呢?所有的網站服務都是以數字化的形式提供的,數字化形式的背後,就把所有的日誌給記下來了。所以在開始,並不是說互聯網企業一定要記錄行為數據,並拿來加工和變現。我們是無心插柳,數據已經記下來了,那麼怎麼樣變現呢?就是用流量來變現。其他的行業也有的行為數據是可以記錄的,比如說電信行業,你所有的通話記錄、短信,這是它的行為數據。我們先不說使用的邊界和困難有多少,這樣的數據裡一定蘊含著巨大的價值。

還有電信在開始認真考慮使用的就是每個網民的上網的記錄,這些事情對電信傳統的業務來說是可記錄可不記錄的,銀行的行為數據,一個APP上有瀏覽的行為,你在線下拿了號,但是並沒有等到自己的服務,就走了,這就是行為數據。醫療的行為數據,當你的身體沒有發生狀況的時候,日常的健康的記錄這就是正常的。行為數據的數據規模巨大,一個廣告公司每天處理的數量是達到100億次,這個量已經超過了絕大多數的大規模企業的交易數據的量。但是他一個好處就是它的一致性的要求很低,網站的日誌我們後面還會這個問題,在加工的過程中我們並沒有向銀行一樣一致性的高要求。還有一點差別,行為數據裡的價值的密度是很低的,1個G的內容會挖掘出大量的信息來,一個G的行為數據能夠挖出來的數據就很少,所以就要求我們必須要採取低成本的方案。

剛才說到數據源的第一個特點就是交易數據和行為數據的差別。第二個差別,就是由結構化數據轉向非結構化數據,結構化數據是用字段表達的比較結構的數據,比如說用戶的註冊信息,交易的行為,這些東西都可以用數據庫來表達。非結構化數據是什麼呢?就是我們沒有辦法用統一的結構來表示的數據,比如說在互聯網上大量存在的文本、圖像、和用戶的行為數據,這些數據不僅從結構上來說差別很大,在內容的分析上不是數據庫的更改和查找就可以完成的,還涉及到大量的人工智能的工作,所以把結構化數據向非結構化的數據來進行拓展,這也是我們在大數據時代一個重要的方向。比如說現在的金融行業做這一種高頻交易的支撐的時候,大家處理的數據除了在交易所本身發生了大量的交易的行為之外,已經開始涉及社會化網絡裡面的內容,網頁上的內容,搜索上的內容,用這些信號來共同的支撐你對股票買賣的決策的支持。

第三點,也是蠻重要的就是講我們在大數據時代數據來源的範圍。過去我們對數據的加工,我認為是一孤島數據,企業本身有數據我把它記錄下來,加工好了加以利用,這是在幾年企業級數據利用的關鍵的步驟。比如說我們很多的系統,管理客戶生命週期的系統和管理相應的銷售行為系統還有商業智能的系統,這些都是在管理自己業務範圍內的用戶,基本上不會跑到企業邊界之外的蒐集和加工。

我們有用到百度這樣的產品,雖然說它處理的是行為數據,但是它處理的是你站內的行為數據那麼這樣的孤島數據的使用。它的目的是側重於分析本業務的指標和提高自己的運行的能力,這是我們過去使用數據的目的。這個目的我們用企業內部的孤島數據是夠用的,但是在今天你會發現我們真正要解決這個問題的時候,比如說我做廣告營銷的,站在廣告主自己的角度,僅僅的使用廣告主內部的數據是遠遠不夠的,它要維護數據,而且把數據打通在一起去描述用戶的偏好,這樣我們的數據的就變成對全局數據的加工和利用,所以在這時代,企業要想用好數據,企業要儘量的獲得去統一的加工跨行業、跨企業的數據。當然這裡邊就涉及到很重要的技術和產品,怎麼樣來做數據的交易,怎麼樣數據的交換?這個是在孤島數據時代不存在的問題。

所以在全局的數據的使用上來說,我們更側重的是全面深度的去理解用戶,並且主動的來獲取信息和客戶,我覺得這一點其實是在意識上很大的一個轉變。如果說你的數據系統或者說你的決策者從開始就從來沒有想過,要利用自己企業以外的數據,那麼你整個大數據系統的架構,可以說是有很大的問題的。將來它不會對大多數只有少量數據或者說規模不大的企業來說,這樣的大數據系統不太可能會發揮本質的作用這與傳統的商業智能和數據分析不會有本質的差別。

這是我們講的3個關於大數據在來源方面的特點,最重要的一點就是行為數據和交易數據的差別,首先你要想辦法把你原來認為可以記錄也可以不記錄的數據,由物理的手段和相應的平臺把它都記錄下來。如果說這一步都沒有,我們談大數據是為時過早的,進而可以去意識到非結構化數據和通過交易的手段來認識到全局的數據。

第二部分我們來談一下關於大數據的使用方法,這個題目不太合適,我覺得應該叫大數據的應用問題,怎麼樣的應用問題本質上我們可以認為是大數據的問題?而不是傳統的數據分析問題當然我們並不是說要把這兩個問題對應起來而是我們在處理問題的時候,所用的產品的結構是有差別的,所以我們要認清什麼樣的問題是大數據的問題還是非常的有幫助的。

首先一個觀點,這個觀點很多都說過,採樣分析的問題,不屬於大數據的問題全量的加工才屬於大數據的問題,這個觀點我說很多次。如果說你有一個問題,可以通過小部分的數據就相當準確的解決了,不管你的數據的來源有多大,就不能夠叫做大數據了。舉例,我要統計我們公司的某一款產品在不同地區的用戶佔比,我這個產品每天有十幾億次的訪問,我也要進行採量,採量到萬分之一的時候,統計的結構還是可以的。這個特性對採樣來說非常的不敏感,你就沒有辦法去盯著全部的數據,再去到結論。你應該是先採樣,這樣的問題無論數據有多大就不能夠叫做大數據的問題,採樣分析的問題,廣泛的問題,比如說我們進行分佈性的統計,再有一個是人口普查,人口普查有它特殊的狀況,因為我本身可以通過行政性的手段讓大家來配合,來完成我這個普查,這樣的問題我覺得也不屬於大數據的問題。

順便來說一下我個人覺得采樣分析的手段,其實並不能夠很好的反應整體的內容,在很多的情況下,比如說我們要統計一個廣告投放之後的效果,過去在電子的廣告方式我們會去找一些種子用戶,然後向他們去發調查問卷,看他們對問題的反應的情況,因為這樣的方法是存在著偏差,因為填問卷的人是學生,很難認識到高端用戶到你的廣告是什麼態度,這樣的結果,就今天來看是非常不準確的

怎麼樣做呢?如果說我們已經有了大規模的行為數據,建立在我們所講的第一條的基礎上,這些問題必須要通過大規模的行為的架構才能夠得到解決,這是真正的大數據的問題。比如說個性化推薦和廣告是非常典型的大數據的問題。系統服務的10億人,我能不能採量100萬人來對這100萬人來分析呢?因為你分析的結果只是針對於這1萬人,其他9萬人還是那樣,所以你不能夠採樣。我這裡說到:個性化推薦、計算廣告、個人徵信,就是無法的採樣,無法的採樣導致的結果就是我們在做一個技術。

比如說廣告的調查,舉一個很簡單的例子,我們在大數據時代怎麼樣解決呢?比如說電視廣告過去我們都依賴央視的這一套電視廣告率和收視率的調研,這件事情我們用行為數據很容易解決,在北京大家都有機頂盒,機頂盒能夠準確的知道你開機和換臺等所有的行為,所以我們通過數據可以來進行加工和分析,但是比較遺憾的是,這樣的做出來也沒有人信,大家還是相信央視的。這當中有市場的原因。

因為全量加工的問題所以就必然導致工程上的問題大規模的計算無法避免我們所講的邏輯是我們想要避免大規模的計算,沒有人想一定要把10億人的數據每天都算一遍,如果說問題的特性使得你必須要算,這就是徹底的大數據的問題,你在計算的架構上必須要做出調整。用傳統的方案來做這樣的產品,及時能夠做出來,成本也是你無法承受的,因為它的價值密度低。

這個配置我們要說一個數據的兩類應用,這個不是我總結的,我不知道是誰總結的,有兩個詞,洞察應用和自動化應用,洞察應用是什麼呢?就是報表,就是全局和局部統計信息的獲取,比如說企業的財務信息的獲取把企業的數據統計成三張財務報表,你從這三張財務報表之中能夠反應出現金流的情況。日常運營的報表也是屬於洞察,簡單的說洞察就是報表或者說是報告。這一類應用它的目的是什麼呢?主要是用於宏觀的決策的支持,財務人員和你的CEO、CFO,要通過這個報告對企業的健康狀況做出評估和調整。另外是給領導和運營的人員看的,這是我們所講的洞察。自動化是什麼意思?就是我的應用本身的目的,是為了捕獲個體的行為和特徵,比如說定向廣告,定向廣告所需要不是最後有一個報表,說北京市的用戶喜歡什麼結構,我們要的是每一個用戶喜歡什麼樣的商品?我們的密度是在用戶這一級的如果說用戶在這一級我們的自動化還可以叫做個性化,自動化並不一定是個性化,也可能是對企業級的分析比如說B2B的業務,下面有大量的中小賣家,你對每一個賣家的建模和分析,仍然是一個自動化的業務,但是我們不能夠把它叫做個性化的業務。

它用於什麼場景?用於微觀業務的實施。每個人的畫像,用的就是為這個人本身的內容和定向廣告的投送來服務的,所以它是用在非常微觀的使用的場景裡。面向的對象就不是給領導看的,而是給銷售人員看的。這是下面要講的。

其實我們講的這幾點都是非常內在的有確切的聯繫的,洞察天生適合的場景是給專家決策用的,自動化天生適合的場景是為數據分析師所服務的。自動化的結果之中也從當中來發現一些內容,白對它做研究,所以這是有交叉的,所以我們把分成兩點來介紹。專家的決策是什麼意思呢?數據輸出的結構由人分析之後,就是我拿到報表之後,通過分析來調整運營系統,讓我的生產系統有所變化,這是我們專家決策的目的。我個人的感受,要想用數據來指導數據+專家的模式來指導運營系統在大多數的情況下,並不見得可以。為什麼這樣講呢?拿企業的財報為例,財報是非常簡單的三張表,但是要想看懂這一張表,深入的解讀並做出調整,必須要由非常專業的財務人員和非常有經驗的財務人員才能夠看懂這三張表和用好這三張表,同樣的道理你每一張機器生成的報表,你面對不是一個訓練有素人員,你想要讓沒有經過訓練的人員拿到報表做出反應,影響生態系統,最後的我看到的結果是很悲觀的。往往結果不會對生態系統產生什麼實質正面的影響,很可能是看完報表一笑就過去了。或者說他會根據他的解讀對——系統做出更加錯誤的行為,我個人不推薦數據給人用。

什麼是機器決策呢?和自動化應用相關。這個地方,出來的是自動化的結果,就是在個體級別的數據。這些數據按照一定的古澤來影響到線上數據的決策,同時這個數據再回來形成一個有效的閉環,我們講的自動化就是這個意思,數據從它的產生到加工到影響到決策的過程再到重新的產生這個過程是自動化的,是一個閉環,沒有人在裡面起作用,這樣的往往比人在裡邊產生的價值要多得多。

深入的利用數據,比如說我的每一個用戶打畫像這樣的應用的場景,是唯一的可能性,人不可能對這一塊做決策,現在的廣告業務也都一樣,我們採用實時競價的模式,都要去算自己的標籤,人是完全做不了這個事的,這樣的流程是符合大數據使用的基本的原理的。

所以我的看法是隻有給機器用的才是真正的大數據,這一點我就不多說了,但是要提醒大家注意,你設計一個大數據的使用的系統,你要特別要利用好的是,大數據的使用系統的一致性的要求是低的。如果說你把握不好這個特點,你設計一個個性化的推薦系統和廣告的系統,你的策略,你最後達到了5個9、4個我可以保證你的設計不是最好的因為你浪費了大量的成本,而是你應該降到3個9和2個9都沒有問題。

廠商方案和開源方案,廠商方案以IOE和微軟為代表。開源方案不一樣,我們知道hadoop 和spark,這兩個換了場景,他的可行性就大打折扣,所以它是專用場景的方案,關鍵的一點就是綜合的成本要降下來,成本降下來你才能夠在數據裡獲得利潤。

最後一點是關於簡單的建模和深度的學習。過去我在雅虎的時候,我們就說過,當時我們利用數據的主題是,在大量的數據上做淺層的挖掘。今天這個觀點已經過時了,今天已經發展到,大量的數據淺層挖掘我們做得很好了,大量的數據在高可用的平臺上,做深層次的挖掘如何利用技術來挖掘出正是正在發生的關於大數據使用的一個重要的方向。

從這9個點裡我提出了3個最關鍵的點,我自己認為你在面對任何一個行業,你要去擁抱大數據時代,要找到大數據的接入的時候要想清楚3點問題,第一點找到一個自動化應用,找到一個可以用機器決策的自動化應用;第二找到相應的行為數據來源;第三確定你的全量加工的技術和相應的問題。

我簡單的說兩個例子,保險行業,自動化的應用是什麼呢?我們經過分析很清楚,非理財險的保險很高,你在機場買的保險20塊錢,進價可能是5毛錢,我們對某一類型的用戶,來預估它的出險率,再給以合理化的定價,我們可以擴大非理財險的銷售額。這個地方是有巨大的空間的。行為數據是什麼呢?比如說車險,去年所有汽車形式的狀況,過去只有一點,上年有沒有出險,這只是交易數據。如果說你把它的行為數據用起來對他的出險率能夠了解。還有就是各個地區,我們對某一種病的發病率有很大的評估。出險率預估+個性化定價,是保險行業最大的空間。原來是10萬,我評估大數據的評估,發現的出險率是別人的1/3,我就3萬塊錢賣給你,在這3萬塊錢上,你的利潤率比普通的用戶更高。

再一個就是醫療,醫療的行為數據是什麼呢?可穿戴設備、雲存儲,個人健康數據,這件事情大家沒有見過。醫療行業大家從來沒有見過行為,但是行為數據在未來的幾年裡,馬上就要大規模的產生了。行為數據產生了之後,我們的自動化應用是什麼呢?是基於個人的健康數據實現個性化的醫療和點對點的醫療的模式,這當中的想象空間有多大這是基於在行為數據上。行為數據也可以促升洞察應用,比如說北京的糖尿病病人的可以彙總到糖尿病的專家的面前,可以對他的治療方案起到很大的作用從醫療上來說到,大數據是個人健康建模+疾病的管理的預防。

更多精彩內容,請關注新浪微博:@CSDN、圖文直播專題:2015中國軟件開發者大會。


分享到:


相關文章: