阿里大數據部門真實工作場景,和你想象的一樣嗎?

BI工程師、數據倉庫工程師、ETL工程師、數據開發工程師(大數據開發工程師) 有什麼區別?

一味的解釋數據倉庫概念可能沒意思,我們從不同角色出發吧

老闆 :我是一家手機公司的老闆,今天要向去董事局彙報,我要準備一份介紹過去三年的用戶增長、用戶留存、用戶活躍度、手機裡面每個APP使用率等情況的報表,假如下面沒我下面沒有BI,那我肯定就蒙逼了。。

阿里大數據部門真實工作場景,和你想象的一樣嗎?

BI : 我是一名非技術BI,我天天看競品的分析報告,看雙十一銷量,看各種評論,知道自己的產品有哪些短板有哪些長處,我分析南北地域差異,國內外客戶喜好,總之我在手機領域有著很強的行業解讀能力和數據解讀能力,我可以畫出非常漂亮的圖表和PPT。

阿里大數據部門真實工作場景,和你想象的一樣嗎?

FineBI做的可視化

今天老闆讓我出一份報表,我還要去刷臉找ETL工程師幫我跑出這次報告的數據,基於這份數據我要給出一定的解讀,為啥這個月手機賣得不如上個月,為啥用戶流失越來越嚴重等等都是我要去做的。

ETL工程師 : 我是食物鏈最底層的苦逼ETL工程師,我會寫shell、我會搭hadoop/hive/hbase、會寫超複雜邏輯的sql,今天那個不會自己計算數據的BI又讓我跑幾個數據,我本想讓她提需求流程的,但她說這是老闆要的(運營慣用的殺手鐧!!!),要加急處理。

我只能放下手頭的活兒給她跑數據了,花了半個小時把數據跑好給她,希望能就這麼交差吧。

如果你以為我每天就做這點事那你就錯了,我平時的工作可不僅僅就是完成上面交給我的任務哦,我還負責數據ETL過程、數據建模、定時任務的分配、甚至有時Hadoop集群的維護等等都得我去做,每件事單獨拿出來都可以拿出來寫本書。

阿里大數據部門真實工作場景,和你想象的一樣嗎?

就拿ETL過程來說吧,你要把原始數據從各種數據庫、各種服務器的不同業務日誌歸一化到同一類格式,要約定好分隔符,然後導入到分佈式文件系統HDFS,甚至你還要和業務系統定義數據格式出規範。

數據收集完,你還得出中間表,數據過濾,格式統一,ID統一,維度統一,通過不同的數據現象進行數據,完了,你就得出一些日報週報之類的數據了,這時候你要按照需求把數據組織成一定的格式然後到Mysql、或者HBASE等等。

總之你就是需要把數據各種收集、各種處理、然後各種導入導出,是不是很有意思?

不過這些數據倉庫都非常初級,其中ETL工程師可發揮的空間太多了

1、正常情況下,老闆 —> BI —> ETL 出一份報告,這中間能否BI直接去計算數據?sql太複雜,那麼可不可以一切數據標籤化,BI甚至老闆要什麼就選什麼?

2、ETL工程師可以把數據收集自動化、可以規範業務日誌格式、可以將一切都配置化,但是這些都是基於N+1的,也就是說今天的發生了什麼一定要到明天才能看到,那麼有沒有一個系統能把數據分析做到實時或者準實時?參考雙十一大屏,馬總要是到12號才能知道成交了多少筆不劈了那幫做數據的才怪。

阿里大數據部門真實工作場景,和你想象的一樣嗎?

3、目前絕大部分分析系統都基於離線計算(HADOOP/ODPS),那這裡有個問題了,運營或BI想看個數據還得你離線慢騰騰跑完才能看到,那麼有沒有一個系統可以支持你再大的數據量,再複雜的邏輯,毫秒出數據?

我們有提到的還有算法工程師、大數據運維工程師等等。

數據倉庫的概念很廣很大,但在大數據應用面前也不值一提。

如果把數據價值分層,這裡分層的辦法很多,我只列舉一種方法,有人分過5層

第一層: 為老闆提供決策支持,例如傳統的財務報表

第二層: 為運營提供決策支持,例如數據化非常徹底的淘寶運營們

第三層: 為產品提供支持,例如有產品經理們會拿著報表天天看研究自己的某一個按鈕擺放位置對不對

第四層:數據用於生產,比如直接對接廣告系統產生收益,比如直接對接推薦系統為用戶推薦商品,實現千人千面,再比如利用手機APP直接給不同用戶push消息

第五層:大數據交換,數據產生直接收益

大部分公司能做到前兩個層次就已經很不錯了,如果能做到第三層,就已經很牛逼,做到第四第五層次,國內互聯網公司不超過3家,阿里和騰訊可以做到,大數據應用太大了,不知從何說起,以後聊吧。


分享到:


相關文章: