02.28 友盟+洞察:疫情期數據圖表背後的七個方法、三駕馬車與一個工具

疫情期間,數據分析領域湧現出很多民間高手,數據玩家各顯神通,或通過仿真程序調參,模擬病毒傳播,強調不要出門對控制傳播的重要貢獻;或用自然語言處理工具+詞雲,直觀展示每日新聞熱詞的演進變化,或現場教學如何爬取網站上的實時病例數據,用作進一步分析。

這些數據建模能力、數據開發技術固然是非常可貴,友盟+也發現,人人都能上手的、統計性、描述性的數據分析,同樣能發揮出巨大的洞察作用和價值。

數據分析的七個方法

早在1月21號,大眾對疫情的關注度剛開始爬升的時候,有公眾號把各省市病例數據和往年春運遷徙數據做了一個“略顯粗糙”的相關性分析,根據初步驗證的正相關關係指出,湖北省內一些城市和武漢來往密切,疫情狀態可能被低估,湖北省外的重點城市要加強機場或鐵路方面的預警。這些分析就充分運用到了趨勢監測、橫向對比、維度拆解等來判斷的。

友盟+洞察:疫情期数据图表背后的七个方法、三驾马车与一个工具

如在科普號“回形針”的視頻中,這樣一個數據推導小環節令人印象深刻。

● 首先,作者認為,湖北省內外的疫情發展狀況差異很大,湖北省內的確診診斷工作壓力較大,很可能在數字上有滯後,因此要將湖北和非湖北數據“拆分來看”。

● 下一步,他認為用總病死人數除以總確診人數得到的病死率,是不準確的,快速增加的確診病例數(分母)會稀釋這個百分比,於是選擇採取儘可能接近“同期群”的方式來處理。

● 進而,他依據當時文獻,得知報告確診到報告死亡的平均時間是8天,那麼最近3天的新增死亡病例大概率來自8天前確診的那些新增病例,在這樣一個“同期群”當中,得到湖北省外病死率在1.1%左右的,如果暫且認為湖北省內病死率也在相近的水平,那麼反除可得到上萬人的湖北省內感染人數。

● 根據現在的信息,湖北省內的病死率會比其他地區高一些,所以這個計算結果可能是大幾千這個水平,這與後續疾控中心披露的數據非常接近,而作者精巧的分析得益於對數據進行合理的“維度拆分”和“同期群”思路的應用。

友盟+洞察:疫情期数据图表背后的七个方法、三驾马车与一个工具

還有我們每天會關注的疫情數據報表。以丁香園為例,丁香園出品的數據報表,用公眾都能理解的樸素數據分析,細緻解讀國家和各地衛健委公佈的疫情數字,幫助大家提高對疫情的正確認知。它善於:

● 不靠肉眼看趨勢,用環比量化增長率

● 針對數據波動(如新增確診一日暴增一萬,病死率降低後又逐步走高),有理有據給予說明

● 對比SARS、MERS、H7N9等重大疫情的相關數據,認識本次疫情特徵

● 將關鍵指標按省份/城市拆分,結論更清晰明瞭

● 除了宏觀指標,就特殊群體感染情況(如老年人、醫務人員)做詳細分析

● 確保指標計算與分析解讀的專業性,及時指正市面上流傳的錯誤圖表

友盟+洞察:疫情期数据图表背后的七个方法、三驾马车与一个工具

不難發現,我們每天看到的優秀數據解讀背後蘊含著數據分析的七個方法:

1) 趨勢監測:指標定義正確,歷史口徑一致

2) 橫向對比:參照對象可比,廣泛收集數據

3) 維度拆解:維度拆分合理,結論指導行動

4) 過程拆解:業務邏輯清晰,指標表徵轉化

5) 因素拆解:鋪展相關因素,數據掌握全貌

6) 分群洞察:分群不重不漏,圈人深度描摹

7) 個案細查:採集最細顆粒,多源數據關聯

三駕馬車 產出高價值數據分析

現在已經是2月末,大部分人已陸續復工,那麼回到我們自己的業務上,如何更好的做好數據監測呢?

數據分析光有思路還遠遠不夠,對具體業務的理解、數據採集的質量、分析工具的靈活是讓數據分析高效率地產出價值的三駕馬車。有了業務理解,才能提出合適的問題、規劃數據需求,在採集上就儘量確保全面、口徑一致、顆粒度滿足拆分需求,到了分析環節的時候,有靈活的工具來實現各種折騰數據的想法,再有業務理解去加持數據的解讀,這樣才是真正能發揮價值的數據分析工作。

友盟+洞察:疫情期数据图表背后的七个方法、三驾马车与一个工具

首先,業務理解和數據採集是數據分析、數據化運營非常重要的前提條件,指標體系就相當於是二者之間的重要橋樑,也是很重要的一個落地產物和載體。如果是數據相關的崗位,強烈建議大家去牽頭瞭解各個業務方、甚至是管理層,他們的業務目標是什麼,他們想要看數據是要回答什麼樣的問題,從而避免成為一個被動的、沒有靈魂的SQL Boy。

如果是產品、運營等等業務崗,對這個問題的再度思考也不為過,雖然“核心指標 = 業務階段 * 行業特點 * 企業戰略”,但是前兩者屬於一般性的規律,同一個行業、同一個發展階段的企業,也會因為商業模式、優勢、發展側重的不同,量身定製核心指標,因此,“企業戰略”一定程度上凌駕於前兩個因素之上,不僅是一個監測作用,更是一個指引,代表了戰略決策、業務目標的方向。

友盟+洞察:疫情期数据图表背后的七个方法、三驾马车与一个工具

接下來,明確了核心指標之後,日常需要用到的指標應做好分級分類,不僅有利於數據的管理和使用,也能全面規範地對埋點工作提出需求,確保採集的準確和連貫。大體上遵從戰略管理層面的核心指標、業務線層面的子指標、業務執行層面的過程指標的原則,具體拆解沒有嚴格的一定之規,幾個常見的方法有:

● 類似杜邦分解的樹狀結構,指標之間儘量保持明確的公式關係

● 用戶生命週期*分析主體,藉助分析視角的不同,沉澱相應的維度搭配

● 再或者,直接依照業務線/團隊職責劃分,更加方便需求的收集

一個工具 助你數據分析降本提效

工欲善其事,必先利其器,為了幫助大家在數據分析這件事情上能夠降本提效,友盟+全新發布了U-DOP數據開放平臺。

友盟+洞察:疫情期数据图表背后的七个方法、三驾马车与一个工具

其一,把SDK為大家規範採集的多端數據,一鍵返還到客戶自有云空間,保障大家能夠在最細顆粒度、最自由地進行拆分和數據關聯。同時我們也根據多年服務開發者的經驗,預置了一些常用指標,提前計算好,不用事事都要從最底層開始處理和計算,避免一些麻煩和錯誤。

友盟+洞察:疫情期数据图表背后的七个方法、三驾马车与一个工具

(個體明細、預置指標數據,一鍵返還至客戶自有云空間)

其二,開發者可能習慣於U-App這樣的移動統計分析套件,突然間得到了最大的靈活性,可能反而不知道怎麼上手了,我們也希望儘量能幫大家扶上馬 送一程,在DOP中不斷上新主題分析模板,把我們在各個場景各個行業的分析思路固化下來。一方面輔助大家理解我們返還的數據是什麼,可以怎麼使用,另一方面給到大家示意,可以照貓畫虎,熟悉上手我們的分析平臺如何使用。

友盟+洞察:疫情期数据图表背后的七个方法、三驾马车与一个工具

(預置模板,及其背後的儀表板“托拉拽”編輯界面)

友盟+洞察:疫情期数据图表背后的七个方法、三驾马车与一个工具

(數據集可編輯界面,調整數據格式、新增計算字段、關聯其他數據表等等)

其三,大家各自的業務一定是有自身的特點的,不可能靠模板走天下,大家的數據也遠遠不僅是App的行為數據,一定也是多個數據源。在這樣的背景下, DOP深度整合了阿里雲的相關產品,在數據存儲、計算、BI工具方面無縫銜接,給到大家數據融合、自助分析的能力,更加順暢一體化的完成數據靈活分析。

作為DOP的重要組成部分,QuickBI承載著自助分析場景下的數據加工、分析與可視化等工作。到底怎樣完成一次數據分析呢?簡單歸結起來就是“四步走”,如圖所示:

友盟+洞察:疫情期数据图表背后的七个方法、三驾马车与一个工具

首先,數據獲取。除了友盟+將採集的行為數據自動投遞至雲數據庫,Quick BI作為阿里雲上的官方BI產品,能夠無縫集成雲上數據:支持雲數據庫、關係型數據庫、Hadoop、本地文件等,和阿里雲數據庫無縫對接。如前面介紹過的,友盟+提供的數據原料可細至個體、會話顆粒度,因此滿足不同層面的數據拆分或關聯,例如通過用戶id,將行為數據和交易、CRM數據打通,或通過渠道名稱,將渠道拉新的留存率和該渠道用戶的ARPU數據拉通,得出LTV。

其次,通過創建數據集來數據處理。Quick BI即保留了傳統的SQL方式完成數據加工和處理,也支持通過創建數據集用交互式方式完成數據的加工,比如表關聯、重命名、新建字段、過濾等。

最重要的,有了數據,開始拖拽分析。Quick BI具備豐富的數據可視化能力:將數據字段拖拽至維度、度量中,可視化圖表組件瞬間生成,近40種可視化圖表任你挑選,滿足各種報表場景,同時支持製作在線電子表格和快速搭建數據門戶,輕鬆完成數據分析。

最後,分析報表發佈分享。一端配置,多端支持,數據需求方隨時隨地查看報表內容。報表製作者還可以配置閱覽者的數據查看或編輯權限,不必擔心看版被誤操作或數據權限無法管理的問題。

【擴展學習】阿里做數據分析的三大意義與四大痛點

數據分析的三大意義:

一,數據豐富知識體系。通過數據去發現數據背後的知識,提煉出推動業務發展的決策。

二,數據服務生產。我們有數據,其實是休眠的,需要利用它服務沉默的產品和客戶。

三,就是數據實現商業價值。通過數據分析和挖掘做到控制風險、提升效率,增加收入,發現新的商業模式。

在過去阿里數據驅動業務的過程中,遇到的四大痛點:

一,業務發展快。需求多但人少,而且經常碰到需求特別多的時候但是時間比較緊。

二,數據響應流程長且不統一。需求需要不同角色的多輪溝通、數據處理過程無法標準化且技術人員對數據沉澱過少。

三,數據本地化嚴重。常規的數據分析我們習慣用本地的Excel,但是這樣會帶來一個問題,數據都存在Excel如果人走了怎麼辦,會導致數據業務從零開始;而且本地化查詢,數據安全不可控。

四,專業人才的緊缺。很多的企業可能幾百個人,但是分析師只有少數幾個,基本上都是用來服務CEO或者是CTO的數據分析需求。 很多數據同學根本無法深扎到數據分析更深的領域。


分享到:


相關文章: