虎牙直播是怎樣建設數據中臺的?

最近幾年,“中臺”概念很火,尤其是數據中臺,它成為企業發揮數據價值的重要支柱。虎牙通過數據中臺的建設不僅解決了以前面臨的數據問題,而且構建了自己的數據中臺能力,帶來不錯的收益。數據中臺和技術中臺的區別是什麼?數據中臺的建設會面臨哪些挑戰?如何解決數據治理上遇到的難題?

數據中臺與技術中臺的區別

技術中臺

技術中臺,這是著重於各類技術服務的抽象、封裝、開放,其效應是達成新業務、新功能的靈活快速組建,相關服務有專門團隊運維以達成穩定性保障,最終形成網狀的、豐富的服務調用生態。它是各個技術團隊技術成果共享的有效方式。

數據中臺

數據中臺的核心不在於大數據平臺技術的運維和開放,而是著重於數據本身。其核心點在於,如何利用大數據技術實現數據內容與開放能力的建設,以滿足不同層次的中臺客戶對數據的需求。而這些中臺客戶,包括業務產品與運營、數據分析人員、數據挖掘人員以及技術線的研發人員。

從數據中臺面向受眾著力,需要解決的是讓這些人員,如何在合法合規的基礎上,方便、有效地去找到數據並理解數據,最後使用數據。

虎牙數據中臺建設的背景和訴求

虎牙公司旗下既有國內遊戲直播平臺虎牙直播,也有風靡東南亞和南美的 Nimo TV,“隨著業務線的拓展以及業務在全球的持續展開,對數據的需求日益旺盛”。

同一場景,不同角色人員對某一場景都有一定程度的數據需求,因工作方向的著力點不同,故對數據的信息量、聚合度有一定差異。虎牙公司是有專門的底層平臺支撐團隊,底層能力包括但不限於上報 SDK、接入通道、以及大數據計算平臺等。當不同人員各自規劃一些數據需求,通過底層平臺去實現數據採集、清洗、計算這樣的工作,這就會導致兩大問題:

  1. 同一個場景出現多源頭數據,產生源頭一致性問題以及資源浪費問題;
  2. 同一份源頭數據被不同邏輯處理解讀導致出現結果一致性問題,從而引起數據信任危機。

此外,在業務發展過程中,有些數據需求是現有數據無法滿足的,存在多個技術團隊有相同需求,而彼此之間因為所屬不同部門、工作職責不同,其信息分析、數據共享的機制欠缺,所以多個團隊去獲取同一份數據,導致工作重疊和成本浪費。

譚安林還提到,在新業務起步階段,“數據是欠缺的”。因此,如何在新業務起步階段,快速擁有兩個能力變得尤為重要:

  • 能力一,基礎數據決策能力,以數據驅動業務的發展,而不是完全靠運營同學憑藉人工經驗;
  • 能力二,基礎數據採集分析能力,即如何讓新業務採集數據更快、更準地達成,讓運營報表可儘早落地,經營分析可儘早切入。

“前者是一個數據跨域應用的問題,後者是一個數據體系快速搭建的問題”。

針對這樣的一些問題,數據中臺就是當前的解法。目標是囊括內部業務數據以及外部可用數據集、輸出具備一致性、有質量、易理解的數據內容體系,達成數據共享。降低工作重疊、規避成本浪費效應,進而助推數據決策在虎牙業務上更深度、更廣度的應用。

虎牙的業務場景特點

一直以來,虎牙深耕遊戲直播領域,同時也在發力秀場、戶外、體育等多個方向。簡言之,虎牙的業務場景涉及直播多個方面,存在業務多樣性、地域多樣性的特色。

針對不同業務場景,我們大致可以分為兩部分:結構化數據需求和非結構化數據需求。

特點 1:結構化數據需求

傳統來說,經營分析、內容推薦、廣告推薦等需求場景,它們被歸為結構化數據需求,其涉及多個產品、每個產品多個端,同時也涉及到客戶端、服務端、數據庫同步等多個縱深數據採集接入。

解決方案

怎樣解決對結構化數據的需求?譚安林表示,面對紛雜的數據接入點,以及多樣的數據需求,虎牙在底層接入通道、大數據計算平臺的基礎上,構建了中臺相關產品,包括面向採集的數據接入管理平臺,面向應用的數據地圖和 WebIDE 探索工具。

以產品化工具的形式,切入到數據從產生到應用鏈路,驅動業務產品、研發、測試參與數據接入環節,並以數據地圖的形式開放,讓數據技術人員能夠易檢索、易理解目標數據,在底層數據資源的基礎上通過 WebIDE 進行研究應用。

特點 2:非結構化數據需求

虎牙還在 AI 領域發力,不僅有 AI 美顏、AI 風控,而且也在數字人方向進行研究應用,比如晚玉等數字人形象。譚安林稱,在傳統直播模式的基礎上,大力探索 AI 方向的新玩法。

相比經營分析等場景,AI 場景的數據需求大為不同,“這也是結構化數據場景、非結構化數據場景本質的不同,一些傳統場景強依賴於結構化的行為數據等,但是數字人這類創新內容生產領域等強依賴於非結構化的圖片音頻等數據”。

譚安林指出,隨著業務和技術的深入,例如推薦等一些看似經典的場景,也越來越需要非結構化數據結構化後提供更豐富的信息以提升性能。因此,非結構化數據能力的補齊,也是數據中臺的一大特點。

解決方案

為此,在非結構化數據方面,他們不僅在數據採集方面覆蓋相關環節,而且著重針對非結構化數據進行結構化信息的融合,形成非結構化數據的業務融合層,並基於內外部的 AI 能力進行標註,實現 AI 元數據。

在產品化工具方面,則提供基於結構化標籤篩選非結構化數據的能力,這對 AI 方向的數據研發起到了顯著加速的作用。

虎牙數據中臺的架構

據悉,虎牙的數據中臺是在大數據計算存儲平臺 hadoop 以及雲上對象存儲的基礎上構建,劃分為 I、P、S 三層結構。

I 層側重於數據資源層建設,包括結構化和非結構化數據,由數據接入管理平臺、數據目錄管理系統、數據地圖產品、數據探索 WebIDE、網盤共享工具等部分組成,圍繞數據接入、非結構化與結構化融合、數據治理和底層數據開放等核心點。

P 層側重於數據資產層建設,包括主題式數據服務、跨域數據標籤,由數據交換消費系統、自助式 API 系統等組成,圍繞跨域能力、系統服務化等核心點。

S 層側重於具象數據產品應用,面向產品、運營或技術人員直接提供數據報表、分析結論,包括海思報表服務、自助提數服務、數據 CUBE 設計、自助分析系統等。

譚安林總結道,層次的劃分,是便於各層可以聚焦打磨能力,從而形成整體的數據中臺競爭力。每一層的建設,圍繞自身目標和核心點,形成閉環和開放的迭代機制。I 層厚在數據資源整合,P 層寬在開放能力多樣,S 層快在場景敏捷應用。

虎牙數據中臺建設面臨的挑戰

虎牙建設數據中臺主要面臨兩大挑戰:

  • 一是結構化方面紛雜的接入源以及多樣化的數據需求情況下如何形成通用化的中臺開放能力;
  • 二是非結構化情況下如何構建通用數據資源並便於使用。

而最大的難點在於,在數據中臺建設歷程中,團隊需要去思考數據中臺的工作邊界,中臺客戶能做什麼,不能做什麼,核心要去做哪些

他表示,有一個原則是“中臺客戶能做的,少去做,甚至不要去做”。

結構化數據倉庫方面,從埋點設計、研發測試、接入清洗、倉庫建模、數據應用鏈路 5 個環節來說,數據中臺團隊的核心工作是在接入清洗、倉庫建模兩個環節。這兩個環節是承接接入源,構建通用的數據倉庫層,並提供倉庫層數據的開放,屬於不得不去做的事情,也是持續投入的重要環節。

埋點設計和研發測試兩個環節的主要參與方不是數據中臺團隊,而是由產品 & 數據分析師根據產品功能規劃、數據分析需求等進行設計埋點明細,研發測試環節是業務研發在埋點設計基礎上進行代碼開發、業務測試進行驗收上線核准。在這兩個環節中,數據中臺的價值是輔助各角色更好的完成相應環節的工作,而不是替代他們完成相關工作。故而數據中臺團隊制定了公司級的上報協同管理規範,並在底層接入通道基礎上研發了數據接入管理平臺,用於規範化這兩個環節的過程與產出。

而在數據應用環節,因應用場景多樣性、差異性,存在較多獨立數據應用團隊,比如經營分析、商業分析、推薦算法團


分享到:


相關文章: