02.13 如何實現數據價值的最大化?實時、轉換、可視化

如何實現數據價值的最大化?實時、轉換、可視化

一萬年前,第一次農業革命讓人類從食物的採集和狩獵者,變為食物的生產和加工者。一萬年後,已經到來的數字革命,則讓企業從數據採集和獲取者,變為數據的利用和管理者。昨天,數據只是稻草一樣的堆疊:1+1+1…+1…而今天,數據正在以指數級的速度激增,並演變成一個不斷向外擴張的圈:1<2<4…<65536…根據IDC的相關預計,到2025年,中國的數據總量(圈)將增至48.6ZB,佔全球27.8%,成為最大數據圈。所有關於數據的採集、複製、提取、使用等都將被涵蓋在這個巨大的圈中。

在數據圈的漣漪不斷向外擴散時,也催生出一個異構數據庫之間數據複製遷移的剛性需求。根據DB-Engines 發佈的2018年9月份全球數據庫排名中可以看到, Oracle、MySQL、MicrosoftSQL Server前三甲的位置相對穩定,而第四名到第十名的排名PostgreSQL、MongoDB、DB2、Elasticsearch、Redis、Microsoft Access、Cassandra的競爭則相對激烈,且各數據庫之間的差距也在逐漸縮小。

如何實現數據價值的最大化?實時、轉換、可視化

如今,大數據已經進入2.0時代,投入了大量資源的企業已經有能力搭建符合自己的大數據平臺,並且通過大數據平臺的統計、分析、量化、轉換、建模等功能構建自己的數據倉庫、數據湖……不斷挖掘數據規律,提升業務價值。因此更好的解決數據在不同平臺之間的複製這一剛性需求也就成為企業數字化轉型的關鍵。

一、傳統數據複製的難點

第一:採集的時間點相對滯後,缺乏實時性。傳統的數據採集是按照固定時間點進行採集,通過源端平臺提供接入方式與權限發起數據收集動作。因此,獲取的數據狀態是一個結果為導向的狀態,即數據已經落地併成為一個固定的狀態。

第二:大數據採集的生產系統或者採集的備端系統,每一次採集都會對生產庫進行一次全面的補充操作,對原有系統會產生一定的壓力。比如說100G的數據量,讀一次數據的時間往往往需要1-2個小時。

第三:數據庫之間的不兼容對大數據採集也是一個極大的挑戰。大數據採集需要一些外圍組件的支配,且需要對不同數據庫進行整合。

第四:權限問題。在一個企業中,不同部門的數據場景不同,所以使用權限也就不同。比如投資部門需要分析數據,那麼就需要有專門的賬號去進行分析。

、解決思路

1)實時採集。首先,將原來的定時採集變成實時採集,即把數據從靜態變成流式動態。利用一套實時的數據採集系統,減輕對生產系統的壓力,並且讓整個數據生產過程可追蹤,並且過程足夠的透明。

以英方在某金融機構實時數據複製項目為例,英方數據流同步軟件將O32系統數據實時採集解析併發送至kafka集群,同時基於英方高性能、高可用架構,為後端大數據平臺提供實時數據源。

如何實現數據價值的最大化?實時、轉換、可視化

2、數據轉換。在這個採集的過程中,kafka等消息集群相當於數據的臨時存儲區或中轉站。消息集群的另一個重要的作用就是可以很好地將數據歸好類別(現在比較常用的“數倉”或者"數據湖"的作用是建立一個數據分析的語言和數據分析的功能,其核心價值就是為企業提供一種數據平臺化運營機制)。要把大數據的增量信息捕捉並進行分析,需要將相關動作在技術層面變成大數據平臺能夠讀懂的一種語言。在這個過程中,英方軟件的價值就是將數據庫語言轉變成大數據平臺所識別的消息語言,且這樣的消息語言可以變成能夠在消息集群上安裝的輕量級語言。通過這個流程,大數據平臺所扮演的角色實現了進一步的重塑和昇華。

3、讓數據有跡可循。傳統的大數據平臺使用的都是已經落地的數據,只能看到結果,但是對於數據產生的一些行為是無法進行推導的。而英方通過大數據平臺,可以把所有產生的數據針對不同大數據工具(如hbase、kafka、hive、kudo)實現準實時的入倉,且不僅只傳送數據庫數據的變化,還能夠動態更新數據表結構的變化,從而在時間維度上更及時的進行數據分析,在空間維度上更準確地進行數據推演。這在合規或者分析等場景中都有較大的作用。重要的不是獲取數據,而是關於對數據進行分類以獲得有價值的見解,大多數接受調查的企業管理人員都表示,通過正確的數據分析將能夠改善整個工作流程。

如果說傳統大數據採集是一個結果為導向的東西,那麼現在大數據採集獲取到的不僅僅是一個結果,而是數據落地產生的整個過程。比如,以往用戶購買一隻股票、一隻基金,整個過程只能看到結果,不知道挑選、對比、支付的整個過程。現在,通過英方軟件,不但可以知道數據庫數據產生的過程,還能將這個過程產生的數據分門別類進行管理。對於審核部門來說,這樣的可視化也可以清晰地判斷交易流程是否合規的。

在已經到來的今天和即將到來的明天,一切都將轉化為數據。這些無處不在的數據已經成為企業、組織生存和發展的源動力,如何保護這些數據,並且有效利用這些數據,將是每個處在數字化轉型浪潮前沿的管理者需要考慮的首要問題,沒有之一。


分享到:


相關文章: