實時大數據分析計算問題

互聯網服務講究效率,實時性要求很高,但是目前傳統的數據庫技術管理數據的能力和吞吐效率均不高,無法滿足實時服務的需求。

“慢慢算”和“實時秒算”

前面提到了基於物聯網大數據平臺創建的實時歷史數據庫天生具有高效性,而NoSQLt又是其中的佼佼者,這個性能很重要。

在過去,大數據一般存在於傳統的科學研究中,迄今為止,科研院所、大學都還是科研大數據的主要使用者。

但是傳統的大數據使用方法是採集歸採集,計算歸計算,採集和計算不是同時發生的,大多數時候,數據是蒐集回來“慢慢算”。算上幾天、幾周甚至幾個月,出具一份報告,這也是大多數科學研究的常態。

但是大數據時代到來了,隨著3G、4G、5G的發展,智能性移動終端應用越來越廣泛,過去必須國家力量來建設的大規模廣域探測網絡,現在一個運營商通過發展自己的App用戶可以很輕易地做到。

過去大規模探測陣列建設成本太高昂,只能國家來建設,但現在隨著科技進步,中國的工業化建設成功,成為世界工廠的典範,工業品在中國的價格很低,特別是新興的通信電子、IT、智能終端、移動APP等技術,成本都不高,任何一個運營商只要願意,利用現有用戶資源即可迅速建立某個探測要素的大規模全國性採集陣列,迅速開始收集積累數據。可以說,目前任何一個運營商手裡的數據,甚至比以前的院士手中的數據還多。

但數據量大了,計算難度隨之就加大,需要用科學的計算處理方法,要解決數據的採集、傳輸、存儲、邊緣計算、大規模雲計算、計算中心運維、成本效益和商業模式等一系列問題,形成產業,為公眾服務。

其中,最核心的問題其實就是速度,速度快了,就可以用更少的設備完成更多的服務,可以節約採購成本;設備少了,電信機房託管少了,節約運營成本;速度快了,同一個計算可以引用參考更多的數據,給出的報告精度和準確度搞了,含金量增加了,用戶更願意買單了;速度快了,報告時效性就增強了,以前的“慢慢算”就可以變成“實時算”,以前每週一份報告,現在每5分鐘一份報告,用戶買單次數增加了,效益就好了,等等......

“科研”和“業務”

互聯網運營商作為IT信息系統服務商,其給社會用戶提供的主要產品就是各種分析報告,那麼,生產報告的質量效率可以說直接關係其營收,至關重要。

科學研究主要針對“正確性”,商業實戰業務除了“正確”,還需要“效率”,比如氣象預報如果動用超算,不計成本的計算,其實可以算得很精準,但是實際上大家都知道,報出來的預報總是有偏差,究其原因,每天下午必須報,不管算不算的完,按照已經算出的結果會商後就報,氣象預報必須保證時效性,超過時間,預報變晚報,就失去意義了。

我們實際互聯網運維中也是這樣,比如我們要播報新冠肺炎的態勢,每天一報,每天就必須統計完成,完不成,數據不全的,先按照現有數據報,都不能拖延,因為這是社會承諾;再如我們醫療應用,監測出病人身體病變,必須馬上報警,報晚了,病人已經走了,也沒有意義了;再如交通擁堵,預測、發現、報警、處置都必須快速完成,晚了,要麼擁堵自然解除,失去意義,要麼形成更嚴重的擁堵,需要更大的疏導成本。

但是長期以來我們發現,我們國家的科學研究的成果往往形不成生產力,無法快速應用到商業實戰中去,究其原因,一個很重要的原因就是

科研沒有考慮計算效率,在實驗室裡面,測試數據是人工仿真或小批量採樣,計算公式的研發很完美,但是一拿到現場去,現場數據量龐大,特別是還很髒亂,由於一線採樣條件惡劣,生產的數據大量重複、亂序、錯誤,公式計算的效率立即慢得無法接受,根本無法應對現場的時效性要求,最終不了了之。

西海數據的NoSQLt數據平臺就是解決大數據科研成果轉化為生產力效率的關鍵,西海創造性的提出“大數據技術無用,需要實時大數據技術”的口號,就是明確純粹為了堆疊數據量的大數據毫無意義,只有解決了訪問計算效率的“實時大數據”對各行業現場實戰才有現實意義,大數據才能真正轉化為生產力。

西海數據認為:

大數據 + 大數據應用科研成果公式 + 高速實時計算能力 = 運營效益”。

但遺憾的是,目前除了NoSQLt之外所有的大數據平臺,包括Hadoop,mongoDB,甚至包含實時歷史庫的鼻祖PI,對大數據訪問效率問題重視都不夠。這導致目前所有運營商平臺數據處理能力底低下,無法產生精準報告,運營成本居高不下,擴容不易,生產運營遇到困難。

如果能解決這個速度和效率問題,則我們可以想象,任何一個運營商,只要手裡有終端人群,不斷採集數據,形成大數據集,再到科研院所和院校中尋找合適的教授研究院,聯合研發出科研公式和成果,再加上NoSQLt的效率,可以立即開拓出新的增值業務,推向市場,獲取營收。

大數據有多個維度,從不同維度解釋會有不同的報告結果,一套大數據集只要搭配不同學科領域的公式,可以生產不同的報告產品供給市場,可以說,一套擁有用戶終端人群,不斷採集數據的運營商大數據集,就是一個源源不斷產生價值的“聚寶盆”,是一隻“會下金蛋的雞”。而這裡面的核心就是數據平臺的效率。

一個簡單的千萬級用戶移動計步的App,利用醫療公式就可以實時給每個用戶提供健康諮詢,給衛健委提供公眾樣本健康報告,利用地理位置公式,可以給附近商家提供訪問人群和潛在消費需求的建議,可以給交通部分提供道路擁堵的報告,甚至銀行、金融機構、保險公司都需要這些數據和公式產生的結果。一切的一切,都是速度,用戶實時產生數據,實時算,實時提供報告,立即更新這個人,這個街區,這個城市的畫像,指導相關行業的生產和生活。

一套大數據集只要建設起來,不斷“攢數”,具有生命力,它的應用前景可以說千變萬化,永無止境,新增一個公式,可能就新增一個產業,新增一家上市公司。但這一切要依賴NoSQLt的實時大數據處理能力,否則無意義。



分享到:


相關文章: