大數據的關鍵問題和關鍵技術

1.大數據的關鍵問題

大數據來源非常豐富且數據類型多樣,存儲和分析挖掘的數據量龐大,對數據展現的要求較高,並且重視處理大素聚的高效性和可用性。

(1)非結構化和半結構化數據處理

如何處理非結構化和半結構化數據是一項重要的研究課題。如果把通過數據挖掘提取粗糙知識的過程稱為一次挖掘過程,那麼將粗糙知識與被量化後的主觀知識,包括具體的經驗、常識、本能、情境知識和用戶偏好相結合而產生智能知識的過程就叫做二次挖掘。從一次挖掘到二次挖掘是由量到質的飛躍。

由於大數據所具有的半結構化和非結構化特點,基於大數據的數據挖掘所產生的結構化的粗糙知識(潛在模式)也伴有一些新的特徵。這些結構化的粗糙知識可以被主觀知識加工處理並轉化,生成半結構化和非結構化的智能知識。尋求智能知識反映了大數據研究的核心價值。

(2)大數據複雜性與系統建模

大數據複雜性、不確定性特徵描述的方法及大數據的系統建模這一問題的突破是實現大數據知識發現的前提和關鍵。從長遠角度來看,大數據的個體複雜性和隨機性所帶來的挑戰將促使大數據數學結構的形成,從而導致大數據統一理論的完備。從近期來看,應該建立一種一般性的結構化數據和半結構化、非結構化數據之間的轉化原則,以支持大數據的交叉工業應用。管理科學,尤其是基於最優化的理論將在大數據知識的一般性方法和規律性中發揮重要的作用。

現實世界中的大數據春雨裡問題複雜多樣,難以有一種單一的計算模式能涵蓋所有不同的大數據計算需求。研究和實際應用中發現,MapReduce主要適合於進行大數據離線批處理方式,不適應面向低延遲、具有複雜數據關係和複雜計算的大數據處理,Storm平臺適合於在線流式大數據處理。

大數據的複雜形勢導致許多與粗糙知識的度量和評估相關的研究問題。已知的最優化、數據包絡分析、期望理論、管理科學中的效用理論可以被應用到研究如何將主觀知識融合到數據挖掘產生的粗糙知識的二次挖掘過程中,人機交互將起到至關重要的作用。

(3)大數據異構性與決策異構性影響知識發現

由於大數據本身的複雜性,致使傳統的數據挖掘理論和技術已不大適應大數據知識發現。在大數據環境下,管理決策面臨著兩個異構性問題,即數據易構性和決策異構性問題。決策結構的變化要求人們去探討如何為支持更高層次的決策而去做二次挖掘。無論大數據帶來了何種數據異構性,大數據中的粗糙知識仍可被看做一次挖掘的範疇。通過尋找二次挖掘而產生的智能知識來作為數據異構性和決策異構性之間的連接橋樑。

尋找大數據的科學模式將帶來對大數據研究的一般性方法的探究,如果能夠找到將非結構化、半結構化數據轉化成結構化數據的方法,已知的數據挖掘方法將成為大數據挖掘的工具。

2.大數據的關鍵技術

針對上述的大數據關鍵問題,大數據的關鍵技術主要包括流處理、並行化、摘要索引和可視化。

(1)流處理

隨著業務流程的複雜化,大數據趨勢日益明顯,流式數據處理技術已成為重要的處理技術。應用六十數據處理技術可以完成實時處理,能夠處理隨時發生的數據流的架構。

例如,計算一組數據的平均值,可以使用傳統的方法實現。對於移動數據平均值的計算,不論是到達、增長還是一個又一個的單元,需要更高效的算法。但是想創建的是一個數據流統計集,那需要對此逐步添加或移除數據塊,進行移動平均計算。

(2)並行化

小數據的情形類似於桌面環境,磁盤存儲能力在1GB~10GB之間,中數據的數據量在10GB~1TB之間,大數據分佈式地存儲在多臺機器上,包含1TB到多個PB的數據。如果在分佈式數據環境中工作,並且需要在很短的時間內處理數據,這就需要分佈式處理。

(3)摘要索引

摘要索引是一個對數據創建預計算摘要,以加速查詢運行的過程。摘要索引的問題是,必須為要執行的查詢做好計劃。數據增長飛速,對摘要索引的要求永遠不會停止,不論是基於長期還是短期考慮,必須對摘要索引的制定有一個確定的策略。

(4)可視化

數據可視化包括科學可視化和信息可視化。可視化工具是實現可視化的重要基礎,可視化工具包括兩大類。

  1. 探索性可視化描述工具可以幫助決策者和分析師挖掘不同數據之間的關係,這是一種可視化的洞察力。類似的工具有Tableau、TIBCO和QlikView等。
  2. 敘事可視化工具可以獨特的方式探索數據。例如,如果需要以可視化的方式在一個時間序列中按照地域查看一個企業的銷售業績,可視化格式將被預先創建。數據將按照地域逐月展示,並根據預定義的公式排序。

想學習大數據的同學,私信回覆 “領取”既可獲取大數據學習資料下載鏈接~ 祝大家學習愉快!


分享到:


相關文章: