大數據主要分析模式和分析技術

大數據時代所分析的數據的最主要特徵是“多源異構

”,其分析過程是逐層抽象、降維、概括和解讀的過程。從數據採集的源頭進行劃分,可將大數據時代分析處理的數據對象劃分為以下幾個類別:


大數據主要分析模式和分析技術


(1)各網頁中用戶的瀏覽次數、點擊率,各種社交網站、動態網站網頁內容信息的變化,搜索引擎中關鍵詞的搜索量、網絡實時監控數據等互聯網數據。

(2)可以用於分析用戶行為、對系統的操作、以及系統運行狀態的日誌數據。

(3)在通信領域中的各種信號、信令數據,用戶的個人信息以及通話位置、時長等數據。

(4)國民經濟中各領域、各行業的統計分析數據。

對於這些數量龐大的,來自不同源頭的非結構化數據。其分析模式的特點如下:對於互聯網產生的數據,其最主要的應用是建立搜索引擎,通過搜索引擎進行數據檢索、處理。

隨著技術的不斷髮展,個性化推薦引擎以及大數據分析引擎的問世能夠更加高效的在海量數據中分析得出更有價值的信息;對於日誌數據,可對用戶點擊瀏覽的行為日誌和系統運行行為日誌進行分析。使得系統能夠根據實際情況產生出更加智能的結果。日誌數據與網頁數據的分析處理模式較為類似,都是通過細緻分析從而探尋出數據中蘊藏的價值。

這種數據分析處理模式稱為“離線批處理模式”;對於通信領域的數據分析,分析決策人員會對經過細緻分析的數據進行統計歸納和查詢,並且在最短的時間內獲得最有價值的信息。

以此來確保系統的交互性並最大限度地提升用戶體驗。這種數據分析處理模式稱為“查詢式分析”模式;對於互聯網以及國民經濟中重要行業的數據進行實時監控,這種模式稱為“實時數據分析處理“模式。

以上為依據時間特徵劃分的數據分析模式。而實現這些分析模式的主要方法有:分類、迴歸分析、聚類、關聯規則、神經網絡、WEB數據挖掘等。


大數據主要分析模式和分析技術


要想從急劇增長的數據資源中挖掘分析出有價值的信息,需要先進的分析技術作支撐。從宏觀上看,大數據分析技術發展所面臨的問題均包含三個主要特徵:

(1)數據量龐大並以驚人的速度增長;

(2)數據種類與結構多樣化,並以半結構化和非結構化的數據為主;

(3)需要具備及時快速的分析速度,即實時分析。這些特徵使得傳統的數據分析技術無法滿足要求,更加先進的數據分析平臺才是大數據時代更好的選擇。

為了有效應對大數據時代數據分析問題的三個主要特徵以及滿足大數據分析的基本需求,當前以及未來一段時期內將主要通過分佈式數據庫或者分佈式計算集群來對存儲於其內的海量數據進行由淺入深的分析和分類彙總。

例如,為滿足實時分析的需求通常會採用Qracle的Exadata 和EMC的GreenPlum。而目前分析處理大數據的應用最廣泛的核心技術為Hadoop。

Hadoop是由Apache基金會所開發的一個基於Java的分佈式數據處理和分析的軟件基礎架構。

在這種架構下,用戶可以在不瞭解分佈式底層細節的情況下,開發分佈式程序。Hadoop能夠將數量龐大的數據分解成規模較小、易訪問的數據集併發送到多臺服務器上進行分析,以此獲得高效的分析速率。該架構主要由文件系統以及數據處理兩部分功能模塊組成。


分享到:


相關文章: