好程式設計師:你知道嗎?生活中這些場景都用到了大數據

一、什麼是大數據

大數據(big data),指無法在一定時間範圍內用常規軟件工具進行捕捉、管理和處理的數據集合,需要新處理模式才能具有更強的決策力、洞察力和流程優化能力的海量、高增長率和多樣化的信息資產。

中國電子技術標準化研究院2015年12月在《 大數據標準化白皮書V2.0 》 中提及維基百科(Wikipedia)給出的定義是:大數據,或稱巨量數據、海量數據、大資料,指的是所涉及的數據量規模巨大到無法通過人工在合理時間內達到截取、管理、處理、並整理成為人類所能解讀的信息。

二、大數據的應用

大數據技術在近年來一直在飛速地發展,目前大部分人對“大數據”的概念理解得不是很透徹。其實,在我們的日常生活中,很多人已經利用“大數據”做了很多事情,這些都是實實在在的“大數據”實例應用。

1. 大型網站Web服務器的日誌分析

一個大型網站的Web服務器集群,每5分鐘收錄的點擊日誌高達800GB左右,峰值點擊每秒達到900萬次。每隔5分鐘將數據裝載到內存中,高速計算網站的熱點URL,並將這些信息反饋給前端緩存服務器,以提高緩存命中率。

好程序員:你知道嗎?生活中這些場景都用到了大數據

2. 運營商流量經營分析

每天的流量數據在2TB~5TB左右,拷貝到HDFS上,通過交互式分析引擎框架,能運行幾百個複雜的數據清洗和報表業務,總時間比類似硬件配置的小型機集群和DB2快2~3倍。

好程序員:你知道嗎?生活中這些場景都用到了大數據

3. 城市交通卡口視頻監控信息的實時分析

採用基於流式 Stream進行全省範圍的交通卡口通過視頻監控收錄的信息進行實時分析、告警和統計(計算實時路況),對全省範圍內未年檢車輛或套牌車的分析延時在300毫秒左右,可以做出實時告警,所以開車的朋友最好要按時年檢。

4. 互聯網輿情監控系統

利用先進的雲計算搜索平臺和倒排索引,輿情監測系統支持對海量信息庫的高效搜索以及對於各種新聞博客等網站進行垂直抓取;採用自有算法的網頁結構分析,對抓取到的數據進行準確地分析和判斷,從而為政府和企業客戶提供精準有效的互聯網輿情數據服務。

大數據的應用還有很多,已經真正地應用到了生活的許多場景當中。大數據技術解決了龐大數據量的存儲與計算的問題,從數據到信息,從信息到認知,從認知到預測。

三、數據的來源

1. 計算機產生的數據

可能包含著關於因特網和其他使用者行動和行為的有趣信息,從而提供了對他們的願望和需求潛在的有用認識。

2.移動通信數據

能夠上網的智能手機等移動設備的使用越來越普遍。移動通信設備記錄的數據量和數據的立體完整度,常常優於各家互聯網公司掌握的數據。

3.機器和傳感器數據

來自感應器、量表和其他設施的數據、定位/GPS系統數據等。這包括功能設備會創建或生成的數據,例如智能溫度控制器、智能電錶、工廠機器和連接互聯網的家用電器的數據。幾年前,跟蹤遙測發動機運行僅限於價值數百萬美元的航天飛機。現在,汽車生產商在車輛中配置了監視器,連續提供車輛機械系統整體運行情況。一旦數據可得,公司將千方百計從中漁利。這些機器傳感數據屬於大數據的範圍。

4.人為數據

人為數據包括電子郵件、文檔、圖片、音頻、視頻,以及通過微信、博客、推特、維基、臉書、Linkedin等社交媒體產生的數據流。這些數據大多數為非結構性數據,需要用文本分析功能進行分析。至今最大的數據是音頻、視頻和符號數據。這些數據結構鬆散,數量巨大,很難從中挖掘有意義的結論和有用的信息。

5.互聯網上的“開放數據”來源

四、數據的處理流程

一般而言,大數據處理流程,可分為四個步驟:數據採集、數據導入和清洗處理、數據統計和分析、數據挖掘應用。這四個步驟看起來與現在數據處理分析沒有太大區別,但實際上大數據數據集更多更大,相互之間的關聯也就越多。

好程序員:你知道嗎?生活中這些場景都用到了大數據

1、收集

原始數據種類多樣,格式、位置、存儲、時效性等迥異。數據收集從異構數據源中收集數據並轉換成相應的格式方便處理。

2、數據導入和清洗處理

採集好數據,肯定有不少是重複或是無用的數據,此時需要通過對數據進行處理,將這些來自前端的數據導入到集中的大型分佈式數據庫,或者分佈式存儲集群,並進行簡單的清洗和預處理工作。而這個過程當中最大的挑戰就是導入的數據量大,經常會達到百兆,甚至千兆級別。

3、數據統計和分析

統計與分析很多需要用到工具來處理,比如可視化工具、spss工具、一些結構算法模型,分類彙總,滿足企業的數據分析需求。這個過程最大的特點就是目的清晰,按照一定規則去分類彙總,才能得到有效分析,這部分處理起來也很佔用系統資源。

4、數據挖掘應用

收集數據的最終目的就是透過數據挖掘背後的聯繫,分析原因找出規律然後應用到實際業務中,經過各種算法,預測結果,調整戰略方向。


分享到:


相關文章: