提到“大數據”,有人會想到海量數據或者知道“4V”甚至是Hadoop,但細細的想想,又好像怎麼也說不清楚。
其實“大數據”並沒有那麼遙遠,也不必有“恐懼”,它並不神秘莫測。
你在意,或者不在意,它就這樣悄悄的到來。互聯網快速發展到今天,最明顯也最基本的特徵和表象,就是“大數據”。
數據被稱為“新商業時代的原油”,而與不可再生的物質又不同,數據在使用過程中會變得越來越有價值,會不斷的產生新的數據。
“不管你現在做什麼行業,你做的生意都是數據生意”
和“大數據”最密不可分的,就是雲計算,它們被稱為一枚硬幣的正反面。在以雲計算為典型技術下,各種各類海量的數據被挖掘利用,而且這種“利用”變得越來越容易,通過各行業的不斷創新,大數據開始為人類創造更多的價值。
數據被稱為繼農業經濟、工業經濟之後的,數字經濟。
我們來了解一下“大數據”的一些基本特徵。
“大數據”有多大?
各種設備以及各類互動產生的數據量正以年均大於50%的速度增長,預計2020年數據量會達到44ZB。
44ZB(1ZB=10億TB=1萬億GB),一首歌曲我們錄製為MP3大約100MB,那麼錄滿1ZB不停的播放,可以播放8億年。
什麼是“大數據”?
我們先看一下“權威”的解釋
所謂大數據,麥肯錫全球研究所給出的定義是:一種規模大到在獲取、存儲、管理、分析方面大大超出了傳統數據庫軟件工具能力範圍的數據集合,具有海量的數據規模、快速的數據流轉、多樣的數據類型和價值密度低四大特徵。
大數據需要特殊的技術,以有效地處理大量的容忍經過時間內的數據。適用於大數據的技術,包括大規模並行處理(MPP)數據庫、數據挖掘電網、分佈式文件系統、分佈式數據庫、雲計算平臺、互聯網和可擴展的存儲系統。
我們換一種說法
“大數據”的類型,傳統企業數據、機器和傳感器產生的數據、社交數據。
“大數據”的特點在於對海量數據的挖掘,所有的數據被分析,挖掘數據中蘊藏的價值。(是所有數據而不是隨機分析)當然必須依託雲計算的分佈方式(無法用單臺的計算機處理,需要超大規模、數百上千臺服務器),必須採用分佈式計算架構。分佈式計算Hadoop(讀作法丟普,分佈式計算)HDFS(分佈式文件系統)。4V特點:大量、高速、多樣、價值。
“大數據”的分析平臺:採集—傳輸—存儲—分析—挖掘—可視化—價值體現。
具有實時性的各類龐大的數據組被蒐集,研究海量數據的過程中尋找模式、相關性和其他有用的信息,更好地適應變化,也就是總結、提煉、發現對我們有用的或者是我們需要獲得的信息,並作出明確的決策。
“大數據”給我的啟發
隨著“大數據”在各個行業的廣泛應用和創新,勢必影響著我們的紀檢監察工作,加強和推廣大數據知識的普及,樹立大數據意識,已經迫在眉睫。不盡快的更新知識、培養人才,就不會跟上時代的步伐,甚至出現工作的滯後。
首先,海量的數據信息為我們提供完整的輿情情報。如果,我們還是在手工收集和查看,那麼必然導致信息的不全面還會浪費大量的人力以及時間。
其次,社交、地理位置、個人習慣、愛好、消費、人際關係等信息,勢必產生新的執紀監督執紀審查技術和手段。傳統的人力分析以及收集資料已經遠遠落後於來自雲計算技術下的海量數據的歸納整理。
最後,來自各種數據挖掘的風險點、漏洞、盲區會為我們的預防措施提供更加科學有效的信息,預防措施會更加趨於由事後向事前。
“大數據”背景下的不斷加大的數字化、數據化建設速度以及儘可能擴寬的信息來源渠道,這就要求我們必須加大數據的應用能力,培養一批數據分析、監測、數據平臺搭建使用的人才。提高對大數據的應用能力,讓執紀監督執紀審查插上科技的翅膀,是對新時代紀檢監察干部提出的新的要求,我們不僅不讓我們的利劍蒙塵,還要為我們的利劍淬入科技的精鋼。
(赤峰市紀委監委 馬二利)
閱讀更多 松山紀委 的文章