大數據在政務方面的應用越來越多,飛馬網於12月20日晚邀請到馬玉璽老師為大家分享該領域的內容。馬玉璽老師現任深圳華傲數據高級項目負責人,負責大數據項目管理及大數據業務架構,對Hadoop、spark等有很深的研究以及豐富的實戰經驗。
以下是本次分享的全部內容:
壹
政務數據背景
首先介紹一下政務大數據的背景情況。
現狀:目前我國80%以上的數據掌握在各級政府部門手裡,而且是極大地浪費。
因為政府每年會接受很多系統,但是雖然存在卻很少被利用。微軟的數據首席官也曾經說過99.5%的大數據資源被浪費。這說明數據雖然很多,但是並沒有被利用起來,導致了極大的浪費。
在十八大五中全會上面,中央人民政府指出數據是基礎性戰略資源,說明我們對數據越來越重視。到今天為止,各級政府比如合肥有數據資源局;杭州市有數據資源管理局;瀋陽市有大數據管理局;貴陽市大數據發展管理委員會;貴州市大數據發展管理局等等。
在我國,大部門數據在政府機關,還有一部分數據是在互聯網公司,還有一些在運營商裡面,它們的數據是各不一樣的。所以說國家的數據量是非常大,種類也是非常多的。
貳
政務數據與互聯網數據的共性和特性
互聯網數據的特點
對於個人和企業來說是很容易拿到的,但是怎麼用的就缺少一定的監督。
政務數據
政務數據包括公安局(戶籍信息、身份證信息等)、衛計局(掛號、診斷相關的醫療數據)、市場監管委(監管類的數據)、國稅局等部門的數據。
有了這麼多數據,該怎麼做呢?
首先要做的就是打通數據,原來我們在不停的產生數據,然後見了很多系統,但是系統之間有沒有交互和數據共性呢?其實是有的,我們做了接口,但是數據還是孤立的,並沒有匯聚到一起。
政務數據融合
結合政府數據這個行業的話,首先要做的就是數據匯聚。通過技術手段,建立大數據中心平臺,把各個業務系統的數據採集到一起。數據採集需要做一些其他的工作,比如要保證數據的安全性,做一些監管,做一個質量方面的把控,原來的數據是分散的且質量沒有標準化。
政務數據應用
採集的數據進行加工、處理、融合,形成一些高質量的數據。
最終的目的是使用這些數據,那麼政府數據的應用場景有那些呢?
1、數據共享交換
針對政務數據內部一些單位的使用。
2、數據開放
很多政務數據對於共享沒有明文規定,但是有一類國家已經逐步向社會開放,如上海已經建立了社會服務網,開放了政府的數據。
政務大數據的目的是為大眾共用,用數據去治理社會,為國家和人民帶來生活上的便利。政務數據可以有助於解決辦證難、上學難、填表難、審批難、福利難等問題,讓群眾少跑腿,讓數據多跑路。
叄
解決政務數據問題的技術架構
很多數據原來是分散在各個數據庫裡面,這裡的第一步是數據採集,主要是兩類方式,一類是JDBC,直接對接數據庫;另一類是通過FTP,吧文件存到大數據資源庫裡面。最下面是調度監控,日誌管理,這些工具是數據採集過程中使用的。
把這些數據匯聚到一起後,最終在政務內部會建立一個資源庫,這裡面就匯聚了 市裡面、區裡面各部門的數據,現在政務的數據大部分是我們系統的關係數據,存在Oracle裡面做一些數據的分析運用。
大數據技術可以處理大部分海量的大數據情況,在這個架構裡面,我們通過sqoop,把歷史數據和一些結構化數據,因為數據量比較大,把它存在HDFS裡面,還有一些照片、文件可以存在Hbase裡面。
最後吧所有的數據歸集到一起後,我們做數據的服務和接口。這個接口主要通過API的方式,把數據提供到各個單位去做數據應用,數據應用主要是通過webservice、SSL傳輸或FTP完成,或者直接通過共享交換平臺,最終達到數據應用的成效。
大部分政府數據是通過Oracle來做的,其他數據庫也在用,如hive等。
整個技術用到的框架
Hadoop框架
在政務數據治理過程中整個最核心需要掌握的就是SDFN,在一個就是map reduce和Hadoop。
整個Hadoop生態提供了比較方便的工具
Hadoop和spark生態
藍色是Hadoop,黃色的spark。
大數據計算spark
Spark主要分四個框架。
spark SQL:通過SQL處理spark的數據
Spark streaming:處理流式數據
Mlib:在機器學習環境中使用
Graphx:處理圖數據
最底下的是數據輸入端,上面是處理端。
Spark應用場景:
1、複雜的批量數據處理
2、基於技術實時數據流的數據處理
3、基於歷史數據的數據挖掘
4、圖結構數據的處理
今天的分享先到這兒,謝謝大家!
以上就是本次線上直播的主要內容,想了解更多更詳細內容的小夥伴們,可以關注服務號:FMI飛馬網,點擊菜單欄飛馬直播,即可進行學習。
閱讀更多 飛馬網FMI 的文章