政務大數據治理科技頭條網

政務大數據治理

2019-01-09 15:02:59 飛馬網FMI

大數據在政務方面的應用越來越多，飛馬網於12月20日晚邀請到馬玉璽老師為大家分享該領域的內容。馬玉璽老師現任深圳華傲數據高級項目負責人，負責大數據項目管理及大數據業務架構，對Hadoop、spark等有很深的研究以及豐富的實戰經驗。

以下是本次分享的全部內容：

壹

政務數據背景

首先介紹一下政務大數據的背景情況。

現狀：目前我國80%以上的數據掌握在各級政府部門手裡，而且是極大地浪費。

因為政府每年會接受很多系統，但是雖然存在卻很少被利用。微軟的數據首席官也曾經說過99.5%的大數據資源被浪費。這說明數據雖然很多，但是並沒有被利用起來，導致了極大的浪費。

在十八大五中全會上面，中央人民政府指出數據是基礎性戰略資源，說明我們對數據越來越重視。到今天為止，各級政府比如合肥有數據資源局；杭州市有數據資源管理局；瀋陽市有大數據管理局；貴陽市大數據發展管理委員會；貴州市大數據發展管理局等等。

在我國，大部門數據在政府機關，還有一部分數據是在互聯網公司，還有一些在運營商裡面，它們的數據是各不一樣的。所以說國家的數據量是非常大，種類也是非常多的。

貳

政務數據與互聯網數據的共性和特性
互聯網數據的特點

對於個人和企業來說是很容易拿到的，但是怎麼用的就缺少一定的監督。
政務數據

政務數據包括公安局（戶籍信息、身份證信息等）、衛計局（掛號、診斷相關的醫療數據）、市場監管委（監管類的數據）、國稅局等部門的數據。
有了這麼多數據，該怎麼做呢？
首先要做的就是打通數據，原來我們在不停的產生數據，然後見了很多系統，但是系統之間有沒有交互和數據共性呢？其實是有的，我們做了接口，但是數據還是孤立的，並沒有匯聚到一起。
政務數據融合

結合政府數據這個行業的話，首先要做的就是數據匯聚。通過技術手段，建立大數據中心平臺，把各個業務系統的數據採集到一起。數據採集需要做一些其他的工作，比如要保證數據的安全性，做一些監管，做一個質量方面的把控，原來的數據是分散的且質量沒有標準化。
政務數據應用
採集的數據進行加工、處理、融合，形成一些高質量的數據。
最終的目的是使用這些數據，那麼政府數據的應用場景有那些呢？

1、數據共享交換
針對政務數據內部一些單位的使用。
2、數據開放
很多政務數據對於共享沒有明文規定，但是有一類國家已經逐步向社會開放，如上海已經建立了社會服務網，開放了政府的數據。
政務大數據的目的是為大眾共用，用數據去治理社會，為國家和人民帶來生活上的便利。政務數據可以有助於解決辦證難、上學難、填表難、審批難、福利難等問題，讓群眾少跑腿，讓數據多跑路。
叄
解決政務數據問題的技術架構

很多數據原來是分散在各個數據庫裡面，這裡的第一步是數據採集，主要是兩類方式，一類是JDBC，直接對接數據庫；另一類是通過FTP，吧文件存到大數據資源庫裡面。最下面是調度監控，日誌管理，這些工具是數據採集過程中使用的。
把這些數據匯聚到一起後，最終在政務內部會建立一個資源庫，這裡面就匯聚了市裡面、區裡面各部門的數據，現在政務的數據大部分是我們系統的關係數據，存在Oracle裡面做一些數據的分析運用。
大數據技術可以處理大部分海量的大數據情況，在這個架構裡面，我們通過sqoop，把歷史數據和一些結構化數據，因為數據量比較大，把它存在HDFS裡面，還有一些照片、文件可以存在Hbase裡面。
最後吧所有的數據歸集到一起後，我們做數據的服務和接口。這個接口主要通過API的方式，把數據提供到各個單位去做數據應用，數據應用主要是通過webservice、SSL傳輸或FTP完成，或者直接通過共享交換平臺，最終達到數據應用的成效。

大部分政府數據是通過Oracle來做的，其他數據庫也在用，如hive等。
整個技術用到的框架
Hadoop框架

在政務數據治理過程中整個最核心需要掌握的就是SDFN，在一個就是map reduce和Hadoop。
整個Hadoop生態提供了比較方便的工具
Hadoop和spark生態

藍色是Hadoop，黃色的spark。
大數據計算spark

Spark主要分四個框架。
spark SQL：通過SQL處理spark的數據
Spark streaming：處理流式數據

Mlib：在機器學習環境中使用
Graphx：處理圖數據
最底下的是數據輸入端，上面是處理端。
Spark應用場景：
1、複雜的批量數據處理
2、基於技術實時數據流的數據處理
3、基於歷史數據的數據挖掘
4、圖結構數據的處理
今天的分享先到這兒，謝謝大家！
以上就是本次線上直播的主要內容，想了解更多更詳細內容的小夥伴們，可以關注服務號：FMI飛馬網，點擊菜單欄飛馬直播，即可進行學習。

分享到:

閱讀更多 飛馬網FMI 的文章

關鍵字: SQL 數據挖掘數據