CIIS 2019 演講丨程良:開源分佈式數據庫技術支撐 AI 應用的探索

10月26日-27日,由陝西省委網信辦、陝西省工業和信息化廳、陝西省科學技術廳指導,中國人工智能學會主辦,西安市委網信辦、西安市科學技術局、西安國家民用航天產業基地管理委員會、京東雲共同承辦的2019第九屆中國智能產業高峰論壇在“硬科技之都”--西安舉辦。在27日舉辦的AI與5G開源生態和技術專題論壇上,Pivotal大中華區數據產品線總監程良為我們帶來了題為“開源分佈式數據庫技術支撐 AI 應用的探索”的精彩演講。

CIIS 2019 演講丨程良:開源分佈式數據庫技術支撐 AI 應用的探索

程良 Pivotal大中華區數據產品線總監

以下是程良的演講實錄:

今天與大家分享開源分佈式數據庫技術,支撐AI應用的探索。

Pivotal這個公司我相信很多人都沒有聽說過,這個公司是在硅谷的一個開源軟件公司,它的開源軟件代碼貢獻量在Github上全球排行第4,我們的產品和技術都是開源的,主要涵蓋雲計算、大數據、AI相關的一些前沿技術。Pivotal的產品非常廣泛的應用在我們的日常生活中,在中國,大家都知道的12306火車訂票系統,關鍵的餘票和訂單查詢都是Pivotal的數據產品去支撐高併發、低時延需求的,大家經常用到的APP,像大眾點評,航旅縱橫等都是Pivotal的技術在後面提供支撐的,所以說,在中國衣食住行很多方面都有Pivotal產品和技術的支撐。

我們看今天這個論壇的主題是AI和5G,AI和5G對於大數據這方面最大的影響,一方面AI對數據處理的智能化有很大的提升,AI在2016年AlphaGo戰勝人類九段棋手之後取得了突飛猛進的應用,對於自然語言分析、圖像、視頻、音頻這些數據的處理和分析都取得了很大的進步。另一方面5G開始在全球商用,開始構建萬物互聯的世界,它能夠處理更低的時延,更多的數據源,更大的數據量,對大數據實時分析帶來很大的推動作用。

我們結合國際分析研究所在前些年提出來的數據分析演進的三個階段,看到過去的描述型分析,面向未來的預測型分析,決定現在的運營性分析,要實現這些能力5G和AI是至關重要的基礎支撐。

數據處理和分析技術方向大概每十年會是一次大爭論,如圖所示,這個演進過程我就不一一贅述了,可以看到在這個過程中,數據庫的生命力始終非常旺盛,數據處理的核心到今天SQL能力依然很關鍵,隨著技術和數據量的增長不斷髮展,分佈式數據庫在現在AI和5G時代,在海量數據分析時代起到了非常重要的作用,可以說在目前大數據分析裡面,分佈式關係數據庫依然是主導地位。

下面我們可以看一下分佈式關係數據庫架構演進,傳統的單服務器數據庫在處理能力上只能垂直擴展,在數據量增長到一定階段時就無能為力了,這個時候第一步就是能夠讓數據庫和服務器進行橫向的水平擴展,在第一階段的分佈式數據庫產品中大家可以看到依然是在共享磁盤,這會帶來IO瓶頸,所以第二步是實現完全無共享的分佈式數據庫,這時的水平擴展能力非常強,能夠輕鬆地處理PB級別的數據量,隨著數據節點的擴展性能線性提升,這樣的一個分佈式集群的運行是由這個管理節點來調度和管理的。

Greenplum是世界上首個,也是目前唯一一個開源開放的分佈式數據庫,核心代碼是開源,架構是開放的,任何商用X86服務器都可以運行Greenplum。下面我給大家介紹一下,分佈式數據庫怎麼做到超強的分析和處理能力的。更強,首先它是可以運行在任意的基礎設施上,可以運行在公有云、私有云或物理機等任何地方;任意數據包括任何類型的結構化數據,半結構化數據,甚至包括圖像、解析後的音頻、視頻數據也能夠進行關聯分析;任意語言,很多開發語言,SQL,Python,R, C, Perl都可以在庫內運行。更快,是指它的實時處理能力很強,每秒有百萬條記錄加載和實時查詢分析的能力,這也是目前在市場上大家對下一代數據庫非常期望的交易和分析一體化,我們叫HTAP特性;更高,則體現在數據庫要能夠做到智能化分析,支持人工智能算法並同時能夠模型驅動。

在這我們看一下,Pivotal和一些全球知名大學(包括UC伯克利大學,UC聖地亞哥大學,斯坦福大學和弗羅裡達大學等)一起研發的MADlib,它也是Apache開源頂級項目。我們把常用的機器學習和深度學習的算法,能夠封裝在分佈式的數據庫中,直接通過SQL來調用,極大簡化機器學習入門的門檻。MADlib詳細資料大家會後可以去相應的網站(https://github.com/apache/madlib)瞭解,這是一個非常全面的人工智能算法庫,它目前包含近百種常用的、日用的精品算法,涵蓋了機器學習和深度學習的很多領域。同時Greenplum也支持其它的流行開源算法庫,Greenplum加MADlib這兩者結合可以說目前在5G和AI時代數據分析的利器。

舉兩個基於分佈式數據庫實現人工智能探索的案例,第一個案例是把城市裡的一些傳感器數據,包括像天氣的、社交網絡、地理位置、地圖信息,這些物聯網數據收集到分佈式數據庫中,比如像大的暴雨、局部地區暴雨影響路面交通,城市管理人員就需要提醒相應的市民,出行的時候儘量避開有積水的地方,提高城市安全,它也會結合一些空氣質量數據,包括天氣數據預測和分析在什麼地方會有危險出現,會有什麼流行病爆發,做提前的準備和預警。所有這些都是通過收集海量的物聯網數據,收集在Greenplum數據平臺裡面去分析。

它的能夠達到像氣象災害預報,但它並不是向數據庫收取傳統結構化的,包括天氣的數據、空氣質量的數據,以及道路、網絡、交通數據、紅綠燈信息,都是存儲在分佈式Greenplum平臺裡面,包括我們提到的社交網絡信息,這些信息通過Greenplum、MADlib這些開源技術,能夠做到像災害天氣和出行路徑提示,包括一些緊急情況的城市預警。

另外一個案例,也是一個城市管理實現車輛和人員的行為動態監測,這個也是採用Greenplum分佈式數據庫技術結合MADlib來去實現的,它要解決的問題是什麼呢?它包括人臉卡口,車輛卡口,交通路口等收集等信息,因為現在一些城市對於機動車和電動車都會有RFID標籤,這些信息通過不同的監測點都會收集下來相應的位置信息,這些信息公安機關要分析整個流量情況,包括有沒有潛在問題,比如說有些人員突然聚集在一起的異常情況,需要能夠預警。

通過Greenplum+MADlib+ARIMA結合在一起,實現時間時序模型,實現行為監測與預測,比如在一天24小時裡面特定的地域或者十字路口,相應的行人、車輛通過的信息,從機動車和電動車收集的數據一天都在幾億條以上。按照小時為間隔的話,如圖所示它的預測準確率還是非常高的,達到90+%。例如下一個小時經過這個地方的車輛數量,如果跟預測數據有比較大的偏差的話,通常會是車輛可能突然聚集在一起,也有可能是車輛在當前地點有交通事故造成的。

除了政府行業使用分佈式數據庫加上機器學習算法庫來實現智能分析,我們在金融行業也有非常經典的案例,比如某大型金融機構每秒鐘有上百萬條交易,通過Greenplum來實現對可能的欺詐等行為進行預警和分析。

由於時間關係,今天先跟大家分享這些內容,也歡迎各俠能夠參加我們的Greenplum開源社區交流,謝謝大家的時間!

(本報告根據速記整理)

轉發請註明轉自中國人工智能學會


分享到:


相關文章: