偶數科技打造新一代分析型資料庫,可以更好的支持AI應用場景

本文是拓撲社對微軟加速器·北京第11期入選項目的專題報道。

微軟加速器·北京第11期的入選企業的重點是人工智能與產業落地應用結合,以人工智能底層技術平臺作為創業方向。這些校友企業都是企業服務類創業公司,覆蓋大數據、人工智能、物聯網、區塊鏈等技術,並在醫療、政府、零售、建築等行業中獲得標杆客戶。這些領域也是拓撲社持續關注的方向。

偶數科技打造新一代分析型數據庫,可以更好的支持AI應用場景

偶數科技 創始人 常雷

拓撲社5 月16 日報道 文:竇悅怡


傳統的數據庫都是以Oracle、IBM、SAP為代表的交易型數據庫,這類型數據庫主要是針對基本的、日常的事務處理,例如,銀行傳統的手工記賬便是典型的應用場景。

而進入大數據和人工智能時代,企業每天產生的數據量正呈爆炸式增長,面臨海量的數據,傳統數據庫的IT架構和處理技術已經逐漸無法適應巨大的數據處理需求。

其次,企業對數據價值越來越重視,數據分析成為了十分重要的一環,但傳統的交易型數據庫難以實現大數據量、複雜性的數據分析需求,可擴展性也不足。這時候,企業亟待尋找新的解決方案,實現由數據驅動的精細化運營,其中分析型數據庫已經成為近年的熱點。

偶數科技打造新一代分析型數據庫,可以更好的支持AI應用場景

創始人CEO常雷,2008年畢業於北京大學計算機系,曾任EMC高級研究員及EMC/Pivotal研發部總監,同時也是Apache HAWQ 創始人,長期專注於大數據與雲計算領域,對企業級數據管理有很深的理解。

分析型數據庫,支持多種應用場景

拓撲社瞭解到,新一代的數據庫是一種分析型OLAP數據倉庫系統,側重企業決策支持,提供直觀易懂的查詢結果。

相對於傳統的交易型數據庫,分析型數據庫具有以下優勢:首先,分析型數據庫支持複雜的分析操作,存儲的數據時間跨度長,數量級的性能提升,解決了傳統數據庫不能交互式實時處理大數據的問題。

其次,分析數據庫可以對數據進行在線統計、數據在線分析、實時查詢等發掘信息數據價值的工作。第三,存儲與計算分離的鬆散耦合架構,可以原生支持容器雲平臺,傳統數據庫的緊耦合架構不適合新型容器雲平臺。此外,分析型數據庫能夠更好的支持AI應用場景。

偶數科技打造新一代分析型數據庫,可以更好的支持AI應用場景

簡單來說,分析型的數據庫中的數據主要供企業決策分析之用,所涉及的數據操作主要是數據查詢,一旦某個數據進入數據庫以後,一般情況下將被長期保留,也就是數據庫中一般有大量的查詢操作,但修改和刪除操作很少,通常只需要定期的加載、刷新。

同時,分析型數據庫中的數據通常包含歷史信息,系統記錄了企業從過去某一時點(如開始應用數據倉庫的時點)到當前的各個階段的信息,通過這些信息,可以對企業的發展歷程和未來趨勢做出定量分析和預測。

“新一代的分析型數據倉庫可擴展性的節點可以達到幾千個,同時支持的應用場景也非常廣泛,包括機器學習、傳感器等收集到的數據都可以支持,這些是在傳統數據庫架構下是實現不了的。”

常雷也補充到,人工智能與分析型數據庫是相輔相成的,人工智能離不開數據和算法,分析型數據倉庫的基礎架構,以及高可擴展性、實時性的優勢,使其最貼近數據,具備與人工智能相結合的優勢。

對於數據庫本身來說,傳統的數據庫都是非自動化的數據處理,通過人工智能對數據庫改造,會使數據庫更智能,進而可以拓展更多應用場景,指導企業進行更有效的數據分析。

拓撲社認為,傳統數據庫向新型數據庫轉型,無論是對企業還是服務商來說,都存在一定的挑戰,尤其是傳統的數據庫的架構是CPU模式,如果企業要想轉向新一代高性能分析型數據庫,需要把基礎架構調整為利用CPU新指令以及新的硬件模式(包括GPU和FPGA等),調整前需要企業花去大量的時間重新編寫代碼,設計架構、調整代碼。

新一代數據倉庫引擎,SIMD執行器性能可提升一個數量級

談到數據庫,肯定離不開Hadoop這種開源技術,同時Hadoop延伸出來很多數據倉庫技術,例如Hive、Impala、Spark SQL、HAWQ等。

常雷介紹道,伴隨著互聯網公司的崛起,新一代數據倉庫也隨之興起。總體來說,新一代的數據倉庫可以分為三大類。第一大類:SQL on Hadoop。如Spark SQL、Hive、HAWQ、Presto,因為它的存儲基本都在HDFS。第二類叫SQL on Object Store。如基於亞馬遜的S3搭建的SQL on Object Store。

第三大類是從前面兩類系統裡發現一些缺陷後又演化出來的系統,稱之為SQL on Hybrid Storage,有自己的原生存儲,同時也支持HDFS和S3等其他存儲,代表性系統包括HAWQ和Impala。

其中,HAWQ是Apache開源社區的孵化項目,包括彭博社、阿里等在內的大型企業都在使用並在開源社區為其貢獻代碼,而偶數科技正是依據這個系統進行產品佈局的

目前,偶數科技主要提供兩款產品,開源版的Apache HAWQ和企業版的Oushu Database。據悉,Oushu Database是基於HAWQ打造的新一代數據倉庫引擎其優勢在於採用了MPP和Hadoop結合的創新MPP++技術架構,高可擴展,遵循ANSI-SQL標準,具有極速執行器,提供PB級數據交互式查詢能力。

偶數科技打造新一代分析型數據庫,可以更好的支持AI應用場景

同時,Oushu Database提供對主要BI工具的描述性分析支持和高級機器學習功能。兼容Oracle,Greenplum Database和PostgreSQL,可以輕鬆取代傳統數據倉庫和其他SQL-on-Hadoop引擎。

此外,Oushu Database支持原生Kubernetes容器平臺,幫助企業無縫遷移到最新的雲計算平臺。

常雷解釋道,將簡單的無狀態應用(比如Web服務器)遷移到容器比較簡單,但將大數據平臺遷移到容器卻面臨很多技術挑戰。將Oushu Database和雲平臺結合帶來應用和服務一體化,很容易做彈性擴容,自恢復和滾動升級,同時,Oushu Database在資源管理和自動化運維也帶來很多便捷。

去年9月偶數科技發佈了Oushu Database 3.0版本產品 。據悉,3.0版本對執行器進行了完全重新設計,充分利用了最新CPU的每一個特性,如SIMD指令等,可以做到性能的極致。其次,支持ORC外部存儲格式,結合新的SIMD執行器,外部存儲的性能可以提升10-50倍

此外,傳統數據倉庫連接外部數據往往都是使用Connector形式,性能很慢,從而導致用戶需要使用先導入外部數據再查詢的方式,數據需要在多個系統存儲多份,浪費了多倍存儲空間。

結合新一代SIMD執行器,新版本可插拔存儲框架使得數據庫可以直接高性能訪問外部數據,查詢外部數據的性能和查詢內部數據類似。

目前,Oushu Database已經在政府、金融、電信、電力、軍工、製造業、物聯網、互聯網等行業廣泛應用,助力政府機構與大型企業構建了全新的大數據平臺。

比如,銀行內各業務的數據孤島效應嚴重、以及外部非結構化數據的整合不力等。金融行業需要高性能的數據倉庫支持,Oushu Database可支持結構化數據的處理和非結構化數據的整合能力,可有效滿足反欺詐等場景的數據處理。

在盈利模式上,偶數科技的產品是根據CPU/節點/容量收取賬號年費,客單價在數十萬到數百萬之間不等

而獲客方面比較靈活,有從開源社區對接過來的客戶,也有與微軟進行戰略合作,共同切入某垂直領域,還有直銷團隊。企業版客戶已經達到數十家,代表性用戶有國家電網、中興深圳市國稅等。

主編點評

加入微軟加速器後,微軟在技術和產品上給了偶數科技極大的支持。基於微軟Azure雲平臺,偶數科技成功開發了Oushu雲數據倉庫服務。其次,微軟針對校友企業的CEO和CTO提供了相應的技術、市場和財務等培訓課程,提升他們在管理等方面的能力。

第三,微軟加速器會把優質的客戶資源輸送給偶數科技,目前已經為偶數對接了霍尼韋爾、太平保險集團以及興業銀行等大型客戶。

另外,微軟加速器還會提供品牌宣傳、媒體採訪、市場活動、融資對接等資源,還會牽線搭橋,與眾多校友建立生態聯繫,互通有無。


分享到:


相關文章: