亞馬遜的 Snowflake 數據倉庫,比阿里OceanBase強悍嗎?


亞馬遜的 Snowflake 數據倉庫,比阿里OceanBase強悍嗎?


《Snowflake Elastic Data Warehouse》被稱為近些年最重要的分佈式數據庫論文,我也是最近才拿到。過去很多年了,現在拿出來讀一讀,還是對我們理解未來的數據倉庫走向,有十分重要的意義。


下面是幾段摘錄:


For one thing, they have been designed for fixed resources and are thus unable to leverage the cloud's elasticity.


For another thing, their dependence on complex ETL pipelines and physical tuning is at odds with the ex-ibility and freshness requirements of the cloud's new types of semi-structured data and rapidly evolving workloads.


對於文中所說的第一點,數據量的增長有可能今天還是很正常的,第二天來個熱點事件,就把數據庫撐爆。是可以理解的。比如微博,每到有熱點,我們能很明顯的感覺得到。所以針對這種情況的數據爆量,如果沒有很好的分流方式來計算,一般系統是撐不住的。此時利用雲計算,隨時擴容擴帶寬,在一定程度上能解決。


第二點,其中的半結構化數據其實我覺得有些牽強。任何業務數據,必須有模型支撐。這樣在數據最終計算時,才能得到精確的算法處理。如果投餵的是垃圾數據,那麼出來的也是垃圾結果。即使在ETL前道不處理,在執行統計計算這樣的後道加工程序中,還要重新來一遍數據清洗,免不掉的。


Snowflake提及的幾大特性,倒是可以留意下。這些特性其實就是各類傳統數據倉庫遇到的痛點問題。

1 SaaS 應用:


前幾天還寫過 SaaS 的應用工具(軟件),比如阿里的釘釘,騰訊的企業微信。


原本的企業開發自己的ERP,HR,CRM系統都需要從硬件到軟件全鏈搭建。一旦自建的服務器壞了,就需要更換;一旦自建的軟件出了問題,就需要打補丁,或者重新安裝。而這一切都需要企業養一個IT團隊來實施。


SaaS出來之後,很多自建的軟件都可以由供應商提供了。中小企業自建軟硬件的需求就降低了。大部分這些不重要的業務,都可以丟給SaaS供應商去做。比如HR,CRM.


設想下,原本的數據倉庫要自建數據庫和數據中心,還要有軟件開發團隊。現在服務器和數據庫軟件都由供應商提供了,客戶軟件開發只需獲取一個數據庫連接即可,重點放在業務邏輯實現上。


如果通用軟件供應商可以把業務邏輯也抽象出來,那麼原本需要數倉的客戶,其實只要購買SaaS授權就可以用了。所以這會是數據庫的一大發展方向


2 結構化與半結構化


數據在這個時代確實多樣化了起來,不僅僅是形式變多了,最重要的是數據量超大。組織好的文本數據,比如關係型數據庫的二維表不再是唯一要處理的對象,Json,Xml等這些半結構化的數據開始要進入應用。小數據量的時候,SQL能搞定,大數據量的時候,SQL接口依然要發揮勢能優勢。


底層要能容納這些格式多樣的數據,對每個數據庫供應商都是個挑戰。


3 存儲的擴容


處理熱點問題時,數據量的爆發不能用傳統數據庫組數據倉庫的方式,搭建ETL來處理。我們一般給傳統數據庫搭上10T標配,有可能在互聯網應用中,1天就能幹翻。所以傳統的 E-L-T可能 要改成 L-E-L-T. 也就是在數據獲取的前道,就直接入了數據倉庫,而不再經過OLTP.之後再在Snowflake本地做ETL微調。


LELT為什麼能解決這樣的洪流問題?這就是雲端的好處。


一切都是自動配額的。後端有數千臺計算機等著分配任務,只要系統發出明確的需求口令。這對應用編程也提出更高要求,必須要發出請求資源再分配的命令。


以下就是雲計算的一個動態擴容案例:


在6月29日的雲棲大會·成都峰會上,新浪微博首席技術官劉子正分享道:“今年春節,微博使用了阿里雲的計算服務,至少減少了對1400臺服務器的購買,支撐了用戶182億次閱讀量和8億次紅包領取。”


猴年除夕,微博通過阿里雲的VPC服務,搭建起了一個社交媒體雲混合架構。運用到這一歷經雙11全球規模考驗的混合雲,微博可以結合實時數據對預估峰值進行動態調整。除夕當晚,微博利用雲服務器ECS和CDN,實現了從提前擴容到實時擴容的服務器升級,大幅度提升圖片和視頻的打開速度。此外,在除夕流量高峰過去後,又將計算資源快速釋放掉,避免了高峰期後的閒置浪費。


4 安全


端到端加密。這就不用說了,安全無小事。Snowflake現在是依託 Amazon 的AWS發揮作用,承諾不會將數據暴露給雲平臺。雖說如此,但我很難相信,國內的企業會有多少有膽量,將自己的數據全盤交給SaaS供應商?


以上是個開頭,更多詳細的解讀,我們以後再談


--完--


分享到:


相關文章: