NoSQL是什麼?

NoSQL(not only sql,不僅僅是SQL),是一項全新的數據庫革命性運動,泛指非關係型數據庫,對於NoSQL這個新興的名詞,每個人的理解都不同。其實NoSQL一詞最早出現於1998年,是Carlo Strozzi開發的一個輕量、開源、不提供SQL功能的關係數據庫。但是直到2009年,Johan Oskarsson發起了一次關於分佈式開源數據庫的討論,來自Rackspace的Eric Evans再次提出了NoSQL的概念,這時的NoSQL主要指非關係型、分佈式、不提供ACID的數據庫設計模式。

2009年在亞特蘭大舉行的”no:sql(east)”討論會是一個里程碑,其口號是”select fun, profit from real_world where relational=false;”。因此,對NoSQL最普遍的解釋是”非關聯型的”,強調Key-Value存儲和文檔數據庫的優點,而不是單純的反對RDBMS。

NoSQL的迅速發展以及由於NoSQL中沒有像傳統數據庫那樣定義數據的組織方式為關係型的,所以只要內部的數據組織採用了非關係型的方式,就可以稱之為NoSQL數據庫。所以隨之帶來了開源社區上百種所謂的NoSQL數據庫,讓人眼花繚亂。對於NoSQL並沒有一個明確的範圍和定義,但是他們都普遍存在下面一些共同特徵:

不需要預定義模式:不需要事先定義數據模式,預定義表結構。數據中的每條記錄都可能有不同的屬性和格式。當插入數據時,並不需要預先定義它們的模式。

彈性可擴展:可以在系統運行的時候,動態增加或者刪除結點。不需要停機維護,數據可以自動遷移。

分佈式:相對於將數據存放於同一個節點,NoSQL數據庫需要將數據進行分區,將記錄分散在多個節點上面。並且通常分區的同時還要做複製。這樣既提高了並行性能,又能保證沒有單點失效的問題。

BASE:相對於事務嚴格的ACID特性,NoSQL數據庫保證的是BASE特性。BASE是最終一致性和軟事務。

NoSQL優勢:避免不必要的複雜性、高吞吐量、高水平擴展能力;比如隨著互聯網web2.0網站的興起,傳統的關係數據庫在應付web2.0網站,特別是超大規模和高併發的SNS類型的web2.0純動態網站已經顯得力不從心,暴露了很多難以克服的問題,而非關係型的數據庫則由於其本身的特點得到了非常迅速的發展。NoSQL數據庫的產生就是為了解決大規模數據集合多重數據種類帶來的挑戰,尤其是大數據應用難題。

NoSQL劣勢:數據模型和查詢語言沒有經過數據驗證,沒有堅實的理論基礎;不支持ACID特性,當然使用SQL數據庫可以解決這個問題;有些NoSQL數據庫過於簡單,比如Memcache只是一個內存數據庫,適用於某些特性場景;最大的劣勢就是沒有統一的數據查詢模型,每種NoSQL產品都有自己的語言使用方式。

由於NoSQL數據庫並沒有一個統一的架構,兩種NoSQL數據庫之間的不同,甚至遠遠超過兩種關係型數據庫的不同。可以說,NoSQL各有所長,成功的NoSQL必然特別適用於某些場合或者某些應用,在這些場合中會遠遠勝過關係型數據庫和其他的NoSQL。

什麼是NewSQL?

通過比較可以發現NoSQL跟SQL之間的對立性太強了,基於NoSQL跟SQL之間的某種差異,比如NoSQL有的功能SQL沒有,如分佈式、簡單數據模型;而SQL有的特性NoSQL又沒有,如ACID功能;當然不管哪種數據庫,不管其劣勢還是優勢都有其適用的場景。而SQL很難實現分佈式的原因在於,SQL自身的日誌機制、鎖機制以及緩衝區管理機制。於是就出來了NewSQL數據庫的概念,所謂的NewSQL是什麼呢?就是想柔和SQL與NoSQL獨有的特性。

目前NewSQL大概有兩類,第一類是擁有關係型數據庫產品和服務,並將關係型數據庫的好處與優勢帶入到分佈式架構上,簡單來說就是把ACID引入到分佈式中;第二類是提供關係型數據庫的性能,達到不用考慮水平擴展的方式,簡單來說就是改變SQL架構使得它不用水平擴展,不用運行在分佈式環境中就能夠帶來性能上的提升。對於第一類把ACID引入到分佈式中去的產品有Clustrix、GenieDB、ScaleArc、ScaleBase、NimbusDB以及MySQL Cluster等。

NoSQL的分類?

總的來說,如今的數據庫市場真是百花齊放,大概分類為SQL、NoSQL、NewSQL以及緩存數據庫系統。而SQL和NewSQL不是本章討論的主題,所以下面來說一說NoSQL數據庫。

首先需要明確的一點,NoSQL數據庫並不是要取代現在廣泛應用的傳統數據庫,而是採用一種非關係型的方式解決數據的存儲和計算的問題。目前,可以將眾多的NoSQL數據庫按照內部的數據組織形式進行如下分類:

鍵值(Key-Value)存儲數據庫

這一類數據庫主要會使用到一個哈希表,這個表中有一個特定的鍵和一個指針指向特定的數據。Key-value模型對於IT系統來說的優勢在於簡單、易部署。但是如果DBA只對部分值進行查詢或更新的時候,Key-value就顯得效率低下了。

數據模型:key-value

優點:查找速度快

缺點:數據無結構,通常只被當做字符串或二進制數據

應用場景:內容緩存

典型產品:Tokyo,Redis(一鍵多值),Dynamo ,Oracle BDB以及Memcache(一鍵一值),但Memcache雖然是Key-avlue存儲但是它是緩存數據庫。

列存儲數據庫

顧名思義,是按列存儲數據的。最大的特點是方便存儲結構化和半結構化數據,方便做數據壓縮,對針對某一列或者某幾列的查詢有非常大的IO優勢。

數據模型:數據按列存儲、將同一列數據存在一起

優點:查找迅速、可擴展性強、易於實現分佈式

缺點:功能相對SQL很有限

應用場景:分佈式文件系統或分佈式存儲

典型產品:Cassandra, HBase, Bigtable

文檔型數據庫

文檔型數據庫的靈感是來自於Lotus Notes辦公軟件的,而且它同第一種鍵值存儲相類似。該類型的數據模型是版本化的文檔,半結構化的文檔以特定的格式存儲,比如JSON。文檔型數據庫可 以看作是鍵值數據庫的升級版,允許之間嵌套鍵值。而且文檔型數據庫比鍵值數據庫的查詢效率更高。

數據模型:與鍵值模型類似,但value指向類似一個容器(文檔),容器內有一組信息

優點:數據格式要求不嚴格,無須提前定義結構,每個文檔字段隨意

缺點:查詢性能不高(比SQL可能稍微好點),缺乏統一查詢語法

應用場景:只要不需要ACID就可以使用

典型產品:CouchDB, MongoDB,國內也有文檔型數據庫SequoiaDB,已經開源

圖式數據庫

圖形結構的數據庫同其他行列以及剛性結構的SQL數據庫不同,它是使用靈活的圖形模型,並且能夠擴展到多個服務器上。NoSQL數據庫沒有標準的查詢語言(SQL),因此進行數據庫查詢需要制定數據模型。許多NoSQL數據庫都有REST式的數據接口或者查詢API。

數據模型:圖結構模型

優點:利用圖結構相關算法提高性能,並滿足特殊場景應用需求

缺點:功能有限,且難以實現分佈式

應用場景:社交網絡推薦系統,比如好友推薦功能,關係圖譜

典型產品:Neo4J, InfoGrid, Infinite Graph

因此,我們總結NoSQL數據庫在以下的這幾種情況下比較適用:

  1. 數據模型比較簡單;
  2. 需要靈活性更強的IT系統;
  3. 對數據庫性能要求較高;
  4. 不需要高度的數據一致性;
  5. 對於給定key比較容易映射覆雜值的環境。


分享到:


相關文章: