五分鐘學後端技術:如何學習分佈式系統和相關技術

轉載自https://www.cnblogs.com/wetest/p/6806506.html 和https://www.cnblogs.com/dudu0614/p/8821811.html

什麼是分佈式系統

分佈式這一概念,一直都是後端工程師繞不過去的一個坎,今天,我們就一起來看看到底什麼是分佈式系統,又有哪些分佈式技術世我們需要學習的。

根據百度百科的介紹,分佈式系統(distributed system)是建立在網絡之上的軟件系統。正是因為軟件的特性,所以分佈式系統具有高度的內聚性和透明性。因此,網絡和分佈式系統之間的區別更多的在於高層軟件(特別是操作系統),而不是硬件。

從分佈式系統的誕生說起

我們常常會聽說,某個互聯網應用的服務器端系統多麼牛逼,比如QQ、微信、淘寶。那麼,一個互聯網應用的服務器端系統,到底牛逼在什麼地方?為什麼海量的用戶訪問,會讓一個服務器端系統變得更復雜?本文就是想從最基本的地方開始,探尋服務器端系統技術的基礎概念。

承載量是分佈式系統存在的原因

當一個互聯網業務獲得大眾歡迎的時候,最顯著碰到的技術問題,就是服務器非常繁忙。當每天有1000萬個用戶訪問你的網站時,無論你使用什麼樣的服務器硬件,都不可能只用一臺機器就承載的了。因此,在互聯網程序員解決服務器端問題的時候,必須要考慮如何使用多臺服務器,為同一種互聯網應用提供服務,這就是所謂“分佈式系統”的來源。

然而,大量用戶訪問同一個互聯網業務,所造成的問題並不簡單。從表面上看,要能滿足很多用戶來自互聯網的請求,最基本的需求就是所謂性能需求:用戶反應網頁打開很慢,或者網遊中的動作很卡等等。而這些對於“服務速度”的要求,實際上包含的部分卻是以下幾個:高吞吐、高併發、低延遲和負載均衡。

高吞吐,意味著你的系統,可以同時承載大量的用戶使用。這裡關注的整個系統能同時服務的用戶數。這個吞吐量肯定是不可能用單臺服務器解決的,因此需要多臺服務器協作,才能達到所需要的吞吐量。而在多臺服務器的協作中,如何才能有效的利用這些服務器,不致於其中某一部分服務器成為瓶頸,從而影響整個系統的處理能力,這就是一個分佈式系統,在架構上需要仔細權衡的問題。

高併發是高吞吐的一個延伸需求。當我們在承載海量用戶的時候,我們當然希望每個服務器都能盡其所能的工作,而不要出現無謂的消耗和等待的情況。然而,軟件系統並不是簡單的設計,就能對同時處理多個任務,做到“儘量多”的處理。很多時候,我們的程序會因為要選擇處理哪個任務,而導致額外的消耗。這也是分佈式系統解決的問題。

低延遲對於人數稀少的服務來說不算什麼問題。然而,如果我們需要在大量用戶訪問的時候,也能很快的返回計算結果,這就要困難的多。因為除了大量用戶訪問可能造成請求在排隊外,還有可能因為排隊的長度太長,導致內存耗盡、帶寬佔滿等空間性的問題。如果因為排隊失敗而採取重試的策略,則整個延遲會變的更高。所以分佈式系統會採用很多請求分揀和分發的做法,儘快的讓更多的服務器來出來用戶的請求。但是,由於一個數量龐大的分佈式系統,必然需要把用戶的請求經過多次的分發,整個延遲可能會因為這些分發和轉交的操作,變得更高,所以分佈式系統除了分發請求外,還要儘量想辦法減少分發的層次數,以便讓請求能儘快的得到處理。

五分鐘學後端技術:如何學習分佈式系統和相關技術

由於互聯網業務的用戶來自全世界,因此在物理空間上可能來自各種不同延遲的網絡和線路,在時間上也可能來自不同的時區,所以要有效的應對這種用戶來源的複雜性,就需要把多個服務器部署在不同的空間來提供服務。同時,我們也需要讓同時發生的請求,有效的讓多個不同服務器承載。所謂的負載均衡,就是分佈式系統與生俱來需要完成的功課。

由於分佈式系統,幾乎是解決互聯網業務承載量問題,的最基本方法,所以作為一個服務器端程序員,掌握分佈式系統技術就變得異常重要了。然而,分佈式系統的問題,並非是學會用幾個框架和使用幾個庫,就能輕易解決的,因為當一個程序在一個電腦上運行,變成了又無數個電腦上同時協同運行,在開發、運維上都會帶來很大的差別。

分佈式系統提高承載量的基本手段

分層模型(路由、代理)

使用多態服務器來協同完成計算任務,最簡單的思路就是,讓每個服務器都能完成全部的請求,然後把請求隨機的發給任何一個服務器處理。最早期的互聯網應用中,DNS輪詢就是這樣的做法:當用戶輸入一個域名試圖訪問某個網站,這個域名會被解釋成多個IP地址中的一個,隨後這個網站的訪問請求,就被髮往對應IP的服務器了,這樣多個服務器(多個IP地址)就能一起解決處理大量的用戶請求。

然而,單純的請求隨機轉發,並不能解決一切問題。比如我們很多互聯網業務,都是需要用戶登錄的。在登錄某一個服務器後,用戶會發起多個請求,如果我們把這些請求隨機的轉發到不同的服務器上,那麼用戶登錄的狀態就會丟失,造成一些請求處理失敗。簡單的依靠一層服務轉發是不夠的,所以我們會增加一批服務器,這些服務器會根據用戶的Cookie,或者用戶的登錄憑據,來再次轉發給後面具體處理業務的服務器。

除了登錄的需求外,我們還發現,很多數據是需要數據庫來處理的,而我們的這些數據往往都只能集中到一個數據庫中,否則在查詢的時候就會丟失其他服務器上存放的數據結果。所以往往我們還會把數據庫單獨出來成為一批專用的服務器。

至此,我們就會發現,一個典型的三層結構出現了:接入、邏輯、存儲。然而,這種三層結果,並不就能包醫百病。例如,當我們需要讓用戶在線互動(網遊就是典型) ,那麼分割在不同邏輯服務器上的在線狀態數據,是無法知道對方的,這樣我們就需要專門做一個類似互動服務器的專門系統,讓用戶登錄的時候,也同時記錄一份數據到它那裡,表明某個用戶登錄在某個服務器上,而所有的互動操作,要先經過這個互動服務器,才能正確的把消息轉發到目標用戶的服務器上。

五分鐘學後端技術:如何學習分佈式系統和相關技術

又例如,當我們在使用網上論壇(BBS)系統的時候,我們發的文章,不可能只寫入一個數據庫裡,因為太多人的閱讀請求會拖死這個數據庫。我們常常會按論壇板塊來寫入不同的數據庫,又或者是同時寫入多個數據庫。這樣把文章數據分別存放到不同的服務器上,才能應對大量的操作請求。然而,用戶在讀取文章的時候,就需要有一個專門的程序,去查找具體文章在哪一個服務器上,這時候我們就要架設一個專門的代理層,把所有的文章請求先轉交給它,由它按照我們預設的存儲計劃,去找對應的數據庫獲取數據。

根據上面的例子來看,分佈式系統雖然具有三層典型的結構,但是實際上往往不止有三層,而是根據業務需求,會設計成多個層次的。為了把請求轉交給正確的進程處理,我們而設計很多專門用於轉發請求的進程和服務器。這些進程我們常常以Proxy或者Router來命名,一個多層結構常常會具備各種各樣的Proxy進程。這些代理進程,很多時候都是通過TCP來連接前後兩端。然而,TCP雖然簡單,但是卻會有故障後不容易恢復的問題。而且TCP的網絡編程,也是有點複雜的。——所以,人們設計出更好進程間通訊機制:消息隊列。

五分鐘學後端技術:如何學習分佈式系統和相關技術

儘管通過各種Proxy或者Router進程能組建出強大的分佈式系統,但是其管理的複雜性也是非常高的。所以人們在分層模式的基礎上,想出了更多的方法,來讓這種分層模式的程序變得更簡單高效的方法。

併發模型(多線程、異步)

當我們在編寫服務器端程序是,我們會明確的知道,大部分的程序,都是會處理同時到達的多個請求的。因此我們不能好像HelloWorld那麼簡單的,從一個簡單的輸入計算出輸出來。因為我們會同時獲得很多個輸入,需要返回很多個輸出。在這些處理的過程中,往往我們還會碰到需要“等待”或“阻塞”的情況,比如我們的程序要等待數據庫處理結果,等待向另外一個進程請求結果等等……如果我們把請求一個挨著一個的處理,那麼這些空閒的等待時間將白白浪費,造成用戶的響應延時增加,以及整體系統的吞吐量極度下降。

所以在如何同時處理多個請求的問題上,業界有2個典型的方案。一種是多線程,一種是異步。在早期的系統中,多線程或多進程是最常用的技術。這種技術的代碼編寫起來比較簡單,因為每個線程中的代碼都肯定是按先後順序執行的。但是由於同時運行著多個線程,所以你無法保障多個線程之間的代碼的先後順序。這對於需要處理同一個數據的邏輯來說,是一個非常嚴重的問題,最簡單的例子就是顯示某個新聞的閱讀量。兩個++操作同時運行,有可能結果只加了1,而不是2。所以多線程下,我們常常要加很多數據的鎖,而這些鎖又反過來可能導致線程的死鎖。

因此異步回調模型在隨後比多線程更加流行,除了多線程的死鎖問題外,異步還能解決多線程下,線程反覆切換導致不必要的開銷的問題:每個線程都需要一個獨立的棧空間,在多線程並行運行的時候,這些棧的數據可能需要來回的拷貝,這額外消耗了CPU。同時由於每個線程都需要佔用棧空間,所以在大量線程存在的時候,內存的消耗也是巨大的。而異步回調模型則能很好的解決這些問題,不過異步回調更像是“手工版”的並行處理,需要開發者自己去實現如何“並行”的問題。

異步回調基於非阻塞的I/O操作(網絡和文件),這樣我們就不用在調用讀寫函數的時候“卡”在那一句函數調用,而是立刻返回“有無數據”的結果。而Linux的epoll技術,則利用底層內核的機制,讓我們可以快速的“查找”到有數據可以讀寫的連接\\文件。由於每個操作都是非阻塞的,所以我們的程序可以只用一個進程,就處理大量併發的請求。因為只有一個進程,所以所有的數據處理,其順序都是固定的,不可能出現多線程中,兩個函數的語句交錯執行的情況,因此也不需要各種“鎖”。從這個角度看,異步非阻塞的技術,是大大簡化了開發的過程。由於只有一個線程,也不需要有線程切換之類的開銷,所以異步非阻塞成為很多對吞吐量、併發有較高要求的系統首選。

五分鐘學後端技術:如何學習分佈式系統和相關技術

int epoll_create(int size);//創建一個epoll的句柄,size用來告訴內核這個監聽的數目一共有多大

int epoll_ctl(int epfd, int op, int fd, struct epoll_event *event);

int epoll_wait(int epfd, struct epoll_event * events, int maxevents, int timeout);

緩衝技術

在互聯網服務中,大部分的用戶交互,都是需要立刻返回結果的,所以對於延遲有一定的要求。而類似網絡遊戲之類服務,延遲更是要求縮短到幾十毫秒以內。所以為了降低延遲,緩衝是互聯網服務中最常見的技術之一。

早期的WEB系統中,如果每個HTTP請求的處理,都去數據庫(MySQL)讀寫一次,那麼數據庫很快就會因為連接數佔滿而停止響應。因為一般的數據庫,支持的連接數都只有幾百,而WEB的應用的併發請求,輕鬆能到幾千。這也是很多設計不良的網站人一多就卡死的最直接原因。為了儘量減少對數據庫的連接和訪問,人們設計了很多緩衝系統——把從數據庫中查詢的結果存放到更快的設施上,如果沒有相關聯的修改,就直接從這裡讀。

最典型的WEB應用緩衝系統是Memcache。由於PHP本身的線程結構,是不帶狀態的。早期PHP本身甚至連操作“堆”內存的方法都沒有,所以那些持久的狀態,就一定要存放到另外一個進程裡。而Memcache就是一個簡單可靠的存放臨時狀態的開源軟件。很多PHP應用現在的處理邏輯,都是先從數據庫讀取數據,然後寫入Memcache;當下次請求來的時候,先嚐試從Memcache裡面讀取數據,這樣就有可能大大減少對數據庫的訪問。

五分鐘學後端技術:如何學習分佈式系統和相關技術

然而Memcache本身是一個獨立的服務器進程,這個進程自身並不帶特別的集群功能。也就是說這些Memcache進程,並不能直接組建成一個統一的集群。如果一個Memcache不夠用,我們就要手工用代碼去分配,哪些數據應該去哪個Memcache進程。——這對於真正的大型分佈式網站來說,管理一個這樣的緩衝系統,是一個很繁瑣的工作。

因此人們開始考慮設計一些更高效的緩衝系統:從性能上來說,Memcache的每筆請求,都要經過網絡傳輸,才能去拉取內存中的數據。這無疑是有一點浪費的,因為請求者本身的內存,也是可以存放數據的。——這就是促成了很多利用請求方內存的緩衝算法和技術,其中最簡單的就是使用LRU算法,把數據放在一個哈希表結構的堆內存中。

而Memcache的不具備集群功能,也是一個用戶的痛點。於是很多人開始設計,如何讓數據緩存分不到不同的機器上。最簡單的思路是所謂讀寫分離,也就是緩存每次寫,都寫到多個緩衝進程上記錄,而讀則可以隨機讀任何一個進程。在業務數據有明顯的讀寫不平衡差距上,效果是非常好的。

然而,並不是所有的業務都能簡單的用讀寫分離來解決問題,比如一些在線互動的互聯網業務,比如社區、遊戲。這些業務的數據讀寫頻率並沒很大的差異,而且也要求很高的延遲。因此人們又再想辦法,把本地內存和遠端進程的內存緩存結合起來使用,讓數據具備兩級緩存。同時,一個數據不在同時的複製存在所有的緩存進程上,而是按一定規律分佈在多個進程上。——這種分佈規律使用的算法,最流行的就是所謂“一致性哈希”。這種算法的好處是,當某一個進程失效掛掉,不需要把整個集群中所有的緩存數據,都重新修改一次位置。你可以想象一下,如果我們的數據緩存分佈,是用簡單的以數據的ID對進程數取模,那麼一旦進程數變化,每個數據存放的進程位置都可能變化,這對於服務器的故障容忍是不利的。

Orcale公司旗下有一款叫Coherence的產品,是在緩存系統上設計比較好的。這個產品是一個商業產品,支持利用本地內存緩存和遠程進程緩存協作。集群進程是完全自管理的,還支持在數據緩存所在進程,進行用戶定義的計算(處理器功能),這就不僅僅是緩存了,還是一個分佈式的計算系統。

五分鐘學後端技術:如何學習分佈式系統和相關技術

存儲技術(NoSQL)

相信CAP理論大家已經耳熟能詳,然而在互聯發展的早期,大家都還在使用MySQL的時候,如何讓數據庫存放更多的數據,承載更多的連接,很多團隊都是絞盡腦汁。甚至於有很多業務,主要的數據存儲方式是文件,數據庫反而變成是輔助的設施了。

五分鐘學後端技術:如何學習分佈式系統和相關技術

然而,當NoSQL興起,大家突然發現,其實很多互聯網業務,其數據格式是如此的簡單,很多時候根部不需要關係型數據庫那種複雜的表格。對於索引的要求往往也只是根據主索引搜索。而更復雜的全文搜索,本身數據庫也做不到。所以現在相當多的高併發的互聯網業務,首選NoSQL來做存儲設施。最早的NoSQL數據庫有MangoDB等,現在最流行的似乎就是Redis了。甚至有些團隊,把Redis也當成緩衝系統的一部分,實際上也是認可Redis的性能優勢。

NoSQL除了更快、承載量更大以外,更重要的特點是,這種數據存儲方式,只能按照一條索引來檢索和寫入。這樣的需求約束,帶來了分佈上的好處,我們可以按這條主索引,來定義數據存放的進程(服務器)。這樣一個數據庫的數據,就能很方便的存放在不同的服務器上。在分佈式系統的必然趨勢下,數據存儲層終於也找到了分佈的方法。

分佈式系統在可管理性上造成的問題

分佈式系統並不是簡單的把一堆服務器一起運行起來就能滿足需求的。對比單機或少量服務器的集群,有一些特別需要解決的問題等待著我們。

硬件故障率

所謂分佈式系統,肯定就不是隻有一臺服務器。假設一臺服務器的平均故障時間是1%,那麼當你有100臺服務器的時候,那就幾乎總有一臺是在故障的。雖然這個比方不一定很準確,但是,當你的系統所涉及的硬件越來越多,硬件的故障也會從偶然事件變成一個必然事件。一般我們在寫功能代碼的時候,是不會考慮到硬件故障的時候應該怎麼辦的。而如果在編寫分佈式系統的時候,就一定需要面對這個問題了。否則,很可能只有一臺服務器出故障,整個數百臺服務器的集群都工作不正常了。

五分鐘學後端技術:如何學習分佈式系統和相關技術

除了服務器自己的內存、硬盤等故障,服務器之間的網絡線路故障更加常見。而且這種故障還有可能是偶發的,或者是會自動恢復的。面對這種問題,如果只是簡單的把“出現故障”的機器剔除出去,那還是不夠的。因為網絡可能過一會兒就又恢復了,而你的集群可能因為這一下的臨時故障,丟失了過半的處理能力。

如何讓分佈式系統,在各種可能隨時出現故障的情況下,儘量的自動維護和維持對外服務,成為了編寫程序就要考慮的問題。由於要考慮到這種故障的情況,所以我們在設計架構的時候,也要有意識的預設一些冗餘、自我維護的功能。這些都不是產品上的業務需求,完全就是技術上的功能需求。能否在這方面提出對的需求,然後正確的實現,是服務器端程序員最重要的職責之一。

資源利用率優化

在分佈式系統的集群,包含了很多個服務器,當這樣一個集群的硬件承載能力到達極限的時候,最自然的想法就是增加更多的硬件。然而,一個軟件系統不是那麼容易就可以通過“增加”硬件來提高承載性能的。因為軟件在多個服務器上的工作,是需要有複雜細緻的協調工作。在對一個集群擴容的時候,我們往往會要停掉整個集群的服務,然後修改各種配置,最後才能重新啟動一個加入了新的服務器的集群。

五分鐘學後端技術:如何學習分佈式系統和相關技術

由於在每個服務器的內存裡,都可能會有一些用戶使用的數據,所以如果冒然在運行的時候,就試圖修改集群中提供服務的配置,很可能會造成內存數據的丟失和錯誤。因此,運行時擴容在對無狀態的服務上,是比較容易的,比如增加一些Web服務器。但如果是在有狀態的服務上,比如網絡遊戲,幾乎是不可能進行簡單的運行時擴容的。

分佈式集群除了擴容,還有縮容的需求。當用戶人數下降,服務器硬件資源出現空閒的時候,我們往往需要這些空閒的資源能利用起來,放到另外一些新的服務集群裡去。縮容和集群中有故障需要容災有一定類似之處,區別是縮容的時間點和目標是可預期的。

由於分佈式集群中的擴容、縮容,以及希望儘量能在線操作,這導致了非常複雜的技術問題需要處理,比如集群中互相關聯的配置如何正確高效的修改、如何對有狀態的進程進行操作、如何在擴容縮容的過程中保證集群中節點之間通信的正常。作為服務器端程序員,會需要花費大量的經歷,來對多個進程的集群狀態變化,造成的一系列問題進行專門的開發。

軟件服務內容更新

現在都流行用敏捷開發模式中的“迭代”,來表示一個服務不斷的更新程序,滿足新的需求,修正BUG。如果我們僅僅管理一臺服務器,那麼更新這一臺服務器上的程序,是非常簡單的:只要把軟件包拷貝過去,然後修改下配置就好。但是如果你要對成百上千的服務器去做同樣的操作,就不可能每臺服務器登錄上去處理。

服務器端的程序批量安裝部署工具,是每個分佈式系統開發者都需要的。然而,我們的安裝工作除了拷貝二進制文件和配置文件外,還會有很多其他的操作。比如打開防火牆、建立共享內存文件、修改數據庫表結構、改寫一些數據文件等等……甚至有一些還要在服務器上安裝新的軟件。

五分鐘學後端技術:如何學習分佈式系統和相關技術

如果我們在開發服務器端程序的時候,就考慮到軟件更新、版本升級的問題,那麼我們對於配置文件、命令行參數、系統變量的使用,就會預先做一定的規劃,這能讓安裝部署的工具運行更快,可靠性更高。

除了安裝部署的過程,還有一個重要的問題,就是不同版本間數據的問題。我們在升級版本的時候,舊版本程序生成的一些持久化數據,一般都是舊的數據格式的;而我們升級版本中如果涉及修改了數據格式,比如數據表結果,那麼這些舊格式的數據,都要轉換改寫成新版本的數據格式才行。這導致了我們在設計數據結構的時候,就要考慮清楚這些表格的結構,是用最簡單直接的表達方式,來讓將來的修改更簡單;還是一早就預計到修改的範圍,專門預設一些字段,或者使用其他形式存放數據。

除了持久化數據以外,如果存在客戶端程序(如受擊APP),這些客戶端程序的升級往往不能和服務器同步,如果升級的內容包含了通信協議的修改,這就造成了我們必須為不同的版本部署不同的服務器端系統的問題。為了避免同時維護多套服務器,我們在軟件開發的時候,往往傾向於所謂“版本兼容”的協議定義方式。而怎樣設計的協議才能有很好的兼容性,又是服務器端程序需要仔細考慮的問題。

數據統計和決策

一般來說,分佈式系統的日誌數據,都是被集中到一起,然後統一進行統計的。然而,當集群的規模到一定程度的時候,這些日誌的數據量會變得非常恐怖。很多時候,統計一天的日誌量,要消耗計算機運行一天以上的時間。所以,日誌統計這項工作,也變成一門非常專業的活動。

經典的分佈式統計模型,有Google的Map Reduce模型。這種模型既有靈活性,也能利用大量服務器進行統計工作。但是缺點是易用性往往不夠好,因為這些數據的統計和我們常見的SQL數據表統計有非常大的差異,所以我們最後還是常常把數據丟到MySQL裡面去做更細層面的統計。

五分鐘學後端技術:如何學習分佈式系統和相關技術

由於分佈式系統日誌數量的龐大,以及日誌複雜程度的提高。我們變得必須要掌握類似Map Reduce技術,才能真正的對分佈式系統進行數據統計。而且我們還需要想辦法提高統計工作的工作效率。

解決分佈式系統可管理性的基本手段

目錄服務(ZooKeeper)

分佈式系統是一個由很多進程組成的整體,這個整體中每個成員部分,都會具備一些狀態,比如自己的負責模塊,自己的負載情況,對某些數據的掌握等等。而這些和其他進程相關的數據,在故障恢復、擴容縮容的時候變得非常重要。

簡單的分佈式系統,可以通過靜態的配置文件,來記錄這些數據:進程之間的連接對應關係,他們的IP地址和端口,等等。然而一個自動化程度高的分佈式系統,必然要求這些狀態數據都是動態保存的。這樣才能讓程序自己去做容災和負載均衡的工作。

一些程序員會專門自己編寫一個DIR服務(目錄服務),來記錄集群中進程的運行狀態。集群中進程會和這個DIR服務產生自動關聯,這樣在容災、擴容、負載均衡的時候,就可以自動根據這些DIR服務裡的數據,來調整請求的發送目地,從而達到繞開故障機器、或連接到新的服務器的操作。

五分鐘學後端技術:如何學習分佈式系統和相關技術

然而,如果我們只是用一個進程來充當這個工作。那麼這個進程就成為了這個集群的“單點”——意思就是,如果這個進程故障了,那麼整個集群可能都無法運行的。所以存放集群狀態的目錄服務,也需要是分佈式的。幸好我們有ZooKeeper這個優秀的開源軟件,它正是一個分佈式的目錄服務區。

ZooKeeper可以簡單啟動奇數個進程,來形成一個小的目錄服務集群。這個集群會提供給所有其他進程,進行讀寫其巨大的“配置樹”的能力。這些數據不僅僅會存放在一個ZooKeeper進程中,而是會根據一套非常安全的算法,讓多個進程來承載。這讓ZooKeeper成為一個優秀的分佈式數據保存系統。

由於ZooKeeper的數據存儲結構,是一個類似文件目錄的樹狀系統,所以我們常常會利用它的功能,把每個進程都綁定到其中一個“分枝”上,然後通過檢查這些“分支”,來進行服務器請求的轉發,就能簡單的解決請求路由(由誰去做)的問題。另外還可以在這些“分支”上標記進程的負載的狀態,這樣負載均衡也很容易做了。

目錄服務是分佈式系統中最關鍵的組件之一。而ZooKeeper是一個很好的開源軟件,正好是用來完成這個任務。

消息隊列服務(ActiveMQ、ZeroMQ、Jgroups)

兩個進程間如果要跨機器通訊,我們幾乎都會用TCP/UDP這些協議。但是直接使用網絡API去編寫跨進程通訊,是一件非常麻煩的事情。除了要編寫大量的底層socket代碼外,我們還要處理諸如:如何找到要交互數據的進程,如何保障數據包的完整性不至於丟失,如果通訊的對方進程掛掉了,或者進程需要重啟應該怎樣等等這一系列問題。這些問題包含了容災擴容、負載均衡等一系列的需求。

為了解決分佈式系統進程間通訊的問題,人們總結出了一個有效的模型,就是“消息隊列”模型。消息隊列模型,就是把進程間的交互,抽象成對一個個消息的處理,而對於這些消息,我們都有一些“隊列”,也就是管道,來對消息進行暫存。每個進程都可以訪問一個或者多個隊列,從裡面讀取消息(消費)或寫入消息(生產)。由於有一個緩存的管道,我們可以放心的對進程狀態進行變化。當進程起來的時候,它會自動去消費消息就可以了。而消息本身的路由,也是由存放的隊列決定的,這樣就把複雜的路由問題,變成了如何管理靜態的隊列的問題。

一般的消息隊列服務,都是提供簡單的“投遞”和“收取”兩個接口,但是消息隊列本身的管理方式卻比較複雜,一般來說有兩種。一部分的消息隊列服務,提倡點對點的隊列管理方式:每對通信節點之間,都有一個單獨的消息隊列。這種做法的好處是不同來源的消息,可以互不影響,不會因為某個隊列的消息過多,擠佔了其他隊列的消息緩存空間。而且處理消息的程序也可以自己來定義處理的優先級——先收取、多處理某個隊列,而少處理另外一些隊列。

但是這種點對點的消息隊列,會隨著集群的增長而增加大量的隊列,這對於內存佔用和運維管理都是一個複雜的事情。因此更高級的消息隊列服務,開始可以讓不同的隊列共享內存空間,而消息隊列的地址信息、建立和刪除,都採用自動化的手段。——這些自動化往往需要依賴上文所述的“目錄服務”,來登記隊列的ID對應的物理IP和端口等信息。比如很多開發者使用ZooKeeper來充當消息隊列服務的中央節點;而類似Jgropus這類軟件,則自己維護一個集群狀態來存放各節點今昔。

五分鐘學後端技術:如何學習分佈式系統和相關技術

另外一種消息隊列,則類似一個公共的郵箱。一個消息隊列服務就是一個進程,任何使用者都可以投遞或收取這個進程中的消息。這樣對於消息隊列的使用更簡便,運維管理也比較方便。不過這種用法下,任何一個消息從發出到處理,最少進過兩次進程間通信,其延遲是相對比較高的。並且由於沒有預定的投遞、收取約束,所以也比較容易出BUG。

不管使用那種消息隊列服務,在一個分佈式服務器端系統中,進程間通訊都是必須要解決的問題,所以作為服務器端程序員,在編寫分佈式系統代碼的時候,使用的最多的就是基於消息隊列驅動的代碼,這也直接導致了EJB3.0把“消息驅動的Bean”加入到規範之中。

事務系統

在分佈式的系統中,事務是最難解決的技術問題之一。由於一個處理可能分佈在不同的處理進程上,任何一個進程都可能出現故障,而這個故障問題則需要導致一次回滾。這種回滾大部分又涉及多個其他的進程。這是一個擴散性的多進程通訊問題。要在分佈式系統上解決事務問題,必須具備兩個核心工具:一個是穩定的狀態存儲系統;另外一個是方便可靠的廣播系統。

五分鐘學後端技術:如何學習分佈式系統和相關技術

事務中任何一步的狀態,都必須在整個集群中可見,並且還要有容災的能力。這個需求,一般還是由集群的“目錄服務”來承擔。如果我們的目錄服務足夠健壯,那麼我們可以把每步事務的處理狀態,都同步寫到目錄服務上去。ZooKeeper再次在這個地方能發揮重要的作用。

如果事務發生了中斷,需要回滾,那麼這個過程會涉及到多個已經執行過的步驟。也許這個回滾只需要在入口處回滾即可(加入那裡有保存回滾所需的數據),也可能需要在各個處理節點上回滾。如果是後者,那麼就需要集群中出現異常的節點,向其他所有相關的節點廣播一個“回滾!事務ID是XXXX”這樣的消息。這個廣播的底層一般會由消息隊列服務來承載,而類似Jgroups這樣的軟件,直接提供了廣播服務。

雖然現在我們在討論事務系統,但實際上分佈式系統經常所需的“分佈式鎖”功能,也是這個系統可以同時完成的。所謂的“分佈式鎖”,也就是一種能讓各個節點先檢查後執行的限制條件。如果我們有高效而單子操作的目錄服務,那麼這個鎖狀態實際上就是一種“單步事務”的狀態記錄,而回滾操作則默認是“暫停操作,稍後再試”。這種“鎖”的方式,比事務的處理更簡單,因此可靠性更高,所以現在越來越多的開發人員,願意使用這種“鎖”服務,而不是去實現一個“事務系統”。

五分鐘學後端技術:如何學習分佈式系統和相關技術

自動部署工具(Docker)

由於分佈式系統最大的需求,是在運行時(有可能需要中斷服務)來進行服務容量的變更:擴容或者縮容。而在分佈式系統中某些節點故障的時候,也需要新的節點來恢復工作。這些如果還是像老式的服務器管理方式,通過填表、申報、進機房、裝服務器、部署軟件……這一套做法,那效率肯定是不行。

在分佈式系統的環境下,我們一般都是採用“池”的方式來管理服務。我們預先會申請一批機器,然後在某些機器上運行服務軟件,另外一些則作為備份。顯然我們這一批服務器不可能只為某一個業務服務,而是會提供多個不同的業務承載。那些備份的服務器,則會成為多個業務的通用備份“池”。隨著業務需求的變化,一些服務器可能“退出”A服務而“加入”B服務。

這種頻繁的服務變化,依賴高度自動的軟件部署工具。我們的運維人員,應該掌握這開發人員提供的部署工具,而不是厚厚的手冊,來進行這類運維操作。一些比較有經驗的開發團隊,會統一所有的業務底層框架,以期大部分的部署、配置工具,都能用一套通用的系統來進行管理。而開源界,也有類似的嘗試,最廣為人知的莫過於RPM安裝包格式,然而RPM的打包方式還是太複雜,不太符合服務器端程序的部署需求。所以後來又出現了Chef為代表的,可編程的通用部署系統。

五分鐘學後端技術:如何學習分佈式系統和相關技術

然而,當NoSQL興起,大家突然發現,其實很多互聯網業務,其數據格式是如此的簡單,很多時候根部不需要關係型數據庫那種複雜的表格。對於索引的要求往往也只是根據主索引搜索。而更復雜的全文搜索,本身數據庫也做不到。所以現在相當多的高併發的互聯網業務,首選NoSQL來做存儲設施。最早的NoSQL數據庫有MangoDB等,現在最流行的似乎就是Redis了。甚至有些團隊,把Redis也當成緩衝系統的一部分,實際上也是認可Redis的性能優勢。

NoSQL除了更快、承載量更大以外,更重要的特點是,這種數據存儲方式,只能按照一條索引來檢索和寫入。這樣的需求約束,帶來了分佈上的好處,我們可以按這條主索引,來定義數據存放的進程(服務器)。這樣一個數據庫的數據,就能很方便的存放在不同的服務器上。在分佈式系統的必然趨勢下,數據存儲層終於也找到了分佈的方法。

五分鐘學後端技術:如何學習分佈式系統和相關技術

為了管理大量的分佈式服務器端進程,我們確實需要花很多功夫,其優化其部署管理的工作。統一服務器端進程的運行規範,是實現自動化部署管理的基本條件。我們可以根據“操作系統”作為規範,採用Docker技術;也可以根據“Web應用”作為規範,採用某些PaaS平臺技術;或者自己定義一些更具體的規範,自己開發完整的分佈式計算平臺。

日誌服務(log4j)

服務器端的日誌,一直是一個既重要又容易被忽視的問題。很多團隊在剛開始的時候,僅僅把日誌視為開發調試、排除BUG的輔助工具。但是很快會發現,在服務運營起來之後,日誌幾乎是服務器端系統,在運行時可以用來了解程序情況的唯一有效手段。

儘管我們有各種profile工具,但是這些工具大部分都不適合在正式運營的服務上開啟,因為會嚴重降低其運行性能。所以我們更多的時候需要根據日誌來分析。儘管日誌從本質上,就是一行行的文本信息,但是由於其具有很大的靈活性,所以會很受開發和運維人員的重視。

日誌本身從概念上,是一個很模糊的東西。你可以隨便打開一個文件,然後寫入一些信息。但是現代的服務器系統,一般都會對日誌做一些標準化的需求規範:日誌必須是一行一行的,這樣比較方便日後的統計分析;每行日誌文本,都應該有一些統一的頭部,比如日期時間就是基本的需求;日誌的輸出應該是分等級的,比如fatal/error/warning/info/debug/trace等等,程序可以在運行時調整輸出的等級,以便可以節省日誌打印的消耗;日誌的頭部一般還需要一些類似用戶ID或者IP地址之類的頭信息,用於快速查找定位過濾某一批日誌記錄,或者有一些其他的用於過濾縮小日誌查看範圍的字段,這叫做染色功能;日誌文件還需要有“回滾”功能,也就是保持固定大小的多個文件,避免長期運行後,把硬盤寫滿。

五分鐘學後端技術:如何學習分佈式系統和相關技術

由於有上述的各種需求,所以開源界提供了很多遊戲的日誌組件庫,比如大名鼎鼎的log4j,以及成員眾多的log4X家族庫,這些都是應用廣泛而飽受好評的工具。

不過對比日誌的打印功能,日誌的蒐集和統計功能卻往往比較容易被忽視。作為分佈式系統的程序員,肯定是希望能從一個集中節點,能蒐集統計到整個集群日誌情況。而有一些日誌的統計結果,甚至希望能在很短時間內反覆獲取,用來監控整個集群的健康情況。要做到這一點,就必須有一個分佈式的文件系統,用來存放源源不斷到達的日誌(這些日誌往往通過UDP協議發送過來)。而在這個文件系統上,則需要有一個類似Map Reduce架構的統計系統,這樣才能對海量的日誌信息,進行快速的統計以及報警。有一些開發者會直接使用Hadoop系統,有一些則用Kafka來作為日誌存儲系統,上面再搭建自己的統計程序。

日誌服務是分佈式運維的儀表盤、潛望鏡。如果沒有一個可靠的日誌服務,整個系統的運行狀況可能會是失控的。所以無論你的分佈式系統節點是多還是少,必須花費重要的精力和專門的開發時間,去建立一個對日誌進行自動化統計分析的系統。

五分鐘學後端技術:如何學習分佈式系統和相關技術

分佈式系統在開發效率上造成的問題和解決思路

根據上文所述,分佈式系統在業務需求的功能以為,還需要增加額外很多非功能的需求。這些非功能需求,往往都是為了一個多進程系統能穩定可靠運行而去設計和實現的。這些“額外”的工作,一般都會讓你的代碼更加複雜,如果沒有很好的工具,就會讓你的開發效率嚴重下降。

微服務框架:EJB、WebService

當我們在討論服務器端軟件分佈的時候,服務進程之間的通信就難免了。然而服務進程間的通訊,並不是簡單的收發消息就能完成的。這裡還涉及了消息的路由、編碼解碼、服務狀態的讀寫等等。如果整個流程都由自己開發,那就太累人了。

五分鐘學後端技術:如何學習分佈式系統和相關技術

所以業界很早就推出了各種分佈式的服務器端開發框架,最著名的就是“EJB”——企業JavaBean。但凡冠以“企業”的技術,往往都是分佈式下所需的部分,而EJB這種技術,也是一種分佈式對象調用的技術。我們如果需要讓多個進程合作完成任務,則需要把任務分解到多個“類”上,然後這些“類”的對象就會在各個進程容器中存活,從而協作提供服務。這個過程很“面向對象”。每個對象都是一個“微服務”,可以提供某些分佈式的功能。

而另外一些系統,則走向學習互聯網的基本模型:HTTP。所以就有了各種的WebService框架,從開源的到商業軟件,都有各自的WebService實現。這種模型,把複雜的路由、編解碼等操作,簡化成常見的一次HTTP操作,是一種非常有效的抽象。開發人員開發和部署多個WebService到Web服務器上,就完成了分佈式系統的搭建。

五分鐘學後端技術:如何學習分佈式系統和相關技術

不管我們是學習EJB還是WebService,實際上我們都需要簡化分佈式調用的複雜程度。而分佈式調用的複雜之處,就是因為需要把容災、擴容、負載均衡等功能,融合到跨進程調用裡。所以使用一套通用的代碼,來為所有的跨進程通訊(調用),統一的實現容災、擴容、負載均衡、過載保護、狀態緩存命中等等非功能性需求,能大大簡化整個分佈式系統的複雜性。

一般我們的微服務框架,都會在路由階段,對整個集群所有節點的狀態進行觀察,如哪些地址上運行了哪些服務的進程,這些服務進程的負載狀況如何,是否可用,然後對於有狀態的服務,還會使用類似一致性哈希的算法,去儘量試圖提高緩存的命中率。當集群中的節點狀態發生變化的時候,微服務框架下的所有節點,都能儘快的獲得這個變化的情況,從新根據當前狀態,重新規劃以後的服務路由方向,從而實現自動化的路由選擇,避開那些負載過高或者失效的節點。

有一些微服務框架,還提供了類似IDL轉換成“骨架”、“樁”代碼的工具,這樣在編寫遠程調用程序的時候,完全無需編寫那些複雜的網絡相關的代碼,所有的傳輸層、編碼層代碼都自動的編寫好了。這方面EJB、Facebook的Thrift,Google gRPC都具備這種能力。在具備代碼生成能力的框架下,我們編寫一個分佈式下可用的功能模塊(可能是一個函數或者是一個類),就好像編寫一個本地的函數那樣簡單。這絕對是分佈式系統下非常重要的效率提升。

五分鐘學後端技術:如何學習分佈式系統和相關技術

異步編程工具:協程、Futrue、Lamda

在分佈式系統中編程,你不可避免的會碰到大量的“回調”型API。因為分佈式系統涉及非常多的網絡通信。任何一個業務命令,都可能被分解到多個進程,通過多次網絡通信來組合完成。由於異步非阻塞的編程模型大行其道,所以我們的代碼也往往動不動就要碰到“回調函數”。然而,回調這種異步編程模型,是一種非常不利於代碼閱讀的編程方法。因為你無法從頭到尾的閱讀代碼,去了解一個業務任務,是怎樣被逐步的完成的。屬於一個業務任務的代碼,由於多次的非阻塞回調,從而被分割成很多個回調函數,在代碼的各處被串接起來。

更有甚者,我們有時候會選擇使用“觀察者模式”,我們會在一個地方註冊大量的“事件-響應函數”,然後在所有需要回調的地方,都發出一個事件。——這樣的代碼,比單純的註冊回調函數更難理解。因為事件對應的響應函數,通常在發出事件處是無法找到的。這些函數永遠都會放在另外的一些文件裡,而且有時候這些函數還會在運行時改變。而事件名字本身,也往往是匪夷所思難以理解的,因為當你的程序需要成千上百的事件的時候,起一個容易理解名符其實的名字,幾乎是不可能的。

為了解決回調函數這種對於代碼可讀性的破壞作用,人們發明了很多不同的改進方法。其中最著名的是“協程”。我們以前常常習慣於用多線程來解決問題,所以非常熟悉以同步的方式去寫代碼。協程正是延續了我們的這一習慣,但不同於多線程的是,協程並不會“同時”運行,它只是在需要阻塞的地方,用Yield()切換出去執行其他協程,然後當阻塞結束後,用Resume()回到剛剛切換的位置繼續往下執行。這相當於我們可以把回調函數的內容,接到Yield()調用的後面。這種編寫代碼的方法,非常類似於同步的寫法,讓代碼變得非常易讀。但是唯一的缺點是,Resume()的代碼還是需要在所謂“主線程”中運行。用戶必須自己從阻塞恢復的時候,去調用Resume()。協程另外一個缺點,是需要做棧保存,在切換到其他協程之後,棧上的臨時變量,也都需要額外佔用空間,這限制了協程代碼的寫法,讓開發者不能用太大的臨時變量。

五分鐘學後端技術:如何學習分佈式系統和相關技術

而另外一種改善回調函數的寫法,往往叫做Future/Promise模型。這種寫法的基本思路,就是“一次性把所有回調寫到一起”。這是一個非常實用的編程模型,它沒有讓你去徹底幹掉回調,而是讓你可以把回調從分散各處,集中到一個地方。在同一段代碼中,你可以清晰的看到各個異步的步驟是如何串接、或者並行執行的。

五分鐘學後端技術:如何學習分佈式系統和相關技術

最後說一下lamda模型,這種寫法流行於js語言的廣泛應用。由於在其他語言中,定一個回調函數是非常費事的:Java語言要設計一個接口然後做一個實現,簡直是五星級的費事程度;C/C++支持函數指針,算是比較簡單,但是也很容易導致代碼看不懂;腳本語言相對好一些,也要定義個函數。而直接在調用回調的地方,寫回調函數的內容,是最方便開發,也比較利於閱讀的。更重要的,lamda一般意味著閉包,也就是說,這種回調函數的調用棧,是被分別保存的,很多需要在異步操作中,需要建立一個類似“會話池”的狀態保存變量,在這裡都是不需要的,而是可以自然生效的。這一點和協程有異曲同工之妙。

五分鐘學後端技術:如何學習分佈式系統和相關技術

不管使用哪一種異步編程方式,其編碼的複雜度,都是一定比同步調用的代碼高的。所以我們在編寫分佈式服務器代碼的時候,一定要仔細規劃代碼結構,避免出現隨意添加功能代碼,導致代碼的可讀性被破壞的情況。不可讀的代碼,就是不可維護的代碼,而大量異步回調的服務器端代碼,是更容易出現這種情況的。

雲服務模型:IaaS/PaaS/SaaS

在複雜的分佈式系統開發和使用過程中,如何對大量服務器和進程的運維,一直是一個貫穿其中的問題。不管是使用微服務框架、還是統一的部署工具、日誌監控服務,都是因為大量的服務器,要集中的管理,是非常不容易的。這裡背後的原因,主要是大量的硬件和網絡,把邏輯上的計算能力,切割成很多小塊。

隨著計算機運算能力的提升,出現的虛擬化技術,卻能把被分割的計算單元,更智能的統一起來。其中最常見的就是IaaS技術:當我們可以用一個服務器硬件,運行多個虛擬的服務器操作系統的時候,我們需要維護的硬件數量就會成倍的下降。而PaaS技術的流行,讓我們可以為某一種特定的編程模型,統一的進行系統運行環境的部署維護。而不需要再一臺臺服務器的去裝操作系統、配置運行容器、上傳運行代碼和數據。在沒有統一的PaaS之前,安裝大量的MySQL數據庫,曾經是消耗大量時間

和精力的工作。

當我們的業務模型,成熟到可以抽象為一些固定的軟件時,我們的分佈式系統就會變得更加易用。我們的計算能力不再是代碼和庫,而是一個個通過網絡提供服務的雲——SaaS,這樣使用者根本來維護、部署的工作都不需要,只要申請一個接口,填上預期的容量額度,就能直接使用了。這不僅節省了大量開發對應功能的事件,還等於把大量的運維工作,都交出去給SaaS的維護者——而他們做這樣的維護會更加專業。

五分鐘學後端技術:如何學習分佈式系統和相關技術

在運維模型的進化上,從IaaS到PaaS到SaaS,其應用範圍也許是越來越窄,但使用的便利性卻成倍的提高。這也證明了,軟件勞動的工作,也是可以通過分工,向更專業化、更細分的方向去提高效率。

總結

總結分佈式系統問題的解決路徑

五分鐘學後端技術:如何學習分佈式系統和相關技術

構建分佈式系統的目的


  • 提高整體架構的吞吐量,服務更多的併發和流量。

  • 大流量處理,通過集群技術把大規模併發請求的負載分散到不同的機器上。

  • 提高系統的穩定性,讓系統的可用性更高。

  • 關鍵業務保護。提高後臺服務的可用性,把故障隔離起來阻止多米諾骨牌效應(雪崩效應),如果流量過大,需要對業務降級,以保護關鍵業務


提高系統的性能


  • 緩存系統:緩存分區、緩存更新、緩存命中

  • 負載均衡系統(網關係統):負載均衡、服務路由、服務發現

  • 異步調用:消息隊列、消息持久、異步事務

  • 數據鏡像:數據同步、讀寫分流、數據一致性

  • 數據分區:分區策略、數據訪問層、數據一致性


緩存系統


  • 可以提高快速訪問能力。

  • 從前端瀏覽器、網絡、後端服務、底層數據庫、文件系統、硬盤和CPU,全都有緩存。

  • 對於分佈式緩存系統,首先需要一個緩存集群,其中需要一個Proxy來做緩存的分片和路由


負載均衡


  • 是做水平擴展的關鍵技術。


異步調用


  • 通過消息隊列來對請求做排隊處理,把前端請求進行削峰,後端請求根據自己的處理速度來處理請求。

  • 優點:增加系統的吞吐量

  • 缺點:實時性比較差,同時還會引入消息丟失的問題,所以需要對消息進行持久化,這會造成有狀態的節點,從而增加服務調度的難度。


數據分區和數據鏡像


  • 把數據按照一定的方式分成多個區,不同的數據來分擔不同區的流量,這需要一個數據路由的中間件,會導致跨庫Join和跨庫事務非常複雜。

  • 數據鏡像:把多個數據庫備份,多個節點可以提供數據讀寫功能,節點間在內部實現數據同步。缺點:數據一致性問題。

  • 在初期使用讀寫分離的數據鏡像方式,後期採用分庫分表方式。


提高系統穩定性


  • 服務拆分(服務治理):服務調用、服務依賴、服務隔離

  • 服務冗餘(服務調度):彈性伸縮、故障轉移、服務發現

  • 限流降級:異步隊列、降級控制、服務熔斷

  • 高可用架構:多租戶系統、災備多活、高可用服務

  • 高可用運維:全棧監控、DevOps、自動化運維


服務拆分


  • 隔離故障

  • 重用服務模塊

  • 服務拆分完之後,會引入服務調用間的依賴問題。


服務冗餘


  • 去除單點故障,並可以支持服務的彈性伸縮以及故障轉移。

  • 對於一些有狀態的服務來說,冗餘這些有狀態的服務會帶來更高的複雜性。

  • 當其中一個進行彈性伸縮時,需要考慮數據的複製或重新分片,遷移的時候還要遷移數據到其他機器上。


限流降級


  • 當系統流量超過系統承載時,只能通過限流或者功能降級的方式來處理。


高可用架構


  • 主要時為了不出現單點故障。


高可用運維


  • DevOps中的CI(持續集成)/CD(持續部署)。

  • 應該有一條很流暢的軟件發佈管線,包括足夠的自動化測試,還可以做好相應的灰度發佈,以及線上系統的自動化控制。



分享到:


相關文章: