API網關:API 網關從入門到放棄

前言

假設你正在開發一個電商網站,那麼這裡會涉及到很多後端的微服務,比如會員、商品、推薦服務等等。


API網關:API 網關從入門到放棄

那麼這裡就會遇到一個問題,APP/Browser怎麼去訪問這些後端的服務? 如果業務比較簡單的話,可以給每個業務都分配一個獨立的域名(http://service.api.company.com),但這種方式會有幾個問題:

  • 每個業務都會需要鑑權、限流、權限校驗等邏輯,如果每個業務都各自為戰,自己造輪子實現一遍,會很蛋疼,完全可以抽出來,放到一個統一的地方去做。
  • 如果業務量比較簡單的話,這種方式前期不會有什麼問題,但隨著業務越來越複雜,比如淘寶、亞馬遜打開一個頁面可能會涉及到數百個微服務協同工作,如果每一個微服務都分配一個域名的話,一方面客戶端代碼會很難維護,涉及到數百個域名,另一方面是連接數的瓶頸,想象一下你打開一個APP,通過抓包發現涉及到了數百個遠程調用,這在移動端下會顯得非常低效。
  • 每上線一個新的服務,都需要運維參與,申請域名、配置Nginx等,當上線、下線服務器時,同樣也需要運維參與,另外採用域名這種方式,對於環境的隔離也不太友好,調用者需要自己根據域名自己進行判斷。
  • 另外還有一個問題,後端每個微服務可能是由不同語言編寫的、採用了不同的協議,比如HTTP、Dubbo、GRPC等,但是你不可能要求客戶端去適配這麼多種協議,這是一項非常有挑戰的工作,項目會變的非常複雜且很難維護。
  • 後期如果需要對微服務進行重構的話,也會變的非常麻煩,需要客戶端配合你一起進行改造,比如商品服務,隨著業務變的越來越複雜,後期需要進行拆分成多個微服務,這個時候對外提供的服務也需要拆分成多個,同時需要客戶端配合你進行改造,非常蛋疼。

API Gateway

API網關:API 網關從入門到放棄

更好的方式是採用API網關,實現一個API網關接管所有的入口流量,類似Nginx的作用,將所有用戶的請求轉發給後端的服務器,但網關做的不僅僅只是簡單的轉發,也會針對流量做一些擴展,比如鑑權、限流、權限、熔斷、協議轉換、錯誤碼統一、緩存、日誌、監控、告警等,這樣將通用的邏輯抽出來,由網關統一去做,業務方也能夠更專注於業務邏輯,提升迭代的效率。

通過引入API網關,客戶端只需要與API網關交互,而不用與各個業務方的接口分別通訊,但多引入一個組件就多引入了一個潛在的故障點,因此要實現一個高性能、穩定的網關,也會涉及到很多點。

API網關:API 網關從入門到放棄


API註冊

業務方如何接入網關?一般來說有幾種方式。

  • 第一種採用插件掃描業務方的API,比如Spring MVC的註解,並結合Swagger的註解,從而實現參數校驗、文檔&&SDK生成等功能,掃描完成之後,需要上報到網關的存儲服務。
  • 手動錄入。比如接口的路徑、請求參數、響應參數、調用方式等信息,但這種方式相對來說會麻煩一些,如果參數過多的話,前期錄入會很費時費力。
API網關:API 網關從入門到放棄

  • 配置文件導入。比如通過Swagger\\OpenAPI等,比如阿里雲的網關:
API網關:API 網關從入門到放棄


協議轉換

內部的API可能是由很多種不同的協議實現的,比如HTTP、Dubbo、GRPC等,但對於用戶來說其中很多都不是很友好,或者根本沒法對外暴露,比如Dubbo服務,因此需要在網關層做一次協議轉換,將用戶的HTTP協議請求,在網關層轉換成底層對應的協議,比如HTTP -> Dubbo, 但這裡需要注意很多問題,比如參數類型,如果類型搞錯了,導致轉換出問題,而日誌又不夠詳細的話,問題會很難定位。

服務發現

網關作為流量的入口,負責請求的轉發,但首先需要知道轉發給誰,如何尋址,這裡有幾種方式:

  • 寫死在代碼/配置文件裡,這種方式雖然比較挫,但也能使用,比如線上仍然使用的是物理機,IP變動不會很頻繁,但擴縮容、包括應用上下線都會很麻煩,網關自身甚至需要實現一套健康監測機制。
  • 域名。採用域名也是一種不錯的方案,對於所有的語言都適用,但對於內部的服務,走域名會很低效,另外環境隔離也不太友好,比如預發、線上通常是同一個數據庫,因此網關讀取到的可能是同一個域名,這時候預發的網關調用的就是線上的服務。
  • 註冊中心。採用註冊中心就不會有上述的這些問題,即使是在容器環境下,節點的IP變更比較頻繁,但節點列表的實時維護會由註冊中心搞定,對網關是透明的,另外應用的正常上下線、包括異常宕機等情況,也會由註冊中心的健康檢查機制檢測到,並實時反饋給網關。並且採用註冊中心性能也沒有額外的性能損耗,採用域名的方式,額外需要走一次DNS解析、Nginx轉發等,中間多了很多跳,性能會有很大的下降,但採用註冊中心,網關是和業務方直接點對點的通訊,不會有額外的損耗。

服務調用

網關由於對接很多種不同的協議,因此可能需要實現很多種調用方式,比如HTTP、Dubbo等,基於性能原因,最好都採用異步的方式,而Http、Dubbo都是支持異步的,比如apache就提供了基於NIO實現的異步HTTP客戶端。

因為網關會涉及到很多異步調用,比如攔截器、HTTP客戶端、dubbo、redis等,因此需要考慮下異步調用的方式,如果基於回調或者future的話,代碼嵌套會很深,可讀性很差,可以參考zuul和spring cloud gateway的方案,基於響應式進行改造。

優雅下線

優雅下線也是網關需要關注的一個問題,網關底層會涉及到很多種協議,比如HTTP、Dubbo,而HTTP又可以繼續細分,比如域名、註冊中心等,有些自身就支持優雅下線,比如Nginx自身是支持健康監測機制的,如果檢測到某一個節點已經掛掉了,就會把這個節點摘掉,對於應用正常下線,需要結合發佈系統,首先進行邏輯下線,然後對後續Nginx的健康監測請求直接返回失敗(比如直接返回500),然後等待一段時間(根據Nginx配置決定),然後再將應用實際下線掉。另外對於註冊中心的其實也類似,一般註冊中心是隻支持手動下線的,可以在邏輯下線階段調用註冊中心的接口將節點下線掉,而有些不支持主動下線的,需要結合緩存的配置,讓應用延遲下線。另外對於其他比如Dubbo等原理也是類似。

性能

網關作為所有流量的入口,性能是重中之重,早期大部分網關都是基於同步阻塞模型構建的,比如Zuul 1.x。但這種同步的模型我們都知道,每個請求/連接都會佔用一個線程,而線程在JVM中是一個很重的資源,比如Tomcat默認就是200個線程,如果網關隔離沒有做好的話,當發生網絡延遲、FullGC、第三方服務慢等情況造成上游服務延遲時,線程池很容易會被打滿,造成新的請求被拒絕,但這個時候其實線程都阻塞在IO上,系統的資源被沒有得到充分的利用。另外一點,容易受網絡、磁盤IO等延遲影響。需要謹慎設置超時時間,如果設置不當,且服務隔離做的不是很完善的話,網關很容易被一個慢接口拖垮。

而異步化的方式則完全不同,通常情況下一個CPU核啟動一個線程即可處理所有的請求、響應。一個請求的生命週期不再固定於一個線程,而是會分成不同的階段交由不同的線程池處理,系統的資源能夠得到更充分的利用。而且因為線程不再被某一個連接獨佔,一個連接所佔用的系統資源也會低得多,只是一個文件描述符加上幾個監聽器等,而在阻塞模型中,每條連接都會獨佔一個線程,而線程是一個非常重的資源。對於上游服務的延遲情況,也能夠得到很大的緩解,因為在阻塞模型中,慢請求會獨佔一個線程資源,而異步化之後,因為單條連接所佔用的資源變的非常低,系統可以同時處理大量的請求。

如果是JVM平臺,Zuul 2、Spring Cloud gateway等都是不錯的異步網關選型,另外也可以基於Netty、Spring Boot2.x的webflux、vert.x或者servlet3.1的異步支持進行自研。

緩存

對於一些冪等的get請求,可以在網關層面根據業務方指定的緩存頭做一層緩存,存儲到Redis等二級緩存中,這樣一些重複的請求,可以在網關層直接處理,而不用打到業務線,降低業務方的壓力,另外如果業務方節點掛掉,網關也能夠返回自身的緩存。

限流

限流對於每個業務組件來說,可以說都是一個必須的組件,如果限流做不好的話,當請求量突增時,很容易導致業務方的服務掛掉,比如雙11、雙12等大促時,接口的請求量是平時的數倍,如果沒有評估好容量,又沒有做限流的話,很容易服務整個不可用,因此需要根據業務方接口的處理能力,做好限流策略,相信大家都見過淘寶、百度搶紅包時的降級頁面。

因此一定要在接入層做好限流策略,對於非核心接口可以直接將降級掉,保障核心服務的可用性,對於核心接口,需要根據壓測時得到的接口容量,制定對應的限流策略。限流又分為幾種:

  • 單機。單機性能比較高,不涉及遠程調用,只是本地計數,對接口RT影響最小。但需要考慮下限流數的設置,比如是針對單臺網關、還是整個網關集群,如果是整個集群的話,需要考慮到網關縮容、擴容時修改對應的限流數。
  • 分佈式。分佈式的就需要一個存儲節點維護當前接口的調用數,比如redis、sentinel等,這種方式由於涉及到遠程調用,會有些性能損耗,另外也需要考慮到存儲掛掉的問題,比如redis如果掛掉,網關需要考慮降級方案,是降級到本地限流,還是直接將限流功能本身降級掉。

另外還有不同的策略:簡單計數、令牌桶等,大部分場景下其實簡單計數已經夠用了,但如果需要支持突發流量等場景時,可以採用令牌桶等方案。還需要考慮根據什麼限流,比如是IP、接口、用戶維度、還是請求參數中的某些值,這裡可以採用表達式,相對比較靈活。

穩定性

穩定性是網關非常重要的一環,監控、告警需要做的很完善才可以,比如接口調用量、響應時間、異常、錯誤碼、成功率等相關的監控告警,還有線程池相關的一些,比如活躍線程數、隊列積壓等,還有些系統層面的,比如CPU、內存、FullGC這些基本的。

網關是所有服務的入口,對於網關的穩定性的要求相對於其他服務會更高,最好能夠一直穩定的運行,儘量少重啟,但當新增功能、或者加日誌排查問題時,不可避免的需要重新發布,因此可以參考zuul的方式,將所有的核心功能都基於不同的攔截器實現,攔截器的代碼採用Groovy編寫,存儲到數據庫中,支持動態加載、編譯、運行,這樣在出了問題的時候能夠第一時間定位並解決,並且如果網關需要開發新功能,只需要增加新的攔截器,並動態添加到網關即可,不需要重新發布。

熔斷降級

熔斷機制也是非常重要的一項。若某一個服務掛掉、接口響應嚴重超時等發生,則可能整個網關都被一個接口拖垮,因此需要增加熔斷降級,當發生特定異常的時候,對接口降級由網關直接返回,可以基於Hystrix或者Resilience4j實現。

日誌

由於所有的請求都是由網關處理的,因此日誌也需要相對比較完善,比如接口的耗時、請求方式、請求IP、請求參數、響應參數(注意脫敏)等,另外由於可能涉及到很多微服務,因此需要提供一個統一的traceId方便關聯所有的日誌,可以將這個traceId置於響應頭中,方便排查問題。

隔離

比如線程池、http連接池、redis等應用層面的隔離,另外也可以根據業務場景,將核心業務部署帶單獨的網關集群,與其他非核心業務隔離開。

網關管控平臺

這塊也是非常重要的一環,需要考慮好整個流程的用戶體驗,比如接入到網關的這個流程,能不能儘量簡化、智能,比如如果是dubbo接口,我們可以通過到git倉庫中獲取源碼、解析對應的類、方法,從而實現自動填充,儘量幫用戶減少操作;另外接口一般是從測試->預發->線上,如果每次都要填寫一遍表單會非常麻煩,我們能不能自動把這個事情做掉,另外如果網關部署到了多個可用區、甚至不同的國家,那這個時候,我們還需要接口數據同步功能,不然用戶需要到每個後臺都操作一遍,非常麻煩。

這塊個人的建議是直接參考阿里雲、aws等提供的網關服務即可,功能非常全面。

其他

其他還有些需要考慮到的點,比如接口mock,文檔生成、sdk代碼生成、錯誤碼統一、服務治理相關的等,這裡就不累述了。

總結

目前的網關還是中心化的架構,所有的請求都需要走一次網關,因此當大促或者流量突增時,網關可能會成為性能的瓶頸,而且當網關接入的大量接口的時候,做好流量評估也不是一項容易的工作,每次大促前都需要跟業務方一起針對接口做壓測,評估出大致的容量,並對網關進行擴容,而且網關是所有流量的入口,所有的請求都是由網關處理,要想準確的評估出容量很複雜。可以參考目前比較流行的ServiceMesh,採用去中心化的方案,將網關的邏輯下沉到sidecar中,sidecar和應用部署到同一個節點,並接管應用流入、流出的流量,這樣大促時,只需要對相關的業務壓測,並針對性擴容即可,另外升級也會更平滑,中心化的網關,即使灰度發佈,但是理論上所有業務方的流量都會流入到新版本的網關,如果出了問題,會影響到所有的業務,但這種去中心化的方式,可以先針對非核心業務升級,觀察一段時間沒問題後,再全量推上線。另外ServiceMesh的方案,對於多語言支持也更友好。

github.com/aCoder2013/blog/issues/35


分享到:


相關文章: