GitHub 標星 11000+,阿里開源的微服務組件如何連續 10 年扛住雙十一大促?

GitHub 標星 11000+,阿里開源的微服務組件如何連續 10 年扛住雙十一大促?

作者 | 宿何,阿里雲高級開發工程師

封圖 | CSDN 下載自東方 IC

出品 | CSDN(ID:CSDNnews)

疫情期間,“卡”成了很多人線上體驗的關鍵詞。線上預約購買口罩時,突然不能付款了;在線選課,被提示請求過多,系統無法響應;在線辦公/教學時,圖像或聲音卡住了……這些可用性下降的場景嚴重的影響了用戶體驗,也降低了公司的工作效率。面對“卡”住了的情況 ,作為開發者的我們,需要預先通過一些手段來提前對不穩定的因素進行防護,同時在突發流量的情況下,也要具備快速止損的能力。

近年來,微服務的穩定性一直是開發者非常關注的話題。隨著業務從單體架構向分佈式架構演進以及部署方式的變化,服務之間的依賴關係變得越來越複雜,業務系統也面臨著巨大的高可用挑戰。

如何保障服務的可用性?這是一個非常龐大的話題,涉及到方方面面,其中一個重要的手段就是流控降級。

GitHub 标星 11000+,阿里开源的微服务组件如何连续 10 年扛住双十一大促?

為什麼要進行流控降級?

流量是非常隨機性的、不可預測的。前一秒可能還風平浪靜,後一秒可能就出現流量洪峰了(例如雙 11 零點的場景)。然而我們的系統容量總是有限的,如果突如其來的流量超過了系統的承受能力,就可能會導致請求處理不過來,堆積的請求處理緩慢,CPU/Load 飆高,最終導致系統崩潰。因此,我們需要針對這種突發的流量來進行限制,在儘可能處理請求的同時來保障服務不被打垮。

一個服務常常會調用別的模塊,可能是另外的一個遠程服務、數據庫,或者第三方 API 等。例如,支付的時候,可能需要遠程調用銀聯提供的 API;查詢某個商品的價格,可能需要進行數據庫查詢。然而,這個被依賴服務的穩定性是不能保證的。如果依賴的服務出現了不穩定的情況,請求的響應時間變長,那麼調用服務的方法的響應時間也會變長,線程會產生堆積,最終可能耗盡業務自身的線程池,服務本身也變得不可用。

現代微服務架構都是分佈式的,由非常多的服務組成。不同服務之間相互調用,組成複雜的調用鏈路。以上的問題在鏈路調用中會產生放大的效果。複雜鏈路上的某一環不穩定,就可能會層層級聯,最終導致整個鏈路都不可用。因此我們需要對不穩定的服務進行熔斷降級,暫時切斷不穩定調用,避免局部不穩定因素導致整體的雪崩。

那麼是不是服務的量級很小就不用進行限流防護了呢?是不是微服務的架構比較簡單就不用引入熔斷保護機制了呢?

其實,這與請求的量級、架構的複雜程度無關。很多時候,可能正是一個非常邊緣的服務出現故障而導致整體業務受影響,造成巨大損失。我們需要具有面向失敗設計的意識,在平時就做好容量規劃和強弱依賴的梳理,合理地配置流控降級規則,做好事前防護,而不是在線上出現問題以後再進行補救。

那麼大家可能想問:有沒有什麼方法來快速進行高可用防護呢?如何做到均勻平滑的用戶訪問?如何預防這些不穩定因素帶來的影響?今天我們就來大傢俱體分享承載阿里巴巴近 10 年雙十一大促穩定性場景的流量控制組件 —— Sentinel 的實踐。

GitHub 标星 11000+,阿里开源的微服务组件如何连续 10 年扛住双十一大促?

Sentinel:面向雲原生微服務的流量控制、熔斷降級組件

Sentinel 是阿里巴巴開源的,面向分佈式服務架構的流量控制組件,目前在 GitHub 已收穫 11,071 Star。主要以流量為切入點,從流量控制、流量整形、熔斷降級、系統自適應保護等多個維度來幫助開發者保障微服務的穩定性。Sentinel 承接了阿里巴巴近 10 年的雙十一大促流量的核心場景,例如秒殺、冷啟動、消息削峰填谷、集群流量控制、實時熔斷下游不可用服務等,是保障微服務高可用的利器。

https://github.com/alibaba/Sentinel

GitHub 标星 11000+,阿里开源的微服务组件如何连续 10 年扛住双十一大促?

Sentinel 裡的兩個核心概念 —— 資源與規則。資源(Resource)可以理解為需要進行防護的代碼塊(或調用),比如 SQL 訪問、REST API 訪問、Dubbo 服務調用、Reactive 響應式服務、API 網關的路由訪問,甚至是任意的代碼塊,都可以作為 Sentinel 的資源。用戶可以通過 Sentinel API 或註解手動進行資源埋點,或者通過 Sentinel 提供的框架適配模塊引入依賴一鍵接入。規則則是針對某個資源進行的控制手段,比如我們可以針對某個服務、方法來配置流控規則、降級規則等來達到高可用防護的效果。

其核心特性與技術如下:

  • 基於滑動窗口結構的實時統計,性能好的同時又可以保證統計的準確性;

  • 高度可擴展能力:基礎核心 + SPI 接口擴展能力,用戶可以方便地擴展流控、通信、監控等功能;

  • 多樣化的流量控制策略(資源粒度、調用關係、流控指標、流控效果等多個維度),提供分佈式集群流控的能力,同時提供熱點流量探測和防護的能力;

  • 對不穩定服務進行熔斷降級和隔離;

  • 全局維度的系統負載自適應保護,根據系統水位實時調節流量;

  • 覆蓋 API Gateway 場景,為 Spring Cloud Gateway、Zuul 提供網關流量控制的能力;

  • 雲原生場景提供 Envoy 服務網格集群流量控制的能力;

  • 實時監控和規則動態配置管理能力。

同時,Sentinel 提供一個簡單的所見即所得的控制檯,可以接入控制檯對服務進行實時監控,同時可以在控制檯實時配置、管理規則:

GitHub 标星 11000+,阿里开源的微服务组件如何连续 10 年扛住双十一大促?

下面介紹 Sentinel 的一些常見的使用場景和最佳實踐:

在服務提供方(Service Provider)的場景下,我們需要保護服務提供方自身不被流量洪峰打垮。這時候通常根據服務提供方的服務能力進行流量控制,或針對特定的服務調用方進行限制。我們可以結合前期壓測評估核心接口的承受能力,配置 QPS 模式的限流,當每秒的請求量超過設定的閾值時,會自動拒絕多餘的請求。

為了避免調用其他服務時被不穩定的服務拖垮自身,需要在服務調用端(Service Consumer)對不穩定服務依賴進行隔離和熔斷。手段包括信號量隔離、異常比例降級、RT 降級等多種手段。

當系統長期處於低水位的情況下,流量突然增加時,直接把系統拉昇到高水位可能瞬間把系統壓垮。這時候我們可以藉助 Sentinel 的 WarmUp 流控模式控制通過的流量緩慢增加,在一定時間內逐漸增加到閾值上限,而不是在一瞬間全部放行。這樣可以給冷系統一個預熱的時間,避免冷系統被壓垮。

利用 Sentinel 的勻速排隊模式進行“削峰填谷”,把請求突刺均攤到一段時間內,讓系統負載保持在請求處理水位之內,同時儘可能地處理更多請求。

利用 Sentinel 的網關流控特性,在網關入口處進行流量防護,同時可以針對不同用戶、IP 來分別限制 API 的調用頻率。

在 Istio+Envoy 架構下快速接入 Sentinel RLS token server,為 Envoy 集群提供全局流量控制的能力。

GitHub 标星 11000+,阿里开源的微服务组件如何连续 10 年扛住双十一大促?

Sentinel 的開源生態

Sentinel 有著豐富的開源生態,覆蓋微服務、API Gateway 與 Service Mesh 幾大核心生態。Sentinel 開源不久就被納入 CNCF Landscape 版圖,並且也成為 Spring Cloud 官方推薦的流控降級組件之一。社區提供 Spring Cloud、Dubbo、gRPC 等常用框架的適配,開箱即用;同時支持 Reactive 生態,支持 Reactor、Spring WebFlux 異步響應式架構。Sentinel 也在逐漸覆蓋 API Gateway 和 Service Mesh 場景,在雲原生架構中發揮更大的作用。

GitHub 标星 11000+,阿里开源的微服务组件如何连续 10 年扛住双十一大促?GitHub 标星 11000+,阿里开源的微服务组件如何连续 10 年扛住双十一大促?

Sentinel 多語言演進及未來展望

Sentinel 初期主要面向 Java 微服務,同時也在朝著多語言擴展的方向不斷探索。去年中旬,Sentinel 推出 C++ 原生版本,同時針對 Service Mesh 場景,Sentinel 也推出了 Envoy 集群流量控制的支持,可以解決 Service Mesh 架構下多語言限流的問題。

近期,Sentinel 多語言俱樂部又迎來新的一員 —— Sentinel Go 首個原生版本正式發佈,為 Go 語言的微服務提供流控降級、系統保護等特性的原生支持。開發者只需簡單的幾步即可快速接入 Sentinel,享受到以下能力:

  • 精確限制接口級別的 QPS,防止打垮核心接口。

  • 削峰填谷,激增的請求排隊等待處理。

  • 自適應的系統維度流量保護,結合 load 等系統指標以及服務實時的請求量和響應時間來自動拒絕多餘的流量,儘可能地提升吞吐量的同時保證服務不掛。

  • 實時的秒級監控能力,通過監控日誌瞭解系統的實時流量情況。

Sentinel Go 開源地址:

https://github.com/alibaba/sentinel-golang

在接下來的版本中,Sentinel Go 將會陸續推出熔斷降級、熱點參數統計與流控等一系列的穩定性保障能力。同時,社區也會陸續提供與常用的框架和雲原生組件的整合模塊。

未來,Sentinel 還會朝著多語言和雲原生的方向持續演進。Sentinel 目前已支持 Java、Go、C++ 三種語言,未來社區還會支持更多語言。同時我們會不斷完善 API Gateway 及 Service Mesh 的流控場景,如原生 Istio Service Mesh 整合,方便開發者在各種雲原生場景下快速接入 Sentinel 享受高可用防護的能力。社區後面也計劃提供與 Prometheus 等雲原生監控組件的整合,可以利用 Sentinel 的指標統計數據進行接口級別的監控,同時結合 K8S HPA 彈性機制、自適應流控等,來提供自動化的穩定性保障。

全方位解析阿里雲核心技術競爭力

CSDN 獨家在線峰會來了!

3 月 18 - 19 日,CSDN 創始人&董事長、極客幫創投創始合夥人蔣濤,阿里雲研究員蔣林泉,阿里雲首席智聯網科學家丁險峰,阿里雲智能事業群研究員、網絡產品線負責人祝順民,阿里達摩院資深算法專家謝宣松等 12 位大咖齊聚 CSDN 直播間,從虛擬化、存儲、網絡、安全、雲計算、大數據、物聯網等多個維度著手,釋放阿里雲的核心技術與競爭力。

GitHub 标星 11000+,阿里开源的微服务组件如何连续 10 年扛住双十一大促?


分享到:


相關文章: