在Cortex Data Lake中使用gRPC，Envoy和Istio進行大規模數據攝取

2020-04-12 05:16:16 聞數起舞

Cortex Data Lake收集，轉換和集成企業的安全數據，以啟用Palo Alto Networks解決方案。該產品可幫助組織以更高的速度使用和理解數據-讓系統管理員專注於最重要的警報。它結合了跨企業所有數據的高級人工智能和機器學習，並提供了對複雜攻擊的更有意義的響應。

Cortex Data Lake提取服務要求每秒接收數百萬個請求，同時確認每個請求，以確保在低延遲下不會丟失數據。 Cortex Data Lake客戶端通常是長期存在的，並且可以連續發送數據。有了這些要求，gRPC迅速成為構建Cortex Data Lake Ingestion Service的首選技術。當我們開始這個項目時，Envoy是唯一支持gRPC的高性能代理，而Istio是Envoy的首選控制平面。

Envoy

Envoy是專為雲原生應用程序設計的高性能開源邊緣和服務代理。它通常以分佈式方式部署為在同一應用程序容器中具有應用程序容器的邊車。 Envoy處理高級路由，監視，跟蹤，日誌記錄和其他跨領域問題。 Envoy具有程序控制平面，可對其進行動態配置。

Istio

Istio是一個開放源代碼的服務網格和API網關，提供連接，保護，控制和觀察服務的功能。 Istio依靠Envoy進行數據平面設計，並實現Envoy的控制平面API。它包括所有應用程序網絡和操作最佳實踐，例如超時，重試，斷路，高級負載平衡，故障注入和mTLS。 Istio為Cortex Data Lake API網關以及用於數據服務的服務網格提供了支持。以下是Cortex Data Lake Infrastructure安裝程序的高級框架。

> Cortex Data Lake Infrastructure Setup

在API網關層，Istio同時支持mTLS和JWT身份驗證策略。我們根據用例使用兩種身份驗證機制。根據客戶的不同，公開支持mTLS和JWT的服務存在一些挑戰。這些細節將在單獨的帖子中介紹。總體而言，Istio對我們來說運行良好，但是在Istio的早期版本中，Istio遙測技術遇到了瓶頸，使大量流過載。我們關閉了Istio遙測，現在正在使用Envoy本地遙測。

gRPC

gRPC由Google創建，是其內部RPC技術Stubby的開源演變。 gRPC使用HTTP / 2作為其傳輸協議。 HTTP / 2可以通過同一連接多路複用許多並行請求，並允許全雙工雙向通信。

> Image Source: Introduction to Http2

gRPC使用通道抽象來促進底層HTTP / 2連接的併發使用並提供流控制功能。在一個通道內，可以發出多個RPC，每個RPC都映射到基礎HTTP / 2流。

gRPC使用協議緩衝區作為接口定義語言，也用於基礎消息交換格式。使用protoc編譯器為不同的語言生成gRPC客戶端和服務器接口的源代碼。

gRPC客戶端和服務器存根實現了StreamObserver接口，用於發送和接收消息。對於傳出消息，gRPC庫將StreamObserver提供給應用程序。對於傳入消息，該應用程序實現StreamObserver並將其傳遞到gRPC庫以進行接收。 StreamObserver接口非常簡單，僅使用以下三種方法：

· onNext：從流中接收值

· onError：從流中接收終止錯誤

· onCompleted：接收成功完成流的通知

一元VS雙向

可以使用不同類型的服務方法來編寫gRPC應用程序，並且我們評估了一元和雙向。下面列出了每種方法的優缺點，並以粗體顯示了首選特徵。

使用雙向流，消息吞吐量更高，等待時間更低，從而滿足我們的設計要求。具有長壽命的流和每個流具有多個消息會將一些責任從gRPC協議轉移到應用程序。所需的功能必須在我們的客戶端和服務器應用程序中實現。增加的複雜度值得雙向流提供更高的吞吐量。

消息確認和錯誤處理

Cortex Data Lake要求確認每個請求。我們的gRPC客戶端應用程序在其出站流上發送離散請求有效負載，並在入站流上接收這些請求的ACK。這允許客戶端使用計時器和重試來補償網絡問題。每個請求都包含一個唯一的ID。每個ACK都包含一個相應請求的ID以及對該請求結果的描述。當客戶端從服務器接收到ACK時，它將檢查消息，檢查錯誤並確定可以重試的消息和必須丟棄的消息。客戶端還對重試實現指數補償，以允許服務器在過載時恢復。

流量控制

流控制是一種防止發送方壓倒數據接收方的機制。接收器可能在重負載下很忙，可能沒有資源來處理其他負載。在這種情況下，接收器應進行流量控制。 gRPC依賴於基礎的HTTP / 2流控制功能。

在我們的接收管道中，我們使gRPC客戶端通過Istio API Gateway與gRPC服務器通信，如下圖所示 Stream buffers in the pipeline > Stream buffers in the pipeline

管道中涉及許多流緩衝區。緩衝區越大，它可以在擁塞的上游使用更多的內存，並且溝通背壓所需的時間也越長。

> Stream Buffers

要在gRPC客戶端中為每個流實現反壓反饋循環，我們使用CallStreamObserver.html＃setOnReadyHandler。每當流的isReady（）狀態從false變為true時，此通知就會調用我們的應用程序客戶端代碼。

gRPC服務器優化

在我們的gRPC Server的最初實現中，我們有大隊列和許多線程。在高負載下，我們觀察到級聯故障和吞吐量受限，延遲時間更長。

我們在每個步驟都添加了詳細的指標，以確定我們在哪裡花費時間並進行了線程轉儲。我們確定線程正在爭用，並且服務器沒有迅速施加背壓。我們甚至遇到了一個JDK錯誤，其中java.security.Provider.getService（）同步成為高負載時的可伸縮性瓶頸。這要求我們升級到JDK13。我們將gRPC服務器中的線程池的大小減少到內核數的兩倍，並且消除了大多數線程爭用。

由於流水線與多個緩衝區/隊列是異步的，因此我們僅使更多的工作入隊，而無法處理。我們做了很多受控負載測試，使gRPC Server CPU保持繁忙。我們分析了代碼並對其進行了調整，然後對嵌入在服務器應用程序中的Kafka生產者進行了調整。我們確定請求處理線程p99可以實現的處理時間為70–80 ms，Kafka寫入為125–200 ms。

通過限制輸入隊列，服務器將不會在gRPC裝滿並施加反壓時從gRPC進行讀取。我們使用以下公式來計算gRPC Server請求隊列長度：

maxLatency =（事務時間/線程數）* queueLength

要麼

queueLength = maxLatency /（transactionTime /線程數）

我們將maxLatency保持與transactionTime相同，以產生最大的背壓，並以與線程數相同的隊列長度來解決。通過這種方法，工作負載主要受CPU限制，並且可以隨著負載的變化自動擴展。

負載均衡

gRPC使TCP會話儘可能長時間地保持打開狀態，以最大程度地提高吞吐量並最大程度地減少開銷，但是長期存在的會話使負載平衡變得複雜。在自動擴展的Kubernetes環境中，這是一個更大的問題，在該環境中，隨著負載的增加，添加了新的Pod，但是客戶端將保持連接到相同的gRPC服務器Pod，從而導致負載分配不均。

gRPC的設計者已經考慮了這個問題，並增加了對gRPC服務器上的連接過期策略的支持。此到期策略將強制客戶端斷開連接，然後重新連接到另一臺服務器。可以通過在經過一定時間後使連接過期來執行連接過期。 Java gRPC庫使用maxConnectionAge（）和maxConnectionAgeGrace（）服務器構建器選項來實現此目的。這些函數分別用於限制和強制終止gRPC通道。當gRPC通道到期時，服務器將發送HTTP / 2 GOAWAY，指示客戶端可能不會啟動新請求，但可能會完成現有請求。在最大連接期限寬限期結束時，gRPC服務器將發送第二個HTTP / 2 GOAWAY並關閉通道。

我們使用固定大小的流發送批量請求，並且必須考慮以下折衷：

· 較大的流大小允許更高的吞吐量，但使用更多的內存

· 較小的流大小會減少內存使用量，但會導致客戶端和服務器在等待確認消息時更頻繁地阻塞。

流大小在負載平衡中起著非常重要的作用。對於較大的流，它們在不同的Ingestion Server Pod上的分佈不均勻，並且會導致整個Ingestion Server Pod的CPU利用率範圍很廣，從而影響Kubernetes水平Pod的自動縮放。下表顯示了不同流大小的測試摘要結果。

GKE

我們正在使用GKE，並且需要對我們的應用程序進行其他調整。

節點內核調整

在高負載下，由於低的conntrack和threadMax限制，節點變得無響應。我們將CONNTRACK_MAX增加到200萬，將CONNTRACK_HASHSIZE增加到50萬，將THREAD_MAX增加到400萬。

IO節流

我們使用常規磁盤進入IO限制，導致Docker守護程序和Kubernetes變得不穩定。我們將工作負載轉移到具有SSD的節點池中，以避免節流。

節點內存耗盡

我們的某些工作負載最初並未進行調整，也沒有設置適當的限制，從而導致節點不穩定和內存耗盡，以及頻繁的docker和kubelet重新啟動。我們分析了我們的工作負載並調整了資源請求和限制，以免耗盡節點資源。

結果

經過所有這些更改和調整，這是一個測試的結果，在該測試中，我們運行了800k rps的負載，並且系統快速自動縮放以吸收負載。

> Auto scale from 0–800k rps

> Initial pods take in the large load. New pods start and quickly accept load and join their peers.

> CPU Utilization

管道非常有效。 Istio ILB可以輕鬆地在平均cpu利用率為65％的情況下處理每個內核10,000個請求，而Ingestion Frontend可以在平均cpu利用率為65％的情況下處理每個內核1000個請求。

這是gRPC客戶端，API網關和Ingestion小組成員的馬拉松工作，即

· 尚丹·庫瑪（Chandan Kumar）

· 普里揚卡·波伊（Priyanka Bhoj）

· 薩加爾·洛克

· 克里斯·貢薩爾維斯

· Kishore波拉

· 阿努塔·穆克吉（Anuta Mukherjee）

· 魯普雷納·查布拉（Rupleena Chhabra）

有問題嗎？訪問Twitter或電子郵件：

[email protected]：@Ani_chaturvedi

(本文翻譯自Animesh Chaturvedi的文章《Large scale Data Ingestion using gRPC, Envoy and Istio in Cortex Data Lake》，參考：https://medium.com/engineering-at-palo-alto-networks/large-scale-data-ingestion-using-grpc-envoy-and-istio-in-cortex-data-lake-ec82ea87fa3b)

分享到:

閱讀更多 聞數起舞 的文章

關鍵字: 美好，一直在身邊攝取設計

Spring Data Jpa 入門學習

spring-data-mongodb 增強工具包mongoHelper上手指南

Spring Boot 之Spring data JPA簡介

Virtual Data Optimizer存儲優化器-CentOS8.1Linux運維實戰十三

Spring Data Redis 最佳實踐！

構建數據集成和實時數據處理流水線工具Spring Cloud Data Flow

Pandas數據分析實戰01——Abalone Data Set（鮑魚數據集）

Spring Data Redis 最佳實踐，你又瞭解多少呢？

DBLE LOAD DATA 功能實現解析

03.03 WPF界面開發寶典，Data Grid和TreeList——選定記錄的摘要

02.25 STM32、Cortex-M3和ARMv8-M之間的關聯

使用 Cortex 實現 Prometheus 的多租戶管理

解密酷炫WPF界面開發技巧！WPF Data Grid和TreeList

spring data jpa進階

詳解：規整數據(Tidy Data)的理論與Python實踐

使用Spring Data JPA的Specification構建數據庫查詢

ARM Cortex-M 系列 MCU錯誤代碼自動追蹤庫的使用分享

Cortex-A7 IO 輸入中斷系統分析

12.03 Spring Data Jpa最佳實踐

11.29 數據湖(Data Lake)和數據倉庫(Data Warehouses)理解誤區

Data Lake架構揭祕

全局作用域

Cortex-A7 MPCore 簡介與處理器運行模型

MongoDB--Spring Data MongoDB詳細的操作手冊（增刪改查）

C++｜三種方式輸出浮點數的二進制位

SpringBoot利用spring-boot-starter-data-redis整合Redis

Oracle數據遷移--如何確認是否遷移成功？需要查詢這些內容

微軟開源大規模數據處理項目 Data Accelerator

springboot學習-springboot使用spring-data-jpa操作MySQL數據庫

04.02 一文讀懂 Spring Data Jpa！

springboot2.0+spring-data-solr 新增and查詢簡單例子

Java開發中MyBatis、Hibernate、Spring Data JPA應該如何選擇？

開始使用 Spring Data JPA

使用tf.data API，構建高性能 TensorFlow 輸入管道

Spring data jpa是什麼

Kafka Data Replication（副本策略）

elasticsearch節點（角色）類型解釋node.master和node.data

Data Lake Analytics-數據分析時代迎來新變革

spring data jpa項目資料庫的數據清空配置

數據網格 Data Grid和NoSQL相同和區別-異同

Spring Data Redis 詳解及實戰

一文搞定 Spring Data Redis 詳解及實戰

Spring Data JPA中如何優雅的構建動態查詢語句

JPA、Hibernate、Spring data jpa之間的關係，終於明白了

06.25 mybatis使用load data local infile實現導入數據到mysql數據庫

Configuration meta-data in Spring Boot

Hadoop 之上的數據建模-Data Vault 2.

第二章 IoC容器和Bean配置

bean是一個對象，它是由Spring

運算裡不得不說的python模塊—math

Help

Devops度量--DevOps 現狀快速檢查表

今天主要分享一個DevOps

SOP是什麼（解讀）

SOP不是單個的，是一個體系，雖然我們可以單獨地定義每一個SOP，但真正從企業管理來看，SOP不可能只是單個的，必然是一個整體和體系，也是企業不可或缺的。

還不知道交換機上如何配置DHCP，趕緊過來圍觀吧，一分鐘包你學會

隨著終端設備的越來越多，人工干預配置IP地址，不僅工作效率低，而且，還很容易導致IP衝突，影響正常的網絡訪問。到此已經完成了，DHCP服務的配置了，我們可以在終端驗證。

還在手動配置IP地址嗎？太Low了，一分鐘教會您如何配置DHCP

Python爬蟲自學筆記：分析頭條文章網頁源文件

這兩天分析了一下頭條文章網頁的源文件，現在將分析的結果分享給大家。首先以一篇文章為例，其網址如下：https://www.toutiao.com/i6822245428176617998/如上圖網頁所示，文章中包含文字和圖片。

DNS偵查工具

我們只需要打開瀏覽器輸入例如:www.baidu.com就可以解析到該網站.為了便於記住不需要輸入長長的IP地址去訪問這就是DNS域名解析.關於域名域名的層次劃分用點來分割這時DNS把相對應的域名解析成IP地址高的在右邊.例如:www. NS簡介訪問某網站的時候最低在左邊

國人開源的異步 Python ORM：GINO

程序測評：Create React App 3.3中有哪些酷炫新功能？

Create

“明學”的魅力？我只要我覺得：駕馭終端，提高生產力

最後一個要介紹的命令是

（必收藏系列）Linux面試題——命令集

關注，後臺私信【Linux】分享Linux入門到進階電子書、Linux入門到精通視頻教程（免費）。文件管理命令cat

五分鐘學會如何在 IPFS 上部署網站

原文標題:五分鐘學會如何在

「正點原子NANO STM32F103開發板資料連載」第29章內存管理實驗

1）實驗平臺：【正點原子】

小白怎麼學Web前端開發如何成為技術達人

Web前端開發工程師已經成為了很多年輕人心中的理想工作，不僅入行門檻低、而且薪資待遇和發展前景都不錯，自然吸引了大批人加入行業。

如何開發一個web靜態服務器

我們都知道如今的web服務器有很多，比如著名的有apache，有nginx，有tomcat，有resin服務器，有sphere，有iis服務器等等，這些服務器都能提供web服務，並且幾乎都能和多種語言進行搭配使用，那麼一個web服務器都需要那些功能，開發一個web服務器都需要那些

學Java編程還有前景嗎如何才能拿到高薪

需求大、薪資高似乎是Java開發人員的標籤，不過學Java編程還有前景嗎？它架構在操作系統之上，屏蔽了底層的差異，真正實現了“Writeonce run

Python網絡爬蟲之配置篇（一）

pip

SpringBoot 整合SpringSecurity示例實現前後分離權限註解+JWT登錄認證

serverTimezone=UTC&useUnicode=true&characterEncoding=utf-8&zeroDateTimeBehavior=convertTo&useSSL=falseusername:rootpassword:

Python的運行效率太低？幾行代碼快速提升！

return的就是是你所需要的結果2.3、運行這一步就是最後一步了，只要像下面一樣輸入上述函數名，賦予參數值，點擊運行Run，就能得到你想要的結果arg1=5

python的優點是什麼？最新Python400集視頻（附教程）

2020，最新Python零基礎到精通資料教材，乾貨分享，新基礎Python教材，穩穩找到過萬工作，看這裡，這裡有你想要的所有資源哦，最強筆記，教你怎麼入門提升！獲取方式：私信小編“

MySQL中OOM故障應如何下手-愛可生

作者：孫祚龍愛可生南區分公司交付服務部成員，實習工程師。負責公司產品問題排查及日常運維工作。本文來源：原創投稿*愛可生開源社區出品，原創內容未經授權不得隨意使用，轉載請聯繫小編並註明來源。

像專家一樣使用 panic

|go

30種不同的編程語言怎麼寫“Hello, World”

printfn

percona QAN 介紹

一、背景QAN慢查詢日誌分析工具是PMM

面試官：你可以用純CSS判斷鼠標進入的方向嗎？

雖然沒什麼軟用，但是對付面試官應該是夠用了。感謝面試官提出的問題，讓我實現了這個功能，對CSS

網絡工程師職業生涯中，哪兩點是最重要的？

網絡工程師最重要的技能是紮實的基礎和非常開放的思維，微觀知識紮實、宏觀能力突出。項目經驗也會讓網絡工程師基礎更牢靠，網絡工程師是要實戰的，要避免紙上談兵，我認為對基礎理論的理解，比你清楚配置更重要。

交換機中相關術語代表什麼意思，有必要弄清楚

由淺入深瞭解以太坊 2.0：最常見問題和最全學習清單

有關以太坊2.0

【Linux簡單實用小命令001】CentOS 7、8的防火牆端口開放

yuminstall

吃透這些IPFS硬核知識點，日後搶頭礦隨時“彎道超車”

今天的你捉住IPFS機遇了嗎？我們都知道在Filecoin網絡中作為一名存儲礦工，信譽對於我們是非常重要的——信譽越高，爆塊幾率越大。那麼信譽系統現在怎麼樣了呢？

Hive分桶表

fieldsterminated

Spring中資源的加載原來是這麼一回事啊！

自己動手搭建郵件系統：怎樣讓Exchange Server 發出第一封郵件？

編輯Exchange

$【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫$

【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫

在阿里雲控制檯，我們能下載的文件是一個壓縮包，解壓之後，是.idb和.frm文件，你可能要問了，我可以直接把解壓好的問題件覆蓋到MySQL的data目錄下嗎？

NLP算法入門系列：隱含馬爾可夫鏈(HMM)模型的簡單介紹

即，最大化

第一章 Spring Framework概述

您可以在任何web

opencv人工智能深度學習這樣實現人臉的年齡檢測

前期的文章我們分享了人臉的識別以及如何進行人臉數據的訓練，本期文章我們結合人臉識別的模型進行人臉年齡的檢測人臉年齡的檢測步驟1、首先需要進行人臉的檢測2、把檢測到的人臉數據給年齡檢測模型去檢測3、把檢測結果呈現到圖片上人臉年齡檢測import

嵌入式linux網絡編程之——5年程序員給你深度講解socket套接字

圖8-1

深入瞭解ProcessFunction的狀態操作(Flink-1.10)

先反思為何會有上述疑惑上述疑惑產生的原因，應該是受到平時使用HashMap的影響，HashMap獲取值就是在調用get方法時指定key，設置值也是在put時指定key，所以看到state.value，看懂了這些，其實也是在瞭解DataStream/DataSetAPI的設計思路：

Redis內存分析工具--rdr安裝與使用

分析Redis

資深架構師教你源碼講解zookeeper實現分佈式鎖以及集群搭建步驟

//getData發現前一個子節點被刪除，拋出異常

一行代碼提升遷移性能

論文原址：https://arxiv.org/pdf/2003.12237.pdf開源地址：https://github.com/cuishuhao/BNM在發表在CVPR2020

利用相似幾何信息，做可泛化3D形狀分割模型

更具體的有以下三種典型的分割方案：FullyConvolutional-Like

這麼好用的開源計算器SpeedCrunch，沒有不嘗試一下的道理

介紹SpeedCrunch是一款高精度科學計算器，具有快速，鍵盤驅動的用戶界面。獲取方式在GitHub上搜索SpeedCrunch，就可以去到

分佈式緩存，真香

他是前易寶支付架構師、阿里雲MVP、騰訊雲

特徵工程的力量

在本文中，我希望教給您一些有關特徵工程的知識，以及如何使用它來對非線性決策邊界進行建模。為了說明這一點，假設恢復時間與身高和體重具有以下關係：Y=β₀+β₁+β2+β₃+noise從第三項來看，我們可以看到Y與身高和體重沒有線性關係。

java架構：天天寫面向接口編程，你考慮過性能嗎？大神都是這麼寫

public

SpringBoot如何優雅的使用RocketMQ

源碼編譯需要Maven3.2x，JDK8在根目錄進行打包:Copymvn-Prelease-all

css代碼規範工具stylelint

"mixin"