金融企業如何在混合雲中建設統一的全網流量採集平臺?


在國家十三五規劃和雲計算的推動下,國內金融企業IT基礎設施加速虛擬化、業務上雲穩步推進,金融IT逐漸演變為混合雲架構。與此同時企業對業務安全的訴求、行業主管部門對監管的要求有增無減。


基於上述背景,本文將詳細介紹金融企業如何在混合雲中建設統一的全網流量採集平臺。

為什麼混合雲需要全網流量


在金融混合雲環境,業務運行在邏輯網絡中,面臨網絡性能分析、網絡問題定位及排障、網絡安全管理、合規審計、網絡擴展等問題。在雲環境下,選擇網絡流量採集方案需要考慮流量獲取的方式、流量的模型、規模及可管理性、對現網的影響、平臺開放性等因素。


雲環境中,影響獲取虛擬交換機流量的因素有二:一是對現有生產環境的侵入性,二是性能。目前獲取虛擬交換機流量的技術方案如下,金融企業可根據自身IT環境的實際情況進行靈活選擇。


  • 在虛擬機或工作負載中安裝採集探針,從操作系統層抓取流量信息。此方案探針部署規模大,且需要獲取虛擬機根權限。
  • 通過在虛擬交換機上配置鏡像或廣播策略,將所需流量引出。該方案需對生產平面的虛擬交換機進行額外配置。
  • 在宿主機Hypervisor(如Openstack Hypervisor)上安裝採集探針,以用戶態進程形式獨立獲取虛擬交換機上的流量。該方案無需對生產平面的虛擬交換機進行配置。


規劃網絡流量採集方案時,現網中的流量模型、重點金融業務的流量特徵是方案選擇的重要依據;基礎特徵包括IP資源的分配、流量、包長、協議、端口等,同時也需要考慮組合特徵,尤其是可能出現的滲透、異常等因素。


金融混合雲環境中,網絡規模宏大且資源池類型多樣,虛擬交換機採集點數量相比傳統監控規模有幾個數量級的增長。


與此同時,單一的生產環境在金融企業中並不多見。在進行流量採集部署時,需要滿足平滑部署且保證業務不間斷,同時確保對計算資源和網絡帶寬的消耗限制。虛擬化及容器資源池動態性較強,流量的採集和分發策略也要隨著資源的變化進行實時跟隨或釋放。


也就是說,對於金融業務的流量數據應具備統一採集、按需分發消費的能力,以降低監控系統的資源開銷。


在構建整體採集方案時,金融企業應充分考慮IT資源的多樣性,採集平臺應該分階段進行建設,尤其要注意確保方案具備可擴展和統一管理能力;平臺本身應具備開放性,避免採集端與消費端綁定,尤其要杜絕在現網中不斷部署垂直豎井式的採集系統;流量採集系統的部署要兼容傳統監控方案或支持其無縫切換,並堅持數據開放性原則,提供高性能的數據服務,對接已有的金融業務分析工具。

全網流量採集與分發方案


多數大型金融企業目前都存在多數據中心、混合雲的IT設施資源,方案的挑戰在於資源池內的網絡邊界——各類虛機交換機數量多、技術新、動態強。


筆者推薦此方案的目標是為金融混合雲建立統一高效的網絡流量採集和分發平臺,為網絡運營中心、安全運營中心、大數據分析平臺等流量消費端提供數據供給服務。

金融企業如何在混合雲中建設統一的全網流量採集平臺?

數據中心可按區域來定義,區域內通常包含多個可用區。區域內的網絡流量包含可用區內的物理網絡流量和資源池內的虛擬網絡流量。


在物理網絡中,採集點通常由設備廠商的監控方案實現。DeepFlow®採集器可對接設備廠商方案的標準數據輸出,各類型號的DeepFlow®採集器為全網流量採集方案提供數據包捕獲能力;按部署方式分為VMware ESXi採集器、KVM採集器、KVM-DPDK採集器、HyperV採集器、容器OnVM採集器、容器OnHost採集器、Workload採集器等。


而對於裸金屬設備資源池,可將網絡設備的端口鏡像至專屬採集服務器完成對流量的處理;亦可將採集器安裝在每一臺需要採集的裸金屬設備系統上。


由於採集器數量大、策略多,波動強,需從控制面的設計入手,解決大規模及可管理性的問題。


在多點部署時,首先指定主區域,主控制器存於其中並開啟高可用,區域間通過專線網絡進行控制通信。在區域內劃分多個可用區(AZ,Available Zone),以可用區為單位、由單一控制器獨立管理可用區內的全部採集器。多分支機構可根據實際情況將其採集器納入附近區域的控制器管理。


單一DeepFlow®控制器可管理2000個採集器,控制器最大支持50臺規模,方案整體可滿足10萬節點。各類採集器具有自檢、運行、停止、異常、保護等幾種標準狀態,當採集器壓力過大時控制器自動將其由“運行”切換至“保護”狀態以確保不對生產環境產生影響,直至調整採集器資源配置或壓力下降後再自動切回“運行”狀態。


包分發功能通過三層隧道實現,控制器統一下發分發策略後由採集器端直接進行數據包封裝和發送,支持單採集點數據包多目的端發送。企業可針對分發目的端是否具備解封裝能力可靈活定製隧道卸載方案。


在金融混合雲環境中,資源池多異構,需要考慮分發的網絡平面、儘量複用已有的網絡;應以分佈式部署避免單點瓶頸,並充分適配邏輯網絡跨資源池的場景。


可在每個區域、可用區配置高性能時序數據庫,分支機構的數據可通過壓縮後寫入納管區域內的數據庫。對於非原始數據包的數據消費需求,平臺提供開放的數據訂閱服務,用戶可通過API、消息隊列方式調用。


整體方案主要涉及採集器、控制器、高性能時序數據庫三部分。在整體方案規劃下,可分階段、分區域、分資源池投入建設,本方案所涉及的管理、監控分發平面通常可複用已有的網絡管理平面。


對於整體規劃的方案,建議設計獨立的網絡監控平面。根據流量、資源情況整體規劃採集器的性能,DeepFlow®採集器最低可配置1vCPU、128M的計算資源。對於已經在運行的混合雲場景,可在不影響生產環境運行的情況下部署實施,最終構建統一的全網流量監控管理平臺。

雲原生的分佈式架構優勢


不同於集中式後處理的方案,DeepFlow® 採用雲原生的分佈式架構,採集器具備專利算法的前置計算能力,可在採集點對流量進行本地化處理。


眾多采集器和控制器共同構建成一個與雲網規模一致的流量處理系統,大幅減少了分發數據對監控網絡和後端分析工具的壓力。流量採集過程中的過濾策略支持更豐富的維度,除了五元組還包括業務、主機、服務、POD等條件。此外DeepFlow® 採集器還具備去重、截短、流日誌、壓縮、標記等能力,以最小資源消耗實現流量全局的精準採集。


採集技術先進:全網採集方案主要圍繞DeepFlow® 採集器技術實現,採集器以進程形態部署,最大程度上避免對現網的影響,同時在操作系統上繼承進程級保護優勢,整體更穩定。


分佈式處理系統:DeepFlow® 採集器採用分佈式部署,採集器自身具備數據包處理能力,這設計巧妙地利用了雲架構的優勢,避免了流量採集後的集中處理,大大提升了系統整體性能。


場景全、規模大:方案基於雲原生設計,涵蓋裸金屬、虛擬機、容器、公有云資源池等多種異構系統場景,整體系統可滿足10萬臺節點的需求。


可管理性:平臺主控制器具備對所有采集器的監控和管理能力。通過對接雲平臺使得操作貼近資源池特性,針對雲資源的遷移、回收、重新部署等場景做到了實時策略跟隨,保障採集能力在動態環境下的連續性。


數據服務化:高性能網絡時序數據庫可提供統一和強大的數據訂閱服務,將網絡數據採集能力服務化的同時,提高了後端業務分析工具的效率。


總結:


DeepFlow® 混合雲全網監控流量採集與分發解決方案為企業在混合雲、雲原生等新型IT基礎設施環境演進過程中,提供完整的、可持續的平臺級監控流量管理,避免重複投入,重複安裝,解決實際網絡監管難題,也為企業規劃整體運維、安全平臺補齊現網流量、流日誌這一板塊。本方案已應用於金融、運營商等客戶IT環境中。



分享到:


相關文章: