01.17 充分發揮閃存潛力 NVMe-oF性能監視最佳實踐

作為一種新興的技術,NVMe可以將存儲設備和處理器之間內部通信的延遲降低到不到100微秒,同時藉助NVMe-oF,也能夠為共享存儲帶來與之相當的低延遲。因此,NVMe-oF有機會淘汰DAS(直連式存儲)——由於人工智能、機器學習和大數據分析的低延遲需求,DAS正在重新流行起來。在NVMe方面,IT專業人員面臨的挑戰往往在於部署NVMe-oF性能監視,以此確保網絡配置能夠提供NVMe-oF的低延遲。

充分發揮閃存潛力 NVMe-oF性能監視最佳實踐

NVMe性能監控的重要性


在過去,存儲網絡是存儲基礎設施中最快的一組組件。因此,相對應用程序、存儲系統和存儲設備來講,錯誤配置的網絡端口、網絡適配器或低於級別的電纜往往無法被檢測到。在大多數情況下,將存儲網絡升級到更高帶寬的唯一動機,是用相同的價格(或更便宜的價格)獲得更快的速度。


現在,我們有了NVMe- oF,以此將內置NVMe存儲媒介的存儲系統,和人工智能、機器學習和大數據分析等應用相連接。其結果是,網絡的核心常常承受著無法承擔的壓力,網絡中的任何錯誤配置都將成為降低存儲硬件和應用程序速度的瓶頸。因此,檢測網絡中的問題是至關重要的。


性能監視之所以如此重要,還有另一個原因是應用程序所有者的高期望。他們希望應用程序能夠按照存儲系統理想的水平執行。在大多數情況下,安裝更快、更高帶寬、更低延遲的存儲系統和網絡可以提高應用程序的性能,但可能還不足以滿足這一期望。與過去不同的是,現在多數情況下原因在於應用程序。但儘管如此,IT基礎設施人員也必須證明網絡和存儲系統的配置是正確的,換句話說,他們必須證明自己的“清白”。


如何監測無延遲網絡


IT人員如何能夠從一開始就正確地配置存儲基礎設施?這一切都在於收集和理解網絡交換機已經產生的遙測數據。網絡交換機“看到”從應用程序發送到存儲系統的每個I/O,但往往會缺失一個環節,就是將這些數據收集並呈現給IT專業人員來快速解釋。


在低延遲網絡中,大量的通信量在網絡中快速通過,因此捕獲遙測數據的傳統方法可能會漏掉影響網絡性能的事件。而試圖捕獲每秒鐘的每一個字節的遙測數據,也可能會影響整個基礎設施的性能。大多數存儲網絡監視工具通過每10秒捕獲一次網絡流量I/O快照和交換機狀況來收集數據。


大量的I/O可以在10秒內遍歷一個NVMe-oF網絡。在此期間,輪詢工具可能會遺漏問題的關鍵指標。它們可能無法向IT部門提供所需的信息,以確定某個異常只是異常,還是問題的根源。然而,減少數據捕獲間隔會增加性能影響,而且這些工具可能無法存儲它捕獲的所有數據。


另一種選擇是實時遙測捕獲,但是如果在交換機上進行,捕獲可能會影響性能。現在,與過去一樣,組織一般會使用網絡分流器,這些分流器在網絡基礎設施電纜上以內聯方式連接。這些分流器能夠將信息實時反饋給遙測分析軟件解決方案,而不會影響交換機性能。但是,安裝分流器可能會造成干擾。雖然也有一些變通方法,但是大多數IT專業人員認為,在分流器安裝期間可能會出現停機。


相對於在特定的時間間隔下進行輪詢,或採用分流器的方法,組織可能希望尋找具有特定於遙測應用程序的專用集成電路(ASIC)的網絡交換機。專用的ASIC支持實時遙測數據捕獲,且不會影響性能。


遙測捕獲只是成功了一半


在不影響存儲網絡性能的情況下實時捕獲遙測數據是監視高速、低延遲存儲網絡的關鍵步驟。下一步是將這些數據集成起來,讓IT專業人員可以快速診斷網絡資源中的任何潛在問題或需要優化的缺陷。


使用的工具不僅要清楚地顯示遙測數據,還要能夠使用機器學習和大數據分析來幫助診斷網絡上的問題。更進一步的目標應該是,通過AI技術訓練網絡監控系統,讓它能夠學習管理員解決問題的步驟,從而自動採取糾正措施。


NVMe和NVMe- of的低延遲再加上現代工作負載的I/O需求,意味著網絡設計和配置的缺陷再也無法隱藏在其他存儲基礎設施組件之後。IT部門需要主動監控存儲網絡基礎設施的設計和資源消耗,以保證能夠前瞻性地滿足組織的I/O需求。


實時遙測捕獲,當由交換機上的 ASIC驅動時,使組織能夠執行這類NVMe的性能監視,並且能夠查看在任何給定時刻,其網絡所發生的情況。結合正確的分析和表示工具,IT部門就能夠在問題出現之前搶先將其修復,並根據未來的基礎設施需求做出合理計劃。




分享到:


相關文章: