單節點230虛擬桌面、6 GPU卡:AMD EPYC vSAN超融合測試&參考架構

內容提要

- 每節點最大230桌面、6塊Tesla T4可驅動90圖形用戶;

- 5,000用戶Horizon VDI參考架構:VMware推薦25節點vSAN HABlock;

- 測試結果:即時克隆減少“啟動風暴”存儲I/O壓力;

- nVector測試:vGPU虛擬圖形桌面的性價比高嗎?

談到AMD EPYC(二代)服務器,單CPU 64核心數、128 lane PCIe 4.0這些優勢顯而易見;而另一方面,單核性能、Socket片上的NUMA親和,以及缺乏像Intel AVX-512這樣的浮點計算增強指令集,也可能會限制其發揮。怎麼把它用在合適的場合,是一個需要考慮的問題。


單節點230虛擬桌面、6 GPU卡:AMD EPYC vSAN超融合測試&參考架構

上圖中8個小的7nm Die分別可以容納8個CPU核心,中間那個大的是IO Die。從表面上看內存和PCIe控制器集中了,但從各方面瞭解的情況是還有CPU內部的NUMA(非一致性內存訪問)特徵。這點可以參考我在《多級NUMA:AMD EPYC互連速率、位寬與功耗的關係》中討論過的第一代EPYC。

《AMD EPYC二代服務器預覽:Dell擴展2U 4節點HPC機型》一文中,我曾經初步提到AMD服務器主打的幾類客戶群體:天氣模型、科研、數字化製造和生命科學應用,還有互聯網。而當這次我看到一份VDI測試報告和參考架構文檔時,才發現之前忽略了虛擬桌面這個應用領域。趁著週末的時間學習一下,順便給大家寫個分享。

首先列出我之前寫過幾篇VDI相關的東西,交代一下背景:


《揭秘VDI存儲測試:4節點SDS模擬12000虛擬桌面》

《虛擬桌面測試:Optane DIMM持久內存能否降低VDI成本?》

《VDI性能測試:Win10受漏洞補丁影響小於Win7》

其中第一個標題裡的密度,是用微軟StorageSpaces Direct(S2D或稱WSSD)軟件定義存儲集群只模擬VDI的磁盤I/O負載。在兩年多之前的該文中,我也提到過每節點220桌面的超融合,不過是在RDSH會話形式的桌面;而本文討論的則是針對Instant-Clone(即時克隆)的測試,獨立的桌面虛機消耗的硬件資源會更多。

每節點最大230桌面、6塊Tesla T4可驅動90圖形用戶

單節點230虛擬桌面、6 GPU卡:AMD EPYC vSAN超融合測試&參考架構


上圖引用自Tolly的測試報告《Dell EMC PowerEdge R7525 Virtual Desktop Infrastructure(VDI) - Windows 10 Scalability vs. Prior-Generation Platform》,相關資料鏈接我會在文末統一列出。

對比第一代AMD EPYC CPU的R7425服務器,R7525在VDI領域最權威的Login VSI測試中,VSIbase和VSImax這兩個響應時間上都取得了更好(即更低,單位ms)的結果,包括每節點運行100、140和200虛擬桌面。

既然有對比數字,測試平臺信息也應該一併列出:

單節點230虛擬桌面、6 GPU卡:AMD EPYC vSAN超融合測試&參考架構

Demartek在2年前發佈的Login VSI測試報告,在PowerEdge R7425服務器上配置了EPYC 7551 32核CPU,並使用PERC H730P RAID卡和本地SSD存儲。

單節點230虛擬桌面、6 GPU卡:AMD EPYC vSAN超融合測試&參考架構

這個是本次PowerEdge R7525的測試信息。2顆AMD EPYC 7502 32核CPU的主頻提高到2.5GHz,內存仍然是1TB。由於存儲改為VMware vSAN分佈式,使用4塊1.92TB讀密集型SAS SSD為容量分層,2塊800GB SAS寫密集型SAS SSD用於Cache分層,HBA 345卡使用直通模式。網卡為Mellanox ConnectX-5 25GbE雙口,以太網交換機採用PowerSwitch S5248-ON。

理論上vSAN可能帶來10%的CPU開銷,但從測試結果來看超融合的性能並沒有比RAID卡吃虧,分佈式存儲還帶來了數據高可用。

注:當然RAID卡對SSD的支持也存在性能瓶頸,參見4年前我寫的《服務器SSD RAID性能速查手冊》。

按照現在流行的用法,vSAN配置的SSD為什麼不配置性能更好的U.2 NVMe盤呢?在《直聯還是交換?Intel、AMD服務器NVMeSSD IO拓撲速查手冊》中我就介紹過“2U雙路AMD EPYC NVMe x12(最大帶寬型)”和“2U雙路AMD EPYC NVMe x24(最大容量型)“配置——針對R7425服務器,R7525情況應該類似。

單節點230虛擬桌面、6 GPU卡:AMD EPYC vSAN超融合測試&參考架構


細心的朋友可能注意到了,上面的配置為NVIDIA Tesla T4預留了6個PCIe 4.0 x16 插槽(但GPU當前還只支持3.0)。估計是考慮到NVMe/PCIex4信道可能不夠,所以SSD就採用了全SAS配置,從下文中的存儲I/O性能來看應該也足夠了。

單節點230虛擬桌面、6 GPU卡:AMD EPYC vSAN超融合測試&參考架構

上面這個Login VSI測試結果是在PowerEdge R7525 3節點AMD服務器,VMware Horizon 7 + vSAN超融合集群上獲得的。每節點跑了230個Knowledge Worker(知識型)桌面。

單節點230虛擬桌面、6 GPU卡:AMD EPYC vSAN超融合測試&參考架構

nVector Knowledge WorkerProfile應該與LoginVSI的虛擬桌面配置和壓力不同。

圖形用戶測試部分,換成了在一臺R7525服務器跑90用戶——因為在R7525上插了6塊NVIDIA Tesla T4 GPU,每個T4是16GB顯存,分配給虛擬桌面的每個vGPU是1GB顯存。

這裡運行的測試項目也不同了——nVector應該主要是為了反映GPU在VDI應用中的功效。性能結果為圖像質量0.9904(接近於無損,這個應該與Horizon的遠程圖形協議有關)、延時215ms、幀速率8.82FPS。測試中主機佔用率峰值小於85%,6個GPU的平均佔用率大約35%。

Tolly的測試報告並沒有展開細節分析,因此我建議繼續關注另一個《DellEMC Ready Solutions for VDI: VMware Horizon 7 on Dell EMC PowerEdge R7525 Servers》參考架構文檔。

5,000用戶Horizon VDI參考架構:VMware推薦25節點vSAN HA Block

單節點230虛擬桌面、6 GPU卡:AMD EPYC vSAN超融合測試&參考架構

上圖只是一個邏輯上的示意:

- 網絡層:25Gb ToR交換機跑SDS和LAN,iDRAC服務器管理網絡走千兆交換機;

- 計算和圖形層:由最多64臺服務器(受vSAN集群限制)及其配置的TelsaT4 GPU組成;

- 存儲層:vSAN DataStore的Cache和容量分層我不在這裡過多解釋;

- 管理層:管理基礎架構虛機包括VCSA(vCenter)、Horizon的ConnectionServer、文件服務器、統一訪問網關(應該是用於VDI的外網安全訪問)以及NVIDIA License服務器(授權vGPU);

具體的虛擬桌面池,可以包括InstantClone即時克隆虛機、RDSH會話和虛擬工作站(重度圖形應用)。

單節點230虛擬桌面、6 GPU卡:AMD EPYC vSAN超融合測試&參考架構


這樣5,000用戶pod使用的服務器,如果選擇AMD機型,管理集群可以考慮3臺PowerEdge R6515 1U單路;而實際承載VDI桌面的就是25臺R7525 2U雙路服務器,這兩個集群都是使用vSAN存儲具備HAN+1容錯。

單節點230虛擬桌面、6 GPU卡:AMD EPYC vSAN超融合測試&參考架構

前面介紹的測試中,虛擬桌面配置為KnowledgeWorker,如果每個虛機4GB內存都用滿的話,230用戶就是960GB。儘管AMD有核數更高的CPU,但單服務器1TB內存也夠瞧了,目前這個密度我覺得更多受限於內存。

參考架構文檔的測試結果中,還會包括PowerWorker以及GPU項目等。我們先來看下軟硬件配置:

單節點230虛擬桌面、6 GPU卡:AMD EPYC vSAN超融合測試&參考架構


上圖中別的我不重複了,Windows10版本是較新的1909,VMware VDI顯示協議為Blast,NVIDIAvGPU版本為10.1。

測試結果:即時克隆減少“啟動風暴”存儲I/O壓力

單節點230虛擬桌面、6 GPU卡:AMD EPYC vSAN超融合測試&參考架構

測試結果顯示,當每主機KnowledgeWorker類型VDI用戶密度達到207時,R7525的CPU使用率達到85%,平均內存消耗651GB,平均活躍內存225GB。

Power Worker(無GPU)的密度也能跑到158桌面用戶,此時平均內存消耗高達965GB(因為該類桌面ESXi配置內存為8GB)。

加上6塊Tesla T4和vGPU(Virtual PC:T4-1B)之後,每主機跑滿96桌面,此時的平均活躍內存反而達到最高的776GB,顯然這個PowerWorker的實際運行負載更重。

單節點230虛擬桌面、6 GPU卡:AMD EPYC vSAN超融合測試&參考架構

上圖是網絡流量,在虛機桌面Login登錄時達到1,704 Mbps的峰值。

單節點230虛擬桌面、6 GPU卡:AMD EPYC vSAN超融合測試&參考架構

這個磁盤(SSD)IOPS測試曲線,與我在3年前介紹的全克隆和鏈接克隆VDI磁盤(見下圖)明顯不同了。從即時克隆的原理來看,由於啟動時最常用的熱點數據已經由SSD預加載到內存,因此Login階段負載低很多,18,376的讀+寫IOPS峰值反而出現在Recreate Clones階段。

單節點230虛擬桌面、6 GPU卡:AMD EPYC vSAN超融合測試&參考架構

上圖引用自《揭秘VDI存儲測試:4節點SDS模擬12000虛擬桌面》一文。

單節點230虛擬桌面、6 GPU卡:AMD EPYC vSAN超融合測試&參考架構

即時克隆的磁盤I/O延時也很好看——在這裡vSAN讀和寫都沒有超過1ms,LoginVSI的要求是20ms以內即合格。

nVector測試:vGPU虛擬圖形桌面的性價比高嗎?


單節點230虛擬桌面、6 GPU卡:AMD EPYC vSAN超融合測試&參考架構


在nVector測試部分,除了對比Knowledge Worker桌面在有無GPU時的區別之外,還有一項虛擬工作站的測試,運行SPECviewperf13圖形基準測試工作負載,這時vGPU就不能只分1GB顯存了——T4-4Q應該是把TeslaT4分配成4個4GB的虛擬Quadro專業顯卡。

擴展閱讀:《圖形工作站專業顯卡測試:SPECviewperf 12》

單節點230虛擬桌面、6 GPU卡:AMD EPYC vSAN超融合測試&參考架構

先看第一項對比結果。在加入TeslaT4之後,96個nVector桌面產生的平均CPU使用率從92%降低到72%,平均GPU使用率只有15%,終端用戶延時和幀速度也有改善。看來Tesla T4支持重載商務辦公桌面性能也挺富裕。不過每節點6塊卡加上vGPU的License成本,與這20%的CPU資源節約相比是否值得呢?

單節點230虛擬桌面、6 GPU卡:AMD EPYC vSAN超融合測試&參考架構

最後是虛擬工作站測試。上面圖表為每個桌面運行SPECviewperf測試的平均幀速度,此時的單節點VM密度應該是4(個4GB)x 6=24。這組數字參照Tesla T4四分之一的性能還算合理,用戶運行基本的CAD和DCC軟件應該能跑動。


但是性價比呢?別忘了還有Virtual WorkStation的vGPU License,如果沒有資源複用的情況下,以24臺Precision 34xx/36xx Tower這樣的單路工作站物理機作為對比參考,配上4核+Quadro P1000顯卡估計要便宜不少吧?要知道Intel Core CPU現在基本都是4GHz以上的Turbo主頻,而服務器CPU在虛擬機底下即使能Turbo還會有HyperVisor的一點損耗。

當然VDI相比物理機的優點,還有安全性和靈活接入(移動辦公),不能只看成本。

單節點230虛擬桌面、6 GPU卡:AMD EPYC vSAN超融合測試&參考架構


結尾之前,再放一個Dell AMD服務器推薦給VDI應用的BIOS設置。除了最常規的Performance高性能模式之外,NUMA Nodes per Socket不出意外設置為4(對應32個CPU核心所在的4個Die),同時處理器的x2APIC Mode也要打開。

先寫到這裡吧,希望對大家有幫助!

參考資料

https://info.loginvsi.com/acton/attachment/25205/f-23f9be1f-70cb-4ea2-abda-7cd6178d6c77/1/-/-/-/-/tolly-220108-dellemc-poweredge-r7525-vdi-performance.pdf


注:本文只代表作者個人觀點,與任何組織機構無關,如有錯誤和不足之處歡迎在留言中批評指正。進一步交流技術,可以加我的QQ/微信:490834312。如果您想在這個公眾號上分享自己的技術乾貨,也歡迎聯繫我:)

尊重知識,轉載時請保留全文。感謝您的閱讀和支持!


分享到:


相關文章: