7000美元,搭建4塊2080Ti的深度學習工作站

如何以高性價比的方式搭建深度學習工作站?如何選擇合適的部件?……這些問題有點難。來自 MIT 的 Curtis Northcutt 繼「6200 美元搭建 3-GPU 工作站」之後,又推出了「7000 美元搭建 4-GPU 深度學習工作站」的教程。

在之前的博客中,來自 MIT 的 Curtis Northcutt 分享了構建專業質量的深度學習工作站和購買零件的所有細節,搭建該工作站共花費了 6200 美元,幾乎是 Lambda 和 Bizon 等公司的一半(Lambda 同等工作站需要 12,500 美元)。該博客在 Reddit 上瘋傳,在接下來的幾周裡,Lambda 將其 4-GPU 的工作站價格降到了 12000 美元。

這對部署深度學習的人來說是個好事,但你如果覺得 12000 美元還是太貴了,可以看這裡。Curtis Northcutt 只用了 7000 美元(約合 46953 人民幣)配置了 4 塊 2080Ti GPU 的深度學習工作站:

在之前的文章中,我說過:「沒有完美的配置。」但如果能夠以最低的價格實現最好的配置呢?會是怎樣的呢?這就是我下面將要講的。關於 4-GPU 深度學習工作站的部件說明、基準和其它選項,參見《僅需 6200 美元,高性價比構建 3 塊 2080Ti 的強大工作站》。

本文將準確列出以最少的花費搭建當前最先進的 4-GPU 深度學習工作站時需要購買的部件。由於很多人對上一篇博客的反饋是選項太多,因此在本文中我只列出了每個部件的最佳選項。我搭建了三個多 GPU 工作站,本文展示的這個工作站是其中性能和可靠性最好的一個,沒有出現過熱保護,成本也最低。

我搭建兩臺這樣的工作站花費了 14000 美元,每臺 7000 美元。下面將介紹我購買的具體部件。

4-GPU 工作站前視圖

需要購買哪些部件?

我所有的部件都是通過 NeweggBusiness 在網上購買的,但其它供應商(比如亞馬遜)也 OK。如果你附近有一家當地的 MicroCenter 商店,那你可以去那裡買到更便宜的 CPU。如果不需要,就不要繳稅(如非盈利組織或教育機構)。NeweggBusiness 和 Amazon 都接受免稅文件。

以下是我購買的每個部件:

4 塊 RTX 2080 TI GPU(2000 美元以下運行最快的 GPU)Gigabyte RTX 2080 Ti Turbo 11GB,1280 美元


這兩種 2-PCI 插槽的渦輪風扇式 RTX 2080 TI GPU 也可以:1. ASUS GeForce RTX 2080 Ti 11G Turbo Edition GD,1209 美元2. ZOTAC Gaming GeForce RTX 2080 Ti Blower 11GB,1299 美元


Rosewill Hercules 1600W PSU(最便宜的 1600 瓦電源)Rosewill HERCULES 1600W Gold PSU,209 美元


1TB m.2 SSD 固態硬盤(用於深度學習中的超快速數據加載)HP EX920 M.2 1TB PCIe NVMe NAND SSD,150 美元


20 線程 CPU(選擇英特爾而不是 AMD,是因為前者的單線程速度更快)英特爾 Core i9-9820X Skylake X 10-Core 3.3Ghz,850 美元


X299 主板(這款主板完全支持 4 個 GPU)ASUS WS X299 SAGE LGA 2066 英特爾 X299,492.26 美元


機箱(大風量可幫助 GPU 散熱)海盜船 Carbide 系列 Air 540 ATX Case,115 美元


3TB 硬盤(用於存儲不經常使用的數據和模型)希捷 BarraCuda ST3000DM008 3TB 7200 RPM,75 美元128GB 內存8 塊海盜船 Vengeance 16GB DRAM,640 美元


CPU 散熱器(不會阻塞機箱氣流)海盜船 Hydro 系列 H100i PRO 低噪音版,130 美元

圖左:價值 7000 美元的 4-GPU 深度學習工作站;圖右:之前博客中介紹的用 6200 美元搭建的 3-GPU 工作站。

與 Lambda 4-GPU 工作站的對比

用 7000 美元搭建的這個 4-GPU 工作站類似於 Lambda 價值 11250 美元的 4-GPU 工作站。唯一的區別是 Lambda 使用 12 核 CPU 而非 10 核 CPU,Lambda 有一個價值 50 美元的熱插拔驅動器托架。

操作系統及性能

我使用的操作系統是 Ubuntu Server 18.04 LTS,使用 CUDA 10.1 和 TensorFlow(用 conda 安裝)、PyTorch(用 conda 安裝)。一個多月來,我在完全利用 4 個 GPU 的情況下在這些機器上訓練了多次,沒有出現任何問題或者過熱保護現象。

原文地址: