液冷如何給“火熱”的數據中心降溫?

一、序言


如果列舉目前數據中心領域有哪項技術是又冷又熱的,液體冷卻肯定榜上有名。所謂冷是指液冷的散熱效率高,對於計算功率密度大的設施有良好的降溫作用;所謂熱則是指液冷的發展勢頭火熱,在業內的認可度和關注度越來越高。上世紀60年代開始,液冷已經被用在大型計算機上,但因為熱負荷不高的情況下風冷成本更低也更安全,液冷產業並未得到太大發展。隨著移動互聯網的發展,數據中心需應對的業務複雜度日益提高,功率密度快速增長,數據中心因此變得越來越“熱”,在綠色高效的發展壓力下,液冷技術強勢迴歸。


二、需求分析


1. 5G

如今互聯網已經成為第四次工業革命的核心推動力,伴隨著此次工業革命的發展,人類生活的方方面面都在發生改變,尤其表現在數據流量需求持續猛增、網絡負荷大幅提高。5G是全世界期待的解決網絡通信問題、打開萬物互聯大門的鑰匙,作為支撐5G的重要基礎設施之一,基站承擔著處理和傳輸海量數據的重任,此過程中會產生大量的廢熱,據統計,基站本身佔用了通信網絡傳輸總能耗的80%。隨著5G的深化和應用場景的落地,這些基站散熱問題或可以依靠液體冷卻來解決。目前,諾基亞已在芬蘭的一棟大樓部署了全球首個液冷基站系統,並將回收的基站廢熱用於樓內供暖,有效降低了能源消耗。


2. 邊緣計算

數據中心建設有一條經驗,一個10.5kW的服務器機架每分鐘需要1200CFM的冷卻空氣,這些空氣每分鐘流量足以填滿一個11平方米、樓高3米的機房空間,單是移動這些空氣就需要大量的能量。液體冷卻系統可以比風冷系統提供更高的冷卻性能,但卻不需像風冷那樣耗費過多空間,它對機房的體積要求要小得多。換言之,優化設計的液體冷卻解決方案將使數據中心能夠在更小的空間內提供更多的計算能力。邊緣數據中心為了靠近業務端通常設計得較小,並且為了適應業務需求而需容納更多的高密度硬件設施,液冷可以滿足邊緣數據中心所期望的小空間和高性能特徵,有能力成為未來邊緣數據中心的理想製冷解決方案。


3. 人工智能

從通用的CPU到GPU(圖形處理單元)、FPGA(現場可編程門陣列)和ASIC(專用集成電路),新一代AI處理器的出現使得強大的機器學習分析程序能順利運行,為現代AI提供了動力支撐。然而,人工智能場景的計算量和迭代需求都非常高,服務器等設備通常會採用集群部署AI加速器的方式提升算力,因此,單臺服務器的功率越來越高,數據中心基礎設施的冷卻能力越來越緊張。以谷歌為例,其專為人工智能業務設計的TPU pod計算機,升級一代(從2.0到3.0)功耗增加了8倍,為此不得不在數據中心中使用液冷散熱。未來,隨著越來越多的企業和組織開始運用機器學習提供AI解決方案即服務,設備散熱的需求會更快驅動液冷的實施和落地。

正是關注到液冷麵對數據中心新業務展現出的良好前景,中國信息通信研究院雲計算與大數據研究所數據中心部自2016年便開始進行數據中心液冷技術研究、標準制定、測試驗證等各項工作,並取得了標準、書籍、白皮書、獎項等階段性成果。


液冷如何給“火熱”的數據中心降溫?

圖1 液冷項目獲得2019“數博會”黑科技大獎


三、液冷技術分析


液冷技術是通過液體循環介質將大部分熱量帶走,單臺服務器需求風量降低,機房整體送風需求也隨之降低,可以達到削減散熱系統消耗的效果,以此促進數據中心的綠色化進程。目前來看數據中心液冷主要有間接液冷和直接液冷兩種主流技術路線,間接液冷以冷板式為主,技術成熟度較高;直接液冷以浸沒式為主,散熱效率較高。直接液冷同時也湧現出噴淋式等新形態,目前尚處於發展初期,公開展示的研究和實踐成果較少,具有一定發展潛力。


1. 間接液冷——冷板式

冷板式液冷對發熱器件的改造和適配要求較低,技術成熟度較高,應用進展最快。冷板式液冷系統由換熱冷板、分液單元、熱交換單元、循環管路和冷卻液組成,它是通過換熱冷板(通常是銅、鋁等高導熱金屬構成的封閉腔體)將發熱器件的熱量傳遞給封閉在循環管路中的冷卻液體進行換熱的方式,按照管路的連接方式不同可分為串聯式和並聯式。串聯方式中,冷卻液體先進入一個冷板腔體散熱後再繼續流入下一個冷板腔體,管路連接簡單但不同部分的CPU會存在溫差;並聯式方式中,冷卻液在進入不同腔體前會先進行分流,然後再分別進入腔體內,散熱更高效但管路系統更復雜。由於冷板式液冷中發熱器件無需直接與液體接觸,所以對發熱器件本身的改造和適配要求較小,因此,冷板式液冷的成熟度相對較高。目前,百度、騰訊、美團等互聯網企業均開始對冷板式液冷進行技術研究和試驗驗證,在冷板式液冷產業內形成了強勁的帶動作用。


2. 直接液冷——浸沒式

浸沒式散熱優勢最明顯,能極大提升能源使用效率,較適合新建數據中心。浸沒式液冷是一種以液體作為傳熱介質,將發熱器件完全浸沒在液體中,發熱器件與液體直接接觸並進行熱交換的冷卻技術。按照熱交換過程中冷卻液是否存在相態變化,可分為單相液冷和相變液冷兩類。區別在於作為傳熱介質的液體在熱量傳遞過程中是隻發生溫度變化,還是存在相態轉變。浸沒式液冷系統一般分為浸沒腔體子系統、冷卻子系統、室外冷源系統、監控系統四部分。由於系統架構特殊,冷卻液可以與發熱器件直接接觸,所以浸沒式的散熱效率較高,可支持更高功率密度的IT部署,能極大提升能源使用效率(PUE)。雖然製冷效果較好,但由於需要直接將冷卻液和發熱器件接觸,數據中心設備改造的動作更大,因此浸沒式更適合新建數據中心。目前,阿里巴巴已經在其北京冬奧雲數據中心進行浸沒式液冷的規模化部署,開啟了浸沒式液冷的正式商用。


四、變化與影響


革新數據中心的整體架構。從避免液體接觸機房設備到主動引入液體和使用液體,液冷技術的使用讓數據中心的基礎架構發生了變化。從地板到天花板,從線路到管路,從機櫃外部結構到內部部署,液冷將會帶來完全不一樣架構的數據中心。


革命性地改變數據中心散熱方式。以往數據中心散熱以風冷為主,散熱消耗要佔據大部分的能源消耗。液冷逐漸替代了風冷散熱後,散熱效率顯著提升。應用證明,大多數地區使用液冷技術後可獲得機房PUE<1.1的效果。


重構IT設備及關鍵部件的設計和部署。以服務器為主的IT設備,包括CPU、GPU、存儲、網卡等關鍵部件,都會為了更好地散熱(例如,與風冷相比部分CPU滿載工作時的核溫可降低20℃)開始直接或間接接觸液體,為了與液冷系統兼容,它們的設計和部署勢必會做出改變。


顛覆數據中心的監控和運維模式。液冷技術進入機房後,數據中心的監測和控制系統會重點圍繞它進行,如部署漏液監測、溫度監測、壓力監測等。除此之外,數據中心的運營和維護思路也會改變,液體、管路、接口等液冷配套設施均會給運維帶來新要求。


完善能效評價指標和方法。目前評價數據中心能源效率的主要指標是PUE,它是數據中心總能耗與IT設備能耗的比值。現階段數據中心液冷部署還處於過渡階段,即同一數據中心可能同時使用風冷和液冷系統,為了充分了解兩部分系統的性能,需要分開度量能源效率,因此,PUE的度量指標可以進一步完善。


五、展望


在數據中心中,受限於機房設計和配套設施,當單機架功率密度接近20kW時,風冷系統就已達到其經濟有效的製冷極限。液體冷卻技術是一個開放、靈活的製冷解決方案,它支持技術計算、網格部署和數據分析等工作負載,可以有效應對高性能計算(HPC)、大規模雲數據中心、邊緣計算、人工智能等高功率密度場景,對於減少數據中心能源消耗、降低TCO有非常明顯的優勢,具有廣闊的市場前景。


然而,液冷的優勢和潛力並未形成很強的商業帶動效應,從世界互聯網巨頭們釋放出來的信號來看,它們對液冷系統和零配件產品的規範化和標準化還有很大顧慮,不願面對設備採購和後期維護的麻煩。因此,在加強液冷技術和產品創新的同時,還應該重點關注標準化和適配性問題。


目前,中國信息通信研究院雲計算與大數據研究所數據中心部推動中國通信標準化協會(CCSA)、開放數據中心標準推進委員會(ODCC)在此方面做了大量工作,與阿里巴巴、騰訊、百度、美團、中國電信、中國移動等聯手合作,出臺了6項液冷團體標準,立項了6項液冷行業標準,通過這些標準文件有效規範了液冷行業的發展。此外,還出版了2本液冷書籍,詳細梳理了液冷技術的過去、現在和未來,為業內使用液冷技術提供了重要的參考依據。除了技術成果外,由ODCC組織申報的液冷項目還獲得了2019年“數博會”領先科技成果最高獎項——“黑科技”獎,極大提升了液冷解決方案的行業影響力。如果今後國家層面對數據中心液冷有更加直接的標準引導和政策支持,那麼液冷技術將具有更強勁的提升動力,會更顯著地推進數據中心綠色節能發展。


液冷如何給“火熱”的數據中心降溫?

圖2 《冷板式液冷》和《液冷革命》


謝麗娜,中國信息通信研究院雲計算與大數據研究所數據中心部高級業務主管,主要從事數據中心、服務器、液體冷卻相關的政府支撐、產業諮詢、技術研究和標準制定等工作。ODCC新技術與測試工作組成員,液冷項目主要參與人,參與編寫《液冷革命》、《液冷技術與應用白皮書》等系列書籍和行業規範。

聯繫方式:18800199616,[email protected]


李潔,博士,正高級工程師,中國信息通信研究院雲計算與大數據研究所數據中心部主任,開放數據中心委員會(ODCC)副主席,中國通信標準化協會互聯網與應用工作委員會數據中心工作組(TC1WG4)組長。長期從事數據中心的政策支撐、產業和技術等研究工作。

聯繫方式:

[email protected]


分享到:


相關文章: