vatt'ghern jaskier's ballads

直覺會說,要散更多熱就該用更冷的水。NVIDIA 的 Rubin 世代做了相反的事——把進機房的冷卻水溫拉高到 45°C,反而更省電、更密、用水趨近於零。這不是魔術,是一段被直覺蓋住的散熱物理。

為什麼資料中心開始在 45°C 運轉

一杯熱咖啡放進冰水,它涼得快;放進溫水,它涼得慢。這個生活經驗在資料中心裡會帶你走錯方向。NVIDIA 在六月公布 Rubin 世代 AI 基礎設施的散熱設計時,講了一個反直覺的選擇:冷卻水進機房時不是越冷越好,而是刻意拉到 45°C(113°F)。讀完這篇,你會知道為什麼「更溫的水」在散熱物理上完全說得通,知道機房裡真正吃電的環節在哪,也會看清楚 NVIDIA 那幾個漂亮數字裡,哪些是站得住的物理、哪些是單一廠商在最佳條件下自己算出來的行銷數字。

先把官方主張擺上桌。NVIDIA 自陳,Rubin 是「世界第一個」做到 100% 液冷的 AI 基礎設施——用它的原話是「every chip, every networking component, cooled entirely by liquid in a closed loop with no fans anywhere in the system」:每顆晶片、每個網路元件都靠液冷,封閉迴路,系統內部一支風扇都沒有。「世界第一」這種 superlative 是 NVIDIA 自己的說法,這裡照原樣標記、不替它背書。但它底下那套散熱邏輯,我們可以從零驗。

一顆晶片要把熱送去哪——散熱其實是一條搬運鏈

先放下 NVIDIA,談一件純物理的事(以下這段是背景,不是 NVIDIA 的主張)。一顆高功率晶片運作時,電能幾乎全部變成熱,堆在那塊只有指甲大的矽晶片(die)上。晶片不會自己消化這些熱,它只能把熱往外「傳」——從 die 傳到封裝、傳到接觸面、傳到某種流體(空氣或水),再由流體把熱搬離機房。散熱不是把晶片「弄冷」,是把熱一棒一棒往外搬。

這條搬運鏈走多快,由兩個量決定:溫差 ΔT 與熱阻 R。可以把它想成歐姆定律的熱版本——熱流量 Q 約等於 ΔT 除以 R。ΔT 是 die 溫度減去冷卻流體溫度,是推動熱往外流的「壓力」;R 是整條路徑對熱的阻力,材料導熱差、接觸面有空氣、流體帶不走熱,R 就大。要散掉更多瓦,只有兩條路:加大 ΔT,或降低 R。

風冷之所以會撞牆,問題出在 R。空氣的比熱小、熱傳係數低,等於這條鏈的最後一段阻力極大——再怎麼加大風扇、加密鰭片,空氣能從晶片表面「接走」的熱就是有上限。當每顆晶片的功率越過某個門檻,這段風冷熱阻就成了瓶頸。NVIDIA 把這件事講得很白:「Once the watts per chip crossed a certain level, liquid cooling became mandatory」——瓦數一旦過了某個水準,液冷就不是選項而是必須。注意它沒給出那個確切瓦數(原文就是「a certain level」),所以這句我們當成方向,不當成精確門檻。

為什麼換成水,R 就掉一個量級?這純粹是材料性質的差(以下仍是背景物理)。水的體積比熱大約是空氣的三千多倍,意思是同樣一立方公分的流體,水能裝下的熱遠遠多過空氣;而水貼著固體表面時的熱傳係數,也比空氣高出兩三個數量級。把這兩件事疊起來,等於整條搬運鏈最後一段的熱阻 R 從「巨大」變成「小」。同一顆晶片,風冷時 die 得燒到很高溫才推得動熱往空氣流,換成液冷,較小的 ΔT 就足以把同樣的瓦數帶走——die 反而能跑在更低、更安全的溫度。這不是 NVIDIA 的行銷,是換流體的必然結果。

下面這張圖把這條搬運鏈攤開:從 die 出發,熱流經 cold plate、進入 45°C 的溫水迴路,最後到室外的 dry cooler 把熱排掉。點任何一段,看它在整條鏈裡負責什麼、ΔT 落在哪、以及哪一段是 free cooling 能不能成立的關鍵門檻。

click any stage to read its role in the heat path · 4 stages

熱流方向 ——> die cold plate ~80°C die warm-water loop 45°C 進 / 55°C 出 chiller (多半關閉) free-cooling 門檻 dry cooler 室外排熱 外氣 → 排掉

die → cold plate · 熱的起點

晶片把電全變成熱,堆在 die 上。cold plate 貼著 die,讓熱直接傳進流過它的水,而不是先傳給空氣。這一段的目標是把 die-to-coolant 的熱阻 R 壓到最低。

關鍵:只要 die 溫度仍高於水溫,熱就一直往水裡流——水不必很冷。

warm-water loop · 把熱帶走的那段

NVIDIA 自陳,coolant 以 45°C 進入晶片、約 55°C 流出——這 10°C 的溫升就是水「裝走」的熱量。水的比熱遠高於空氣,帶走同樣的瓦數只需小小的溫升。

關鍵:重點不是水多冷,是水帶走多少熱。

chiller · 機房最吃電的環節

chiller 是壓縮機冷凍循環,負責把回水再降溫——它才是傳統機房的耗電大戶。水溫拉高到 45°C 後,很多氣候下根本不必啟動它。

關鍵:省電不是省在搬熱,是省在「不必再花電把水降溫」。

dry cooler · 免費的那一步

dry cooler 用室外空氣把 55°C 的回水冷下來,不耗水、幾乎不耗電。水溫越高,與室外溫差越大,這步就越容易成立——這就是 free cooling。

關鍵:水溫高,反而讓「免費散熱」的窗口變大。

更溫的水為什麼反而對——把「水多冷」換成「水帶走多少熱」

回到那杯咖啡。咖啡涼得快慢,看的是咖啡與環境的溫差,跟「你想讓它降到幾度」沒關係。資料中心的散熱也一樣:晶片散得掉多少熱,看的是 die 溫度與冷卻水的溫差 ΔT,以及這條路的熱阻 R——不是看水有多冷。

水的厲害不在於它冷,在於它的比熱與熱傳係數遠高於空氣。同樣帶走一千瓦的熱,空氣要吹過大量體積、溫度還升不了多少;水只要小小的溫升就裝得下。NVIDIA 給的數字很具體:coolant 以 45°C 進入晶片,約 55°C 流出。這 10°C 的溫升,就是水在晶片上「裝走」的熱量的直接證據。water 進去時是溫的,出來時更溫——熱被它整批帶走了。

那為什麼不乾脆用更冷的水、把 ΔT 撐更大、散更多熱?因為機房的能源帳本不是這樣算的。把熱從晶片搬進水裡,這一步幾乎不花額外的電——水泵的耗能相對小。真正吃電的,是把已經變溫的回水「再降溫」這件事,也就是 chiller。下一節會看到,水溫拉高之後,這個最貴的環節常常可以整個關掉。換句話說,用更冷的水,你買到的是多一點 die 散熱餘裕,付出的卻是讓 chiller 全年滿載——這在能源帳上是賠本生意。

把進水溫度拉高,付出的代價是真實的:die 與水之間的 ΔT 餘裕變小,晶片得能耐受更高的接面溫度,cold plate 的接觸熱阻與水的流量設計都要更紮實,不能再靠「灌冷水」掩蓋熱阻設計上的偷懶。這是工程上要還的債——只是這筆債,換來的回報在機房尺度上更大。

把這層取捨講得更具體一點。假設晶片的接面溫度上限是某個固定值,散熱能力可以粗略看成「上限溫度減去進水溫度,再除以整條路徑的熱阻」。進水從 20°C 拉到 45°C,分子裡的 ΔT 直接少掉 25°C——這是實打實被吃掉的散熱餘裕。要在更小的 ΔT 下仍帶走同樣的瓦數,唯一的辦法是把分母那個 R 壓得更低:cold plate 的微流道做得更細密、晶片與冷板之間的熱介面材料選得更好、水的流量推得更足。所以「把水變溫」這個看似省事的決定,反過來逼著整條冷板與管路設計往更高的工藝走。省下來的機房電費,有一部分是用晶片端更嚴苛的熱設計換來的——這筆帳在兩端之間搬移,而不是憑空生出來。

下面這個 widget 把核心關係畫出來。拖動冷卻水溫,看兩件事同時變化:晶片端的 ΔT 餘裕(水越溫,餘裕越少),以及機房端的冷卻能耗(水越溫,越能靠 free cooling、能耗越低)。中間那條 free-cooling 門檻,就是 chiller 從「常開」翻成「幾乎可關」的臨界點。

drag the coolant temperature · watch ΔT margin fall and free-cooling energy drop

45°C · chiller 幾乎可關
冷卻水進水溫度(°C) 10 20 30 45 free-cooling 門檻 冷卻能耗(含 chiller) die 端 ΔT 餘裕
橙線是整廠冷卻能耗:水溫越過 free-cooling 門檻後,chiller 大半時間可關,能耗階梯式下墜。綠線是 die 與水之間的 ΔT 餘裕,隨水溫升高線性收窄——這是換來省電的工程代價。曲線為示意,斜率對齊 NVIDIA 引述的業界估計「水溫每升 1°C 約省 4% 冷卻能耗」,非實測廠資料。

機房最貴的不是搬熱,是 chiller——free cooling 怎麼把它關掉

到這裡要點破一個常被忽略的事實:在傳統機房裡,最耗電的冷卻環節不是把熱從晶片搬出來,而是把回收的溫水「再壓回低溫」。負責這件事的是 chiller——本質上是一台大型壓縮機冷凍循環,跟冷氣機是同一套原理。它要把熱從低溫一側「逆著溫度搬」到高溫一側,這違反熱自然流動的方向,所以得灌大量電進去。chiller 開著,機房的冷卻電費就壓不下來。

水溫拉高,改變的正是這一環。回水溫度從 55°C 出發,已經比室外空氣高出一截。這時候不必動用 chiller,直接用 dry cooler——一組讓室外空氣吹過回水管路的乾式散熱器——就能把熱排掉。室外空氣是免費的,dry cooler 幾乎不耗電也不耗水。這套「不靠製冷、直接用環境排熱」的做法,業界叫 free cooling。

這裡要分清「dry cooler」與傳統「cooling tower」的差別,因為用水量的故事就藏在這個差別裡。傳統冷卻塔靠的是水的蒸發——讓一部分水蒸發掉,帶走大量潛熱,所以散熱效率高,但代價是持續消耗水,而且蒸發掉的水帶走礦物質、得不斷補水與排污。dry cooler 走的是另一條路:純靠空氣與金屬管壁的對流,把熱直接交給室外空氣,水在封閉迴路裡循環、不蒸發、不外流。這就是為什麼換成 45°C 的封閉液冷迴路加 dry cooler,用水能從冷卻塔的量級一路掉到趨近零——少掉的那一大塊,正是冷卻塔本來要蒸發掉的水。前提仍是 dry cooler 撐得住,而撐不撐得住,回到室外氣溫。

NVIDIA 把這條路講得很直接:「In favorable climates, NVIDIA's 45-degree liquid-cooling architecture can enable chiller-less operation with dry coolers」——在有利氣候下,這套 45°C 架構可以做到 chiller-less 運轉。它還給了一個更具畫面的描述:在較溫暖的氣候,朝 45°C 冷卻水的轉變讓營運者「significantly closer to that chiller-less ideal — where chillers may turn on just a few days a year」,chiller 一年只在外氣熱到撐不住的少數幾天才需要開機。

這個機制不只是 NVIDIA 自己說。供應鏈裡實際做冷卻硬體的人也背書——Motivair(Schneider Electric 的進階冷卻部門)總裁兼 CEO Richard Whitmore 說:「In the right geographic location, with the right system design, you don't need any refrigeration equipment.」在對的地點、對的系統設計下,你完全不需要製冷設備。

但請留意這兩句話裡的條件子句。「In favorable climates」「In the right geographic location」「may turn on just a few days」——free cooling 能不能成立,高度綁定氣候與選址。台灣這種濕熱地帶,全年外氣溫度高、濕度大,能拿到的 free-cooling 窗口遠比北歐或內陸乾燥高原小。同一套 45°C 架構,蓋在不同緯度,省下來的電差很多。物理是對的,但「省多少」永遠跟著「在哪裡蓋」走。

為什麼風扇非拿光不可——hybrid 與 100% 液冷的那道坎

講完水溫,還剩一個問題:既然 GPU 和 CPU 是發熱大戶,為什麼不只幫它們上液冷、其餘元件繼續吹風扇就好?事實上上一代就是這麼做的。NVIDIA 自陳:「Previous liquid-cooled servers were hybrid: GPUs and CPUs got cold plates, but the rest of the system stayed air-cooled.」上一代是混血——GPU/CPU 有 cold plate,系統其餘部分還是風冷。

問題在於,只要機箱裡還留著一支風扇,就還需要一條送風路徑、還存在一段風冷熱阻,而且機房還是得供應一股夠涼的氣流去餵那些風扇。那股氣流哪裡來?多半還是得靠 chiller 或冷氣去調節。換句話說,留下任何風冷殘餘,就等於留下一條通往 chiller 的尾巴——free cooling 那套省電邏輯就打了折。要把 chiller 真正關到底,得把風扇徹底拿光。

這就是為什麼 Rubin 要做到「100% 液冷、系統內無風扇」。代價是工程量——那些原本靠風扇散熱的元件(網路交換、供電模組、記憶體周邊)全都得改成液冷介面。NVIDIA 講得很白:「In a fully liquid-cooled server, the cooling for these components needed to be completely redesigned to use liquid.」在全液冷伺服器裡,這些元件的散熱必須完全重新設計成液冷。這不是把幾片 cold plate 多貼幾塊就能了事,是整機機構的重做。

把這套方法收攏成可複製的做法,NVIDIA 放進了它的 DSX AI factory reference design——一份涵蓋整個 AI factory 從設計、建造到運轉的最佳實務指南。對要評估這條路的工程團隊來說,這份 reference design 是官方可追的出處,而不是一篇部落格的口頭主張。

下面這張圖把 hybrid 與 100% 液冷的熱路徑並排。左邊保留風冷殘餘——那段灰色的風冷熱阻,正是把機房拴在 chiller 上的尾巴;右邊全液冷、無風扇,整條路徑直通 dry cooler。

上一代 · hybrid GPU / CPU → cold plate → 水 其餘元件 → 風扇 → 空氣 風冷熱阻殘留 機房仍需供冷氣流 → chiller 仍要開 Rubin · 100% 液冷 所有晶片 → cold plate → 水 網路 / 供電 → 重設計成液冷 no fans 45°C 進 / 55°C 出 → dry cooler → chiller 幾乎可關
左路任何一段風冷殘餘,都會把機房拴回 chiller;右路拿光風扇後,熱從晶片一路直通室外 dry cooler。差別不在 GPU 怎麼冷,在「最後那段熱去了空氣還是水」。

哪些是物理、哪些是行銷——把三個漂亮數字拆開看

前面把機制講通了,現在用資深工程師的眼睛,把 NVIDIA 那幾個亮眼數字逐一掂量。物理層面站得住的,要敢承認;單一廠商在最佳條件下自算的,要標清楚。

第一個數字:水溫每升 1°C 約省 4% 冷卻能耗。這條最常被引用,但原文的措辭值得逐字看——「Industry estimates suggest that raising chiller plant temperatures by just one degree can cut cooling energy costs by about 4%」。注意三件事:這是「industry estimates」(業界估計,不是 NVIDIA 量測),用了「suggest」(暗示,不是斷定),數字是「about 4%」(約略值)。方向上它符合物理——水溫越高、chiller 負擔越輕、能耗越低——但 4% 這個係數是引述來的概數,不該被當成精確常數,也不是 NVIDIA 自家的實測。

第二個數字:50MW 廠房一年省超過 400 萬美元。原話是「A 50-megawatt hyperscale facility can save over $4 million annually in cooling-related energy and water costs」。這是 NVIDIA 自家算出來的,且用了「can save」——隱含最佳情境。它把冷卻能源與水費綁在一起算,量級看起來合理,但這是廠商給的估算,不是第三方審計過的帳。換個氣候、換個電價、換個負載率,數字就會動。

第三個數字:用水從每 MW 每年約 260 萬加侖降到趨近零,最多省 100%。原文是「reducing facility cooling water consumption from roughly 2.6 million gallons per megawatt per year ... to near zero — up to a 100% reduction in water use」。這裡的關鍵 hedge 是「up to」——「最多」省 100%。封閉液冷迴路加 dry cooler 確實能大幅減少甚至消除蒸發散熱的用水,這個物理是真的;但「100%」是上限、是天花板,不是常態。而且這整段的大前提仍是前面那句「In favorable climates」——換到不利氣候,dry cooler 撐不住、chiller 要回來,用水也就回來了。

把帳算清楚:可驗證的物理是——水比空氣會帶熱、ΔT 與熱阻決定散熱速率、水溫拉高讓 free cooling 的窗口變大、拿光風扇才能把 chiller 真正關掉。這幾條跟誰賣硬體無關,是熱力學。需要打折看的是——4%/°C 是引述的業界概估、$4M 與用水歸零是廠商在 favorable climate 下自算的最佳值。兩者都不假,但前者是物理、後者是條件嚴苛的行銷數字。讀供應商簡報時,把這兩疊分開放,是這篇真正想留給你的習慣。

還有一個容易被略過的點,值得替 NVIDIA 補上一句誠實話。整篇強調的省電,省的是「冷卻」這一段——chiller、風扇、水泵這些把熱搬走的開銷,業界用 PUE 衡量。它沒有、也不可能讓 GPU 本身少耗一瓦。一座 50MW 的廠,IT 設備本身的功耗才是大頭,冷卻只是其中一塊;液冷把冷卻那塊壓薄,是真本事,但別把它讀成「整廠用電大降」。合理的推測是,這套設計真正的戰略價值,不只在省下的電費,更在於:當每顆晶片的瓦數還在往上爬、風冷早已撞牆,唯有把整機泡進液冷、把機房從 chiller 解放出來,才撐得起下一代更密、更熱的算力堆疊。省電是順帶的好處,能不能繼續加密,才是這條路非走不可的理由。

Take-away:散熱要的不是把晶片泡冷,是把熱搬走——一旦想通這點,「用更溫的水」就從反直覺變成必然:水溫拉高,省的不是搬熱的電,是讓 chiller 整年可關的那筆電。剩下要做的,只是把 NVIDIA 的物理(真)和它的最佳情境數字(要看氣候)分開記。