人工智慧的爆發式成長正在從根本上重塑資料中心的面貌。當一座傳統機櫃的散熱密度為 5–10 kW 時,搭載 NVIDIA H100 或 B200 GPU 的 AI 運算機櫃可輕易達到 40–100 kW 甚至更高[1]。這意味著在同樣的機房面積內,空調系統需要移除的熱量增加了 5 至 10 倍。傳統的機房空調設計方法論已無法因應——AI 時代的機房空調,需要全新的思維。
一、AI 機房的散熱密度革命
資料中心的散熱密度演進可以清楚反映運算技術的變遷:
- 2000 年代:單機櫃 2–5 kW,以 CPU 伺服器為主,傳統高架地板下送風即可因應
- 2010 年代:單機櫃 5–15 kW,虛擬化與雲端運算帶動密度提升,冷熱通道封閉成為標配
- 2020 年代:單機櫃 20–100+ kW,GPU/TPU 加速器驅動 AI 訓練,傳統氣冷面臨物理極限[2]
以 NVIDIA DGX B200 系統為例,單一機櫃功耗可達 120 kW[3]。若以傳統下送風方式冷卻,所需的風量將使地板下靜壓箱的風速超過合理範圍,且機櫃內部的溫度梯度將難以控制。這正是液冷技術從「可選」變為「必要」的轉折點。
二、氣冷系統的極限與優化
氣冷仍是多數資料中心的主力散熱方式,在中低密度場景中具備成本與維護的優勢。但要因應不斷攀升的散熱密度,氣冷系統的設計必須更加精細[4]:
冷熱通道封閉(Aisle Containment)
冷熱通道封閉是提升氣冷效率最具性價比的手段。透過物理隔離冷空氣與排出的熱空氣,防止冷熱混合(Bypass Air 與 Recirculation),可將冷卻效率提升 20–30%[5]。熱通道封閉(Hot Aisle Containment)配合精密空調回風的方案,在實務上較冷通道封閉更為普及,因為它允許機房其餘空間維持在舒適的環境溫度。
列間空調(In-Row Cooling)
將精密空調機組直接安裝在機櫃列之間,大幅縮短送風路徑,減少風道損失。對於 15–30 kW/rack 的中高密度區域,列間空調是氣冷方案的上限選擇。但當密度超過 30 kW/rack,即使是列間空調也開始面臨風量與噪音的瓶頸。
提高送風溫度
ASHRAE TC 9.9 發布的《Data Processing Environments》指南[6]建議 A1 級設備的允許進風溫度範圍為 15–32°C。將送風溫度從傳統的 13–15°C 提升至 20–27°C,可大幅增加自然冷卻(Free Cooling)的可用時數,降低冷凍機的運轉負荷。Google 等超大規模業者的實踐證明,在適當的除濕控制下,27°C 的送風溫度是完全可行的[7]。
三、液冷技術:AI 機房的新標配
液冷(Liquid Cooling)利用液體遠高於空氣的比熱容與導熱係數,在更小的體積內移除更多熱量。水的體積比熱容約為空氣的 3,400 倍,這是液冷技術能突破氣冷物理極限的根本原因[8]。
直接液冷(Direct-to-Chip / Cold Plate)
將冷板(Cold Plate)直接貼合在 GPU/CPU 晶片表面,以循環冷卻液帶走熱量。這是目前 AI 機房最主流的液冷方案。NVIDIA 的 GB200 NVL72 機櫃即採用直接液冷設計,冷卻液溫度約 25–45°C[9]。
直接液冷的優勢在於精準——熱量在產生點就被帶走,無需經過空氣這個低效率的傳熱介質。但它也帶來新的工程挑戰:液體在 IT 設備內部的洩漏風險、冷卻液分配單元(CDU)的規劃、管路材質的相容性,以及施工品質的管控。
浸沒式液冷(Immersion Cooling)
將整個伺服器主板浸泡在不導電的介電冷卻液中,是散熱密度的終極解決方案。單相浸沒式冷卻使用如 3M Novec 或 Shell Immersion Fluid 等介電液體[10],可處理每機櫃 100 kW 以上的散熱需求。
浸沒式液冷幾乎消除了風扇的需求,噪音極低且能耗大幅下降。但其採用門檻較高:IT 設備的保固條件、維護流程的改變、冷卻液的成本與環保性,以及機房結構承重的考量(介電液密度約 1.2–1.8 kg/L),都是需要審慎評估的因素。
四、PUE 優化:從指標到實踐
PUE(Power Usage Effectiveness)是衡量資料中心能源效率的核心指標,定義為資料中心總電力消耗除以 IT 設備電力消耗[11]:
理想的 PUE 為 1.0(所有電力均用於運算),但實際上空調系統、UPS 損耗、照明等均會消耗額外電力。全球資料中心的平均 PUE 約為 1.55–1.60,而頂尖的超大規模資料中心可達 1.10 以下[12]。
影響 PUE 的空調相關因素包括:
- 自然冷卻(Free Cooling)比例:利用外氣或冷卻水塔在低溫季節直接冷卻,減少冷凍機運轉
- 冷凍機效率(kW/RT):高效磁懸浮或離心式冷凍機的 COP 可達 8–10
- 送風溫度策略:提高送風溫度增加自然冷卻時數
- 氣流管理品質:減少旁通與回流混合
然而,AI 機房的高功率密度反而可能有利於 PUE 優化。液冷系統的冷卻液溫度較高(30–45°C),使得廢熱回收(Waste Heat Recovery)變得更有價值——可用於建築物暖氣、農業溫室或工業製程,實現真正的循環經濟[13]。
五、台灣 AI 機房的在地挑戰
台灣作為全球半導體與 AI 硬體的核心生產基地,AI 運算機房的建設需求正快速增長。但台灣的地理與氣候條件帶來獨特的設計挑戰:
- 高溫高濕:全年較高的濕球溫度限制了冷卻水塔與自然冷卻的效率
- 電力供應:單一機房動輒數十 MW 的電力需求,對電網容量與備援電力提出考驗
- 地震與颱風:液冷管路的抗震設計與冷卻水塔的防颱措施需特別考量
- 用水限制:蒸發式冷卻系統的耗水量在部分地區可能面臨水資源限制
結語
AI 運算機房的空調設計,正從傳統的「排熱」思維轉向「熱管理」的系統工程。高密度散熱不再只是空調設備的升級問題,而是涵蓋建築設計、電力配置、冷卻技術選型、控制策略與永續經營的全面工程。隨著 AI 模型的參數量持續倍增、運算需求持續爆發,機房空調工程師必須走在技術的前沿,以創新的方案因應這場散熱革命。