過去兩年,AI 基礎設施的討論大多集中在 GPU、HBM、先進封裝和電力供應上。但在訓練與推理系統背後,還有一個更容易被忽略的瓶頸:儲存。
大模型不是只在顯示卡裡完成一次計算就結束。訓練過程會不斷產生 checkpoint、最佳化器狀態、訓練日誌、資料版本和中間結果;推理階段也會產生使用者互動紀錄、合規留存、稽核資料和系統日誌。這些資料不一定都要放在最快的介質上,但往往不能立刻刪除。
這就是機械硬碟重新變重要的原因。
AI 訓練會製造大量冷資料
大模型訓練需要定期保存 checkpoint。它可以理解成訓練過程中的存檔點:如果訓練中途崩潰,系統可以從某個 checkpoint 恢復,而不是從頭重跑。
對大模型來說,一個 checkpoint 可能就是數 TB。一次完整訓練持續數週甚至數月,中間可能保存大量 checkpoint。即便後續會清理一部分,訓練過程、回溯、復現實驗和模型稽核仍然需要保留大量資料。
除了 checkpoint,訓練資料本身也在膨脹。高品質文字、圖片、影片、程式碼資料需要清洗、去重、切分和版本管理。隨著合成資料、強化學習資料和多模態資料進入訓練流程,儲存壓力會繼續增加。
這些資料的特點是:
- 容量巨大;
- 不一定高頻存取;
- 需要長期保留;
- 對單位容量成本非常敏感。
這類資料並不適合全部放在昂貴的高速儲存裡。
為什麼不是全部用 SSD
SSD 的速度明顯更快,但資料中心不能只看速度。對於 PB 級甚至更大規模的冷資料,單位容量成本會直接決定系統是否可持續。
AI 叢集裡可以把儲存分成幾個層級:
- HBM 和顯示記憶體負責最熱、最緊急的資料;
- DRAM 負責臨時周轉;
- SSD 負責高頻存取、低延遲需求更強的資料;
- HDD 負責海量冷資料、備份、日誌、checkpoint 歸檔和長期留存。
換句話說,SSD 不是不重要,而是不能替代所有層級。真正的大規模系統往往需要分層儲存:熱資料追求速度,冷資料追求容量、成本和可靠性。
當 AI 公司開始長期保存訓練殘留、模型版本、合成資料、推理日誌和稽核紀錄時,HDD 的價值就重新被放大了。
機械硬碟產能為什麼會緊張
機械硬碟市場過去多年成長並不亮眼,消費端電腦也越來越多轉向 SSD。但資料中心的需求邏輯不同。
雲端廠商和 AI 公司需要的是大容量、可預測交付、單位 TB 成本低的近線硬碟。對硬碟廠商來說,這類客戶通常會簽長期供貨協議,優先級也高於零散消費市場。
這會帶來幾個結果:
- 高容量企業碟產能被大客戶提前鎖定。
- 消費級硬碟和一般通路能分到的供應變少。
- 新產能釋放需要時間,短期內很難快速補上。
- 機械硬碟從過去的低關注度硬體,變成 AI 基礎設施的一部分。
更關鍵的是,機械硬碟產業本身已經高度集中。主流供應商數量有限,先進大容量硬碟的產能爬坡也不是簡單擴廠就能立刻完成。HAMR 等新技術可以提高單碟容量,但從技術量產到穩定大規模交付仍然需要週期。
儲存漲價會傳導到消費端
AI 資料中心吸走的不只是 GPU 和電力,也會影響儲存供應鏈。
當企業級 SSD、記憶體、機械硬碟的產能更多流向雲端廠商和 AI 基礎設施,消費級市場就可能感受到價格壓力。一般使用者看到的 SSD、記憶體或硬碟漲價,不一定只是零售端波動,而可能來自上游產能重新分配。
這種影響通常不是線性的。大客戶簽的是長期協議,價格、交付和產能安排更穩定;消費端則更容易承受現貨市場波動。於是就會出現一種現象:AI 資料中心需求成長,最終讓一般消費者買儲存設備也變貴。
投資視角需要更謹慎
AI 對儲存的拉動是真實的,但這不等於所有儲存相關公司都會長期受益。
機械硬碟和快閃記憶體仍然有週期屬性。價格上漲、產能緊張和客戶長約會改善短期業績,但一旦新產能釋放、需求增速放緩,產業仍可能回到供需再平衡。對硬體公司來說,最需要關注的不是某一次漲價,而是需求是否能持續、毛利率是否改善、產能擴張是否過度,以及客戶結構是否足夠健康。
更穩妥的理解是:AI 正在改變儲存產業的需求結構。過去外界更關注算力,現在越來越多成本會轉向資料保存、資料治理和模型生命週期管理。
結論
AI 不是只消耗算力,它還持續製造資料。
GPU 負責計算,HBM 負責高速餵資料,SSD 負責熱資料存取,而機械硬碟負責承接龐大的冷資料底座。只要大模型訓練、合成資料、推理日誌和合規留存繼續成長,資料中心就需要大量低成本、高容量的儲存介質。
機械硬碟看起來不像 AI 時代的明星硬體,但它正在變成 AI 基礎設施裡不可或缺的一層。越先進的模型,越離不開龐大的儲存系統;越昂貴的算力,越需要可靠的 checkpoint 和歸檔能力來保護已經投入的成本。