聯想 HR630x / HR650x 折騰筆記:LGA3647、8259CL、Optane 與避坑

參考 HR630x 裝機日誌和 HR650x 踩坑記錄,整理聯想 HR630x / HR650x 這類 LGA3647 伺服器準系統的選購思路、CPU 與 Optane 搭配、VRM 解鎖、風扇調速、riser、背板和 BMC/UEFI 注意事項。

最近 LGA3647 平台的二手伺服器越來越便宜,聯想 HR630x / HR650x 這類雲端廠商退役機器也開始進入垃圾佬視野。它們的吸引力很明顯:雙路 Xeon Scalable、大量記憶體插槽、OCP 網卡、U.2 背板、IPMI 管理,再加上一些二代 Xeon OEM CPU 和 Optane PMem 的價格優勢,很容易讓人產生「千元級大算力平台」的衝動。

但這類機器並不是普通桌機升級。真正下手之前,需要先把幾個坑想清楚:主機板版本、CPU 世代、VRM 功耗限制、記憶體相容性、專用電源、風扇噪音、riser 稀缺、硬碟背板和硬碟托架價格、BMC 密碼,以及 BIOS 是否足夠新。

這篇按兩篇折騰記錄重新整理一版,重點不是復刻某一台機器的裝機過程,而是把 HR630x / HR650x 這條路線的取捨和坑點列清楚。

平台定位

HR630xHR650x 都屬於聯想面向 hyperscale 場景的 LGA3647 伺服器平台。簡單理解:

  • HR630x 是 1U 形態,機箱更薄,擴充空間更緊張。
  • HR650x 是 2U 形態,擴充、散熱和安裝空間相對寬鬆。
  • 兩者主機板資料有不少共通點,很多折騰經驗可以互相參考。
  • 這類機器常見來源是雲端廠商退役,價格便宜但配置組合不一定完整。

如果只是想要一台安靜、省電、放桌邊長期運行的小伺服器,它們不是最優解。如果目標是低成本取得雙路 Xeon、較多 PCIe、較多記憶體槽和遠端管理能力,那就很有吸引力。

準系統先看完整度

買這類準系統,價格不能只看裸機。真正影響總成本的是它缺了什麼。

需要重點確認:

  • 是否帶兩個 CPU 散熱器。
  • 風扇是否齊全。
  • 電源數量和功率是否夠用。
  • 是否帶 U.2 / 2.5 吋硬碟背板。
  • 是否有硬碟線材。
  • 是否帶硬碟托架。
  • 是否帶 PCIe riser。
  • OCP 網卡是否隨機器一起給。
  • 主機板是 24 條記憶體槽版本還是 16 條記憶體槽版本。

有些機器看起來便宜,但缺 riser、缺托架、缺背板或缺專用電源,後面補件可能比整機還折騰。尤其是 HR650x 的 riser、U.2 背板和硬碟托架,二手市場不一定好找,價格也未必便宜。

CPU:便宜的 8259CL 為什麼需要折騰

這類平台最常見的性價比玩法,是用二代 Xeon Scalable 的 OEM CPU,比如 Platinum 8259CL。它的優勢是價格低、核心執行緒多,並且屬於二代平台,可以搭配第一代 Optane 持久記憶體。

但便宜通常有原因。8259CL 屬於 OEM 型號,TDP 約 210W,比很多平台預設支援的 205W 限制高一點。這個差距看起來不大,但在部分主機板上會導致預設無法點亮,需要修改 VRM 控制器裡的電流或功耗相關限制。

常見做法是使用 MCP2221A 這類 USB-I2C 工具連接主機板上的 VRM I2C 介面,然後對 PXE1610C 等 VRM 控制器寫入新的限制值。參考案例中,HR630x / HR650x 平台可用的命令形式類似:

1
ModTool.exe -PXE1610C 74 76

這裡的重點不是照抄命令,而是先確認自己的主機板 VRM 型號、I2C 介面位置、SCLSDAGND 線序和位址。接錯線或者套錯平台命令,風險比 CPU 本身更大。

建議準備一顆亮機 CPU

如果機器到手後 BIOS 較舊,或者還沒做 VRM 修改,直接上 8259CL 可能沒有任何顯示。這時準備一顆便宜的一代 Xeon 作為亮機 CPU 會方便很多。

亮機 CPU 的用途主要是:

  • 進入 BIOS 檢查版本。
  • 升級 BIOS 和 BMC。
  • 確認主機板、記憶體、電源、風扇是否正常。
  • 在修改 VRM 前排除基礎硬體故障。

如果賣家已經升級過 BIOS,並且機器本身已經能點亮,那亮機 CPU 可能用不上。但對新手來說,它能顯著降低排錯難度。

Optane PMem 是這套平台的亮點

二代 Xeon Scalable 支援第一代 Intel Optane DC Persistent Memory,也就是常說的 DCPMM / PMem。它插在 DIMM 槽裡,可以在 BIOS 中配置成記憶體模式或持久化區塊裝置。

這也是 8259CL 這類二代 CPU 有吸引力的原因之一:當 DDR4 RDIMM / LRDIMM 大容量條價格上漲時,二手 Optane PMem 可能成為低成本堆容量的選擇。

不過 Optane 不是普通記憶體的完全替代品。需要注意:

  • 必須搭配支援 DCPMM 的二代 Xeon。
  • BIOS 需要支援並正確識別 Optane。
  • 通常仍需要 DRAM 作為快取或搭配使用。
  • 插槽位置和通道搭配要看聯想手冊。
  • 效能介於 DRAM 和 SSD 之間,不能按普通記憶體預期。
  • 可以配置 namespace,當作類似 /dev/pmem0 的區塊裝置使用。

如果目標是「低成本大容量記憶體體驗」,Optane 很有意思。如果目標是極致記憶體頻寬,少通道 Optane 組合就不一定合適。

記憶體槽版本和相容性

HR630x / HR650x 可能存在 24 槽和 16 槽版本。下單前最好讓賣家拍清楚主機板照片,不要只看標題。

記憶體方面,建議盡量一次買齊同品牌、同頻率、同容量、同 Rank 的條子。參考折騰記錄裡提到過混插導致識別不穩定、甚至需要調整 CPU 或記憶體位置才能識別的問題。

比較穩妥的原則是:

  • 優先按官方手冊插槽順序安裝。
  • 盡量不要混太多品牌和規格。
  • 不確定時先用最小配置點亮。
  • 雙路平台要分別驗證兩顆 CPU 對應的記憶體通道。
  • 使用 Optane 時尤其要核對 DRAM 和 PMem 的通道搭配。

伺服器記憶體不是「能插滿就一定能亮」。容量越大、條子越雜,排錯成本越高。

另外,記憶體不能隨便插。聯想官方文件裡對獨立模式下的 DIMM 安裝順序有明確要求,建議裝機前先按手冊核對槽位,再從最小可啟動配置逐步擴展。尤其是雙路、混合容量、混合 Rank 或搭配 Optane PMem 時,錯誤插法可能導致不開機、少識別記憶體,或者只識別某一顆 CPU 對應的通道。

風扇和噪音不能低估

這類機器原本不是為臥室、書房設計的。1U 的 HR630x 尤其明顯,風扇轉速高、噪音尖銳,開機預設策略可能非常保守。

參考裝機記錄中,機器預設風扇轉速很高,需要透過 IPMI / CLI 調速才能把噪音壓下來。調速後待機可以明顯安靜一些,但滿載雙路高功耗 CPU 時仍然需要保證足夠風量。

調風扇時要同時看:

  • CPU 溫度。
  • VRM 溫度。
  • PCH 溫度。
  • 記憶體溫度。
  • 電源溫度。
  • 進風和出風溫度。

不要只看 CPU。伺服器主機板上很多晶片依賴整機風道散熱,風扇降太狠可能 CPU 沒事,PCH、VRM 或網卡先熱出問題。

修改風扇轉速

HR650x / HR630x 的風扇可以透過 IPMI raw 命令調速。社群腳本裡使用的命令格式是:

1
ipmitool -I lanplus -H <BMC_IP> -U <USER> -P '<PASSWORD>' raw 0x2e 0x30 00 00 <SPEED>

其中 <SPEED> 可以理解成目標風扇百分比,例如:

1
2
3
4
5
6
7
8
# 設定為 10%
ipmitool -I lanplus -H 192.168.1.100 -U ADMIN -P 'password' raw 0x2e 0x30 00 00 10

# 設定為 35%
ipmitool -I lanplus -H 192.168.1.100 -U ADMIN -P 'password' raw 0x2e 0x30 00 00 35

# 設定為 100%,用於測試滿速或高溫兜底
ipmitool -I lanplus -H 192.168.1.100 -U ADMIN -P 'password' raw 0x2e 0x30 00 00 100

如果是在伺服器本機系統裡執行,並且已經載入 IPMI 相關核心模組,也可以不走 BMC 網路,直接執行:

1
ipmitool raw 0x2e 0x30 00 00 20

調速前先確認 ipmitool 能讀到感測器:

1
2
ipmitool -I lanplus -H <BMC_IP> -U <USER> -P '<PASSWORD>' sensor
ipmitool -I lanplus -H <BMC_IP> -U <USER> -P '<PASSWORD>' sdr

如果本機執行 ipmitool 報找不到介面,Linux 下可以先載入這些模組:

1
2
3
modprobe ipmi_devintf
modprobe ipmi_msghandler
modprobe ipmi_si

比較穩的做法不是固定一個很低的轉速,而是按 CPU 溫度分檔。比如可以參考下面這個策略:

1
2
3
4
5
6
CPU 低於 40℃:10%
CPU 40℃ 到 45℃:14%
CPU 45℃ 到 50℃:20%
CPU 50℃ 到 60℃:50%
CPU 60℃ 到 80℃:80%
CPU 高於 80℃:100%

這類策略可以用 shell、Python 或 systemd timer 做成循環腳本,每隔幾秒讀取一次 CPU 溫度,再寫入對應風扇百分比。社群的 HR650X-IPMI-Auto-Fan 腳本就是這個思路。

手動調速時建議先從保守值開始,例如待機先試 20%,確認 CPU、PCH、VRM、記憶體、網卡和電源溫度都穩定後,再逐步降到 14%10%。滿載測試時不要一開始就用低轉速,先用 50% 以上確認散熱餘量,再慢慢找噪音和溫度的平衡點。

需要注意,IPMI raw 命令屬於廠商 OEM 命令,不同 BMC 韌體版本可能存在差異。執行前最好確認目前機器能正常讀取感測器,並保留一個能立刻切回高轉速的命令視窗。如果溫度讀數異常、感測器顯示 na,或者風扇轉速沒有按預期變化,就不要繼續壓低轉速。

電源、riser、背板和硬碟托架

HR650x 的一個大坑是電源介面和很多擴充件並不通用。電源是聯想專用形態,壞了或缺了以後補件成本不低。

riser 也要提前確認。不同 riser 支援的卡位組合不同,例如全高全長、全高半長、半高半長等。如果後續計畫插 GPU、HBA、25G/40G 網卡或 NVMe 轉接卡,買機器時就要確認 riser 是否匹配。

硬碟背板同樣有多種配置。常見會看到 2U.2、4U.2、8U.2 或 2.5 吋盤位背板。背板、線材、硬碟托架、陣列卡或 HBA 都可能額外花錢。

比較現實的建議是:如果你只是想點亮跑計算,先別急著補齊所有托架和背板;如果目標是全快閃儲存或高擴充,購買準系統時就要把這些配件算進總預算。

BMC、BIOS 和管理

雲端廠商退役機器經常會遇到 BMC 密碼未知的問題。如果能進 BIOS,通常可以在 BIOS 裡新建或重置管理使用者;如果已經能進系統,也可以透過 ipmitool 處理 BMC 使用者。

BIOS 和 BMC 建議盡量升級到較新的穩定版本,原因有三點:

  • 支援更多二代 Xeon 型號。
  • 提高 Optane PMem 識別和管理能力。
  • 修復 BMC、風扇策略或硬體相容性問題。

參考資料中提到,HR630x / HR650x 使用 8259CL 和 Optane 時可能需要更新 BIOS。不同機器批次不一樣,有些賣家已經升級好,有些則需要自己處理。

HR650x 的 BIOS 和 BMC 下載可以從聯想支援頁面進入,對應參考連結如下:

1
https://datacentersupport.lenovo.com/cn/zc/products/servers/thinksystem-hyperscale/hr650x/7x57/7x57cto1ww/j300cvx2/downloads/driver-list/

另外,HR650x 支援 Above 4G Decoding,但 Resizable BAR 支援情況並不理想。想插大顯存 GPU 或做顯卡計算時,需要先確認 BIOS 選項和電源線方案。

適合什麼人

比較適合折騰這類機器的人:

  • 需要便宜的大量 x86 執行緒。
  • 能接受待機功耗和噪音。
  • 有空間放機架伺服器。
  • 願意查手冊、看主機板絲印、用萬用表排線。
  • 能接受二手平台的配件不確定性。
  • 對 IPMI、BIOS、VRM、DCPMM 有一定排錯耐心。

不太適合的人:

  • 只想要一台安靜 NAS。
  • 希望低功耗 7x24 小主機。
  • 不想處理 BMC、風扇、riser、背板、專用電源。
  • 沒有備用 CPU、備用記憶體或基礎排錯工具。
  • 無法接受買回來還要刷 BIOS、改 VRM、調風扇。

小結

HR630x / HR650x 的核心價值,是用很低的二手價格拿到 LGA3647 雙路伺服器平台,再搭配 8259CL 這類便宜二代 Xeon 和 Optane PMem,做出一台執行緒數、記憶體容量和遠端管理能力都很可觀的 HomeLab 計算節點。

但它的坑也很明確:預設不一定支援高功耗 OEM CPU,可能要用 MCP2221A 改 VRM;記憶體槽版本和相容性要確認;風扇噪音和待機功耗不能按家用機預期;riser、背板、硬碟托架、電源都可能成為額外成本。

如果預算非常緊,又願意折騰,它是一條很有趣的路線。如果只是想穩定、省心、安靜,最好先把整機功耗、噪音、配件完整度和後續維護成本算清楚,再決定要不要上車。

參考連結

记录并分享
使用 Hugo 建立
主題 StackJimmy 設計