llama.cpp 最近的 Windows 版本對本地大模型使用者更友好了。以前在 Windows 上跑 GGUF 模型,很多人卡在環境問題上:CUDA 版本不匹配、DLL 缺失、驅動不相容、CMake 編譯失敗、環境變數錯誤,或者 Vulkan / HIP / SYCL 設定太麻煩。
現在官方 Release 已經提供多種 Windows 預編譯包。很多場景下,使用者不再需要從源碼編譯,下載對應版本、解壓、放入模型文件後,就可以直接啟動本地推理服務。
llama.cpp 適合做什麼
llama.cpp 是目前最常用的本地 GGUF 模型推理框架之一。它的特點是輕量、跨平台,既能跑 CPU,也能利用 GPU,並且圍繞 GGUF 生態累積了大量模型資源。
常見模型路線包括:
- Qwen
- Llama
- DeepSeek
- Gemma
- Mistral
- Mixtral
- Hermes
隨著 GGUF 量化模型越來越普及,很多開源模型都會提供適合本地部署的 GGUF 版本。對普通使用者來說,llama.cpp 的價值主要在於:不用搭一整套複雜推理框架,也能在本機跑一個可用的聊天服務。
Windows 預編譯版本怎麼選
目前 Windows 使用者可以根據硬體選擇不同構建版本:
- Windows x64 CPU
- Windows x64 CUDA 12.4
- Windows x64 CUDA 13.1
- Windows x64 Vulkan
- Windows x64 HIP Radeon
- Windows x64 SYCL
- Windows ARM64 CPU
如果是 NVIDIA 顯卡,通常優先考慮 CUDA 版本。RTX 3060、4060、4070、4080、4090 這類顯卡都更適合走 CUDA 路線。
如果是 AMD 顯卡,可以嘗試 HIP 或 Vulkan。實際體驗裡,Vulkan 的相容性有時比 HIP 更省心,尤其適合不想折騰完整 ROCm 環境的使用者。
如果是 Intel 核顯或 Arc 獨顯,可以嘗試 SYCL 或 Vulkan。性能通常不如 NVIDIA CUDA 路線,但跑一些中小型 GGUF 模型已經足夠測試。
CPU 版本適合沒有獨顯、只是想驗證模型或跑小參數模型的使用者。速度不會太快,但部署最簡單。
啟動普通 GGUF 模型
假設你已經下載好 llama.cpp Windows 預編譯包,並把模型放到 models 目錄。進入 llama.cpp 解壓目錄後,可以用類似命令啟動:
|
|
這裡的 -m 指向 GGUF 模型文件,-ngl 999 表示盡量把模型層載入到 GPU。實際能載入多少,取決於顯存容量、模型大小和量化格式。
啟動成功後,在瀏覽器打開:
|
|
就可以進入本地網頁聊天介面。
如果顯存不足,可以換更小的模型,或者換更低量化版本,例如 Q4、Q5 這類 GGUF 文件。不要只看模型參數量,也要看量化格式和上下文長度設定。
啟動多模態視覺模型
多模態視覺模型通常不只需要一個主模型文件,還需要一個 mmproj 視覺投影文件。啟動時要同時指定主模型和 mmproj:
|
|
常見用途包括:
- OCR 識別
- 截圖理解
- 網頁截圖分析
- 圖片問答
- 簡單視覺內容判斷
例如 Qwen2-VL / Qwen2.5-VL 這類視覺模型,在中文截圖理解、OCR 和圖文問答上比較實用。使用時要注意主模型和 mmproj 文件是否匹配,版本不匹配很容易導致載入失敗或效果異常。
用 bat 腳本管理多個模型
如果本地同時放了多個模型,可以寫一個簡單的 .bat 腳本做選單切換。下面是一個示例,路徑和模型名需要改成你自己的:
|
|
保存時建議使用 UTF-8 編碼,再把文件後綴改成 .bat。這樣雙擊腳本後,就可以透過數字選擇不同模型。
模型選擇要看三件事
第一,看硬體。顯存越大,能跑的模型越大;顯存不足時,不要硬上大模型,可以先從 7B、8B 或更低量化版本開始。
第二,看用途。如果只是日常問答、總結、改寫,小模型和中等量化通常夠用。如果要做程式碼、長文件分析或多模態理解,就需要更強模型和更多顯存。
第三,看授權和安全邊界。網上有很多社群改版模型,能力、限制和授權都不一樣。下載前要確認來源、授權、適用場景和風險,不建議把生產任務直接交給來源不明的模型。
常見問題
如果啟動時報 DLL 缺失,先確認下載的包和顯卡路線是否匹配。例如 NVIDIA 使用者不要誤下載 HIP 版本,AMD 使用者也不要下載 CUDA 版本。
如果模型載入很慢,可能是模型太大、硬碟速度慢,或者顯存不足導致部分層回落到 CPU。
如果網頁打不開,先看命令列是否已經成功啟動服務,再確認端口是不是 8080。如果端口被佔用,可以查閱 llama-server 參數換端口。
如果多模態模型效果不對,優先檢查 mmproj 文件是否和主模型配套,而不是只換提示詞。
小結
這次 Windows 預編譯包的價值在於降低了本地 AI 的入門門檻。以前很多使用者卡在編譯和依賴環境,現在可以更快進入「下載模型、啟動服務、測試效果」的階段。
對 Windows 使用者來說,選擇路線可以簡單理解為:
- NVIDIA:優先 CUDA。
- AMD:優先嘗試 Vulkan,再看 HIP。
- Intel:嘗試 SYCL 或 Vulkan。
- 沒有獨顯:用 CPU 版本跑小模型。
真正使用前,仍然要確認模型來源、授權、顯存需求和實際效果。本地 AI 的好處是可控、離線、低延遲,但它不等於沒有成本:模型管理、硬體資源和輸出品質都需要自己負責。