llama.cpp b9196 更新:Windows 預編譯版支援 CUDA 13.1、Vulkan、HIP 和 SYCL

整理 llama.cpp Windows 預編譯版的使用思路:如何選擇 CUDA、Vulkan、HIP、SYCL 版本,如何啟動 GGUF 模型、多模態視覺模型,以及本地模型管理時需要注意的事項。

llama.cpp 最近的 Windows 版本對本地大模型使用者更友好了。以前在 Windows 上跑 GGUF 模型,很多人卡在環境問題上:CUDA 版本不匹配、DLL 缺失、驅動不相容、CMake 編譯失敗、環境變數錯誤,或者 Vulkan / HIP / SYCL 設定太麻煩。

現在官方 Release 已經提供多種 Windows 預編譯包。很多場景下,使用者不再需要從源碼編譯,下載對應版本、解壓、放入模型文件後,就可以直接啟動本地推理服務。

llama.cpp 適合做什麼

llama.cpp 是目前最常用的本地 GGUF 模型推理框架之一。它的特點是輕量、跨平台,既能跑 CPU,也能利用 GPU,並且圍繞 GGUF 生態累積了大量模型資源。

常見模型路線包括:

  • Qwen
  • Llama
  • DeepSeek
  • Gemma
  • Mistral
  • Mixtral
  • Hermes

隨著 GGUF 量化模型越來越普及,很多開源模型都會提供適合本地部署的 GGUF 版本。對普通使用者來說,llama.cpp 的價值主要在於:不用搭一整套複雜推理框架,也能在本機跑一個可用的聊天服務。

Windows 預編譯版本怎麼選

目前 Windows 使用者可以根據硬體選擇不同構建版本:

  • Windows x64 CPU
  • Windows x64 CUDA 12.4
  • Windows x64 CUDA 13.1
  • Windows x64 Vulkan
  • Windows x64 HIP Radeon
  • Windows x64 SYCL
  • Windows ARM64 CPU

如果是 NVIDIA 顯卡,通常優先考慮 CUDA 版本。RTX 3060、4060、4070、4080、4090 這類顯卡都更適合走 CUDA 路線。

如果是 AMD 顯卡,可以嘗試 HIP 或 Vulkan。實際體驗裡,Vulkan 的相容性有時比 HIP 更省心,尤其適合不想折騰完整 ROCm 環境的使用者。

如果是 Intel 核顯或 Arc 獨顯,可以嘗試 SYCL 或 Vulkan。性能通常不如 NVIDIA CUDA 路線,但跑一些中小型 GGUF 模型已經足夠測試。

CPU 版本適合沒有獨顯、只是想驗證模型或跑小參數模型的使用者。速度不會太快,但部署最簡單。

啟動普通 GGUF 模型

假設你已經下載好 llama.cpp Windows 預編譯包,並把模型放到 models 目錄。進入 llama.cpp 解壓目錄後,可以用類似命令啟動:

1
llama-server.exe -m models\your-model.gguf -ngl 999

這裡的 -m 指向 GGUF 模型文件,-ngl 999 表示盡量把模型層載入到 GPU。實際能載入多少,取決於顯存容量、模型大小和量化格式。

啟動成功後,在瀏覽器打開:

1
http://127.0.0.1:8080

就可以進入本地網頁聊天介面。

如果顯存不足,可以換更小的模型,或者換更低量化版本,例如 Q4、Q5 這類 GGUF 文件。不要只看模型參數量,也要看量化格式和上下文長度設定。

啟動多模態視覺模型

多模態視覺模型通常不只需要一個主模型文件,還需要一個 mmproj 視覺投影文件。啟動時要同時指定主模型和 mmproj

1
llama-server.exe -m "models\main-model.gguf" --mmproj "models\mmproj-model.gguf" -ngl 999

常見用途包括:

  • OCR 識別
  • 截圖理解
  • 網頁截圖分析
  • 圖片問答
  • 簡單視覺內容判斷

例如 Qwen2-VL / Qwen2.5-VL 這類視覺模型,在中文截圖理解、OCR 和圖文問答上比較實用。使用時要注意主模型和 mmproj 文件是否匹配,版本不匹配很容易導致載入失敗或效果異常。

用 bat 腳本管理多個模型

如果本地同時放了多個模型,可以寫一個簡單的 .bat 腳本做選單切換。下面是一個示例,路徑和模型名需要改成你自己的:

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
@echo off
chcp 65001 >nul
cd /d C:\path\to\llama-b9196-bin-win-cuda-13.1-x64

echo 请选择模型:
echo 1. Gemma
echo 2. Qwen VL 多模态
echo 3. DeepSeek

set /p choice=输入数字:

if "%choice%"=="1" llama-server.exe -m "models\gemma.gguf" -ngl 999
if "%choice%"=="2" llama-server.exe -m "models\qwen-vl.gguf" --mmproj "models\mmproj.gguf" -ngl 999
if "%choice%"=="3" llama-server.exe -m "models\deepseek.gguf" -ngl 999

pause

保存時建議使用 UTF-8 編碼,再把文件後綴改成 .bat。這樣雙擊腳本後,就可以透過數字選擇不同模型。

模型選擇要看三件事

第一,看硬體。顯存越大,能跑的模型越大;顯存不足時,不要硬上大模型,可以先從 7B、8B 或更低量化版本開始。

第二,看用途。如果只是日常問答、總結、改寫,小模型和中等量化通常夠用。如果要做程式碼、長文件分析或多模態理解,就需要更強模型和更多顯存。

第三,看授權和安全邊界。網上有很多社群改版模型,能力、限制和授權都不一樣。下載前要確認來源、授權、適用場景和風險,不建議把生產任務直接交給來源不明的模型。

常見問題

如果啟動時報 DLL 缺失,先確認下載的包和顯卡路線是否匹配。例如 NVIDIA 使用者不要誤下載 HIP 版本,AMD 使用者也不要下載 CUDA 版本。

如果模型載入很慢,可能是模型太大、硬碟速度慢,或者顯存不足導致部分層回落到 CPU。

如果網頁打不開,先看命令列是否已經成功啟動服務,再確認端口是不是 8080。如果端口被佔用,可以查閱 llama-server 參數換端口。

如果多模態模型效果不對,優先檢查 mmproj 文件是否和主模型配套,而不是只換提示詞。

小結

這次 Windows 預編譯包的價值在於降低了本地 AI 的入門門檻。以前很多使用者卡在編譯和依賴環境,現在可以更快進入「下載模型、啟動服務、測試效果」的階段。

對 Windows 使用者來說,選擇路線可以簡單理解為:

  • NVIDIA:優先 CUDA。
  • AMD:優先嘗試 Vulkan,再看 HIP。
  • Intel:嘗試 SYCL 或 Vulkan。
  • 沒有獨顯:用 CPU 版本跑小模型。

真正使用前,仍然要確認模型來源、授權、顯存需求和實際效果。本地 AI 的好處是可控、離線、低延遲,但它不等於沒有成本:模型管理、硬體資源和輸出品質都需要自己負責。

參考來源:https://www.freedidi.com/24211.html

记录并分享
使用 Hugo 建立
主題 StackJimmy 設計