llama.cpp b9196 更新：Windows 預編譯版支援 CUDA 13.1、Vulkan、HIP 和 SYCL

llama.cpp 最近的 Windows 版本對本地大模型使用者更友好了。以前在 Windows 上跑 GGUF 模型，很多人卡在環境問題上：CUDA 版本不匹配、DLL 缺失、驅動不相容、CMake 編譯失敗、環境變數錯誤，或者 Vulkan / HIP / SYCL 設定太麻煩。

現在官方 Release 已經提供多種 Windows 預編譯包。很多場景下，使用者不再需要從源碼編譯，下載對應版本、解壓、放入模型文件後，就可以直接啟動本地推理服務。

llama.cpp 適合做什麼

llama.cpp 是目前最常用的本地 GGUF 模型推理框架之一。它的特點是輕量、跨平台，既能跑 CPU，也能利用 GPU，並且圍繞 GGUF 生態累積了大量模型資源。

常見模型路線包括：

Qwen
Llama
DeepSeek
Gemma
Mistral
Mixtral
Hermes

隨著 GGUF 量化模型越來越普及，很多開源模型都會提供適合本地部署的 GGUF 版本。對普通使用者來說，llama.cpp 的價值主要在於：不用搭一整套複雜推理框架，也能在本機跑一個可用的聊天服務。

Windows 預編譯版本怎麼選

目前 Windows 使用者可以根據硬體選擇不同構建版本：

Windows x64 CPU
Windows x64 CUDA 12.4
Windows x64 CUDA 13.1
Windows x64 Vulkan
Windows x64 HIP Radeon
Windows x64 SYCL
Windows ARM64 CPU

如果是 NVIDIA 顯卡，通常優先考慮 CUDA 版本。RTX 3060、4060、4070、4080、4090 這類顯卡都更適合走 CUDA 路線。

如果是 AMD 顯卡，可以嘗試 HIP 或 Vulkan。實際體驗裡，Vulkan 的相容性有時比 HIP 更省心，尤其適合不想折騰完整 ROCm 環境的使用者。

如果是 Intel 核顯或 Arc 獨顯，可以嘗試 SYCL 或 Vulkan。性能通常不如 NVIDIA CUDA 路線，但跑一些中小型 GGUF 模型已經足夠測試。

CPU 版本適合沒有獨顯、只是想驗證模型或跑小參數模型的使用者。速度不會太快，但部署最簡單。

啟動普通 GGUF 模型

假設你已經下載好 llama.cpp Windows 預編譯包，並把模型放到 models 目錄。進入 llama.cpp 解壓目錄後，可以用類似命令啟動：

1

llama-server.exe -m models\your-model.gguf -ngl 999

這裡的 -m 指向 GGUF 模型文件，-ngl 999 表示盡量把模型層載入到 GPU。實際能載入多少，取決於顯存容量、模型大小和量化格式。

啟動成功後，在瀏覽器打開：

1

http://127.0.0.1:8080

就可以進入本地網頁聊天介面。

如果顯存不足，可以換更小的模型，或者換更低量化版本，例如 Q4、Q5 這類 GGUF 文件。不要只看模型參數量，也要看量化格式和上下文長度設定。

啟動多模態視覺模型

多模態視覺模型通常不只需要一個主模型文件，還需要一個 mmproj 視覺投影文件。啟動時要同時指定主模型和 mmproj：

1

llama-server.exe -m "models\main-model.gguf" --mmproj "models\mmproj-model.gguf" -ngl 999

常見用途包括：

OCR 識別
截圖理解
網頁截圖分析
圖片問答
簡單視覺內容判斷

例如 Qwen2-VL / Qwen2.5-VL 這類視覺模型，在中文截圖理解、OCR 和圖文問答上比較實用。使用時要注意主模型和 mmproj 文件是否匹配，版本不匹配很容易導致載入失敗或效果異常。

用 bat 腳本管理多個模型

如果本地同時放了多個模型，可以寫一個簡單的 .bat 腳本做選單切換。下面是一個示例，路徑和模型名需要改成你自己的：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16


@echo off
chcp 65001 >nul
cd /d C:\path\to\llama-b9196-bin-win-cuda-13.1-x64

echo 请选择模型：
echo 1. Gemma
echo 2. Qwen VL 多模态
echo 3. DeepSeek

set /p choice=输入数字：

if "%choice%"=="1" llama-server.exe -m "models\gemma.gguf" -ngl 999
if "%choice%"=="2" llama-server.exe -m "models\qwen-vl.gguf" --mmproj "models\mmproj.gguf" -ngl 999
if "%choice%"=="3" llama-server.exe -m "models\deepseek.gguf" -ngl 999

pause

保存時建議使用 UTF-8 編碼，再把文件後綴改成 .bat。這樣雙擊腳本後，就可以透過數字選擇不同模型。

模型選擇要看三件事

第一，看硬體。顯存越大，能跑的模型越大；顯存不足時，不要硬上大模型，可以先從 7B、8B 或更低量化版本開始。

第二，看用途。如果只是日常問答、總結、改寫，小模型和中等量化通常夠用。如果要做程式碼、長文件分析或多模態理解，就需要更強模型和更多顯存。

第三，看授權和安全邊界。網上有很多社群改版模型，能力、限制和授權都不一樣。下載前要確認來源、授權、適用場景和風險，不建議把生產任務直接交給來源不明的模型。

常見問題

如果啟動時報 DLL 缺失，先確認下載的包和顯卡路線是否匹配。例如 NVIDIA 使用者不要誤下載 HIP 版本，AMD 使用者也不要下載 CUDA 版本。

如果模型載入很慢，可能是模型太大、硬碟速度慢，或者顯存不足導致部分層回落到 CPU。

如果網頁打不開，先看命令列是否已經成功啟動服務，再確認端口是不是 8080。如果端口被佔用，可以查閱 llama-server 參數換端口。

如果多模態模型效果不對，優先檢查 mmproj 文件是否和主模型配套，而不是只換提示詞。

小結

這次 Windows 預編譯包的價值在於降低了本地 AI 的入門門檻。以前很多使用者卡在編譯和依賴環境，現在可以更快進入「下載模型、啟動服務、測試效果」的階段。

對 Windows 使用者來說，選擇路線可以簡單理解為：

NVIDIA：優先 CUDA。
AMD：優先嘗試 Vulkan，再看 HIP。
Intel：嘗試 SYCL 或 Vulkan。
沒有獨顯：用 CPU 版本跑小模型。

真正使用前，仍然要確認模型來源、授權、顯存需求和實際效果。本地 AI 的好處是可控、離線、低延遲，但它不等於沒有成本：模型管理、硬體資源和輸出品質都需要自己負責。

參考來源：https://www.freedidi.com/24211.html