llama.cpp b9196 更新：Windows 预编译版支持 CUDA 13.1、Vulkan、HIP 和 SYCL

llama.cpp 最近的 Windows 版本对本地大模型用户更友好了。以前在 Windows 上跑 GGUF 模型，很多人卡在环境问题上：CUDA 版本不匹配、DLL 缺失、驱动不兼容、CMake 编译失败、环境变量错误，或者 Vulkan / HIP / SYCL 配置太麻烦。

现在官方 Release 已经提供多种 Windows 预编译包。很多场景下，用户不再需要从源码编译，下载对应版本、解压、放入模型文件后，就可以直接启动本地推理服务。

llama.cpp 适合做什么

llama.cpp 是目前最常用的本地 GGUF 模型推理框架之一。它的特点是轻量、跨平台，既能跑 CPU，也能利用 GPU，并且围绕 GGUF 生态积累了大量模型资源。

常见模型路线包括：

Qwen
Llama
DeepSeek
Gemma
Mistral
Mixtral
Hermes

随着 GGUF 量化模型越来越普及，很多开源模型都会提供适合本地部署的 GGUF 版本。对普通用户来说，llama.cpp 的价值主要在于：不用搭一整套复杂推理框架，也能在本机跑一个可用的聊天服务。

Windows 预编译版本怎么选

目前 Windows 用户可以根据硬件选择不同构建版本：

Windows x64 CPU
Windows x64 CUDA 12.4
Windows x64 CUDA 13.1
Windows x64 Vulkan
Windows x64 HIP Radeon
Windows x64 SYCL
Windows ARM64 CPU

如果是 NVIDIA 显卡，通常优先考虑 CUDA 版本。RTX 3060、4060、4070、4080、4090 这类显卡都更适合走 CUDA 路线。

如果是 AMD 显卡，可以尝试 HIP 或 Vulkan。实际体验里，Vulkan 的兼容性有时比 HIP 更省心，尤其适合不想折腾完整 ROCm 环境的用户。

如果是 Intel 核显或 Arc 独显，可以尝试 SYCL 或 Vulkan。性能通常不如 NVIDIA CUDA 路线，但跑一些中小型 GGUF 模型已经足够测试。

CPU 版本适合没有独显、只是想验证模型或跑小参数模型的用户。速度不会太快，但部署最简单。

启动普通 GGUF 模型

假设你已经下载好 llama.cpp Windows 预编译包，并把模型放到 models 目录。进入 llama.cpp 解压目录后，可以用类似命令启动：

1

llama-server.exe -m models\your-model.gguf -ngl 999

这里的 -m 指向 GGUF 模型文件，-ngl 999 表示尽量把模型层加载到 GPU。实际能加载多少，取决于显存容量、模型大小和量化格式。

启动成功后，在浏览器打开：

1

http://127.0.0.1:8080

就可以进入本地网页聊天界面。

如果显存不足，可以换更小的模型，或者换更低量化版本，例如 Q4、Q5 这类 GGUF 文件。不要只看模型参数量，也要看量化格式和上下文长度设置。

启动多模态视觉模型

多模态视觉模型通常不只需要一个主模型文件，还需要一个 mmproj 视觉投影文件。启动时要同时指定主模型和 mmproj：

1

llama-server.exe -m "models\main-model.gguf" --mmproj "models\mmproj-model.gguf" -ngl 999

常见用途包括：

OCR 识别
截图理解
网页截图分析
图片问答
简单视觉内容判断

例如 Qwen2-VL / Qwen2.5-VL 这类视觉模型，在中文截图理解、OCR 和图文问答上比较实用。使用时要注意主模型和 mmproj 文件是否匹配，版本不匹配很容易导致加载失败或效果异常。

用 bat 脚本管理多个模型

如果本地同时放了多个模型，可以写一个简单的 .bat 脚本做菜单切换。下面是一个示例，路径和模型名需要改成你自己的：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16


@echo off
chcp 65001 >nul
cd /d C:\path\to\llama-b9196-bin-win-cuda-13.1-x64

echo 请选择模型：
echo 1. Gemma
echo 2. Qwen VL 多模态
echo 3. DeepSeek

set /p choice=输入数字：

if "%choice%"=="1" llama-server.exe -m "models\gemma.gguf" -ngl 999
if "%choice%"=="2" llama-server.exe -m "models\qwen-vl.gguf" --mmproj "models\mmproj.gguf" -ngl 999
if "%choice%"=="3" llama-server.exe -m "models\deepseek.gguf" -ngl 999

pause

保存时建议使用 UTF-8 编码，再把文件后缀改成 .bat。这样双击脚本后，就可以通过数字选择不同模型。

模型选择要看三件事

第一，看硬件。显存越大，能跑的模型越大；显存不足时，不要硬上大模型，可以先从 7B、8B 或更低量化版本开始。

第二，看用途。如果只是日常问答、总结、改写，小模型和中等量化通常够用。如果要做代码、长文档分析或多模态理解，就需要更强模型和更多显存。

第三，看许可证和安全边界。网上有很多社区改版模型，能力、限制和许可证都不一样。下载前要确认来源、授权、适用场景和风险，不建议把生产任务直接交给来源不明的模型。

常见问题

如果启动时报 DLL 缺失，先确认下载的包和显卡路线是否匹配。例如 NVIDIA 用户不要误下载 HIP 版本，AMD 用户也不要下载 CUDA 版本。

如果模型加载很慢，可能是模型太大、硬盘速度慢，或者显存不足导致部分层回落到 CPU。

如果网页打不开，先看命令行是否已经成功启动服务，再确认端口是不是 8080。如果端口被占用，可以查阅 llama-server 参数换端口。

如果多模态模型效果不对，优先检查 mmproj 文件是否和主模型配套，而不是只换提示词。

小结

这次 Windows 预编译包的价值在于降低了本地 AI 的入门门槛。以前很多用户卡在编译和依赖环境，现在可以更快进入“下载模型、启动服务、测试效果”的阶段。

对 Windows 用户来说，选择路线可以简单理解为：

NVIDIA：优先 CUDA。
AMD：优先尝试 Vulkan，再看 HIP。
Intel：尝试 SYCL 或 Vulkan。
没有独显：用 CPU 版本跑小模型。

真正使用前，仍然要确认模型来源、许可证、显存需求和实际效果。本地 AI 的好处是可控、离线、低延迟，但它不等于没有成本：模型管理、硬件资源和输出质量都需要自己负责。

参考来源：https://www.freedidi.com/24211.html