llama.cpp b9196 更新:Windows 预编译版支持 CUDA 13.1、Vulkan、HIP 和 SYCL

整理 llama.cpp Windows 预编译版的使用思路:如何选择 CUDA、Vulkan、HIP、SYCL 版本,如何启动 GGUF 模型、多模态视觉模型,以及本地模型管理时需要注意的事项。

llama.cpp 最近的 Windows 版本对本地大模型用户更友好了。以前在 Windows 上跑 GGUF 模型,很多人卡在环境问题上:CUDA 版本不匹配、DLL 缺失、驱动不兼容、CMake 编译失败、环境变量错误,或者 Vulkan / HIP / SYCL 配置太麻烦。

现在官方 Release 已经提供多种 Windows 预编译包。很多场景下,用户不再需要从源码编译,下载对应版本、解压、放入模型文件后,就可以直接启动本地推理服务。

llama.cpp 适合做什么

llama.cpp 是目前最常用的本地 GGUF 模型推理框架之一。它的特点是轻量、跨平台,既能跑 CPU,也能利用 GPU,并且围绕 GGUF 生态积累了大量模型资源。

常见模型路线包括:

  • Qwen
  • Llama
  • DeepSeek
  • Gemma
  • Mistral
  • Mixtral
  • Hermes

随着 GGUF 量化模型越来越普及,很多开源模型都会提供适合本地部署的 GGUF 版本。对普通用户来说,llama.cpp 的价值主要在于:不用搭一整套复杂推理框架,也能在本机跑一个可用的聊天服务。

Windows 预编译版本怎么选

目前 Windows 用户可以根据硬件选择不同构建版本:

  • Windows x64 CPU
  • Windows x64 CUDA 12.4
  • Windows x64 CUDA 13.1
  • Windows x64 Vulkan
  • Windows x64 HIP Radeon
  • Windows x64 SYCL
  • Windows ARM64 CPU

如果是 NVIDIA 显卡,通常优先考虑 CUDA 版本。RTX 3060、4060、4070、4080、4090 这类显卡都更适合走 CUDA 路线。

如果是 AMD 显卡,可以尝试 HIP 或 Vulkan。实际体验里,Vulkan 的兼容性有时比 HIP 更省心,尤其适合不想折腾完整 ROCm 环境的用户。

如果是 Intel 核显或 Arc 独显,可以尝试 SYCL 或 Vulkan。性能通常不如 NVIDIA CUDA 路线,但跑一些中小型 GGUF 模型已经足够测试。

CPU 版本适合没有独显、只是想验证模型或跑小参数模型的用户。速度不会太快,但部署最简单。

启动普通 GGUF 模型

假设你已经下载好 llama.cpp Windows 预编译包,并把模型放到 models 目录。进入 llama.cpp 解压目录后,可以用类似命令启动:

1
llama-server.exe -m models\your-model.gguf -ngl 999

这里的 -m 指向 GGUF 模型文件,-ngl 999 表示尽量把模型层加载到 GPU。实际能加载多少,取决于显存容量、模型大小和量化格式。

启动成功后,在浏览器打开:

1
http://127.0.0.1:8080

就可以进入本地网页聊天界面。

如果显存不足,可以换更小的模型,或者换更低量化版本,例如 Q4、Q5 这类 GGUF 文件。不要只看模型参数量,也要看量化格式和上下文长度设置。

启动多模态视觉模型

多模态视觉模型通常不只需要一个主模型文件,还需要一个 mmproj 视觉投影文件。启动时要同时指定主模型和 mmproj

1
llama-server.exe -m "models\main-model.gguf" --mmproj "models\mmproj-model.gguf" -ngl 999

常见用途包括:

  • OCR 识别
  • 截图理解
  • 网页截图分析
  • 图片问答
  • 简单视觉内容判断

例如 Qwen2-VL / Qwen2.5-VL 这类视觉模型,在中文截图理解、OCR 和图文问答上比较实用。使用时要注意主模型和 mmproj 文件是否匹配,版本不匹配很容易导致加载失败或效果异常。

用 bat 脚本管理多个模型

如果本地同时放了多个模型,可以写一个简单的 .bat 脚本做菜单切换。下面是一个示例,路径和模型名需要改成你自己的:

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
@echo off
chcp 65001 >nul
cd /d C:\path\to\llama-b9196-bin-win-cuda-13.1-x64

echo 请选择模型:
echo 1. Gemma
echo 2. Qwen VL 多模态
echo 3. DeepSeek

set /p choice=输入数字:

if "%choice%"=="1" llama-server.exe -m "models\gemma.gguf" -ngl 999
if "%choice%"=="2" llama-server.exe -m "models\qwen-vl.gguf" --mmproj "models\mmproj.gguf" -ngl 999
if "%choice%"=="3" llama-server.exe -m "models\deepseek.gguf" -ngl 999

pause

保存时建议使用 UTF-8 编码,再把文件后缀改成 .bat。这样双击脚本后,就可以通过数字选择不同模型。

模型选择要看三件事

第一,看硬件。显存越大,能跑的模型越大;显存不足时,不要硬上大模型,可以先从 7B、8B 或更低量化版本开始。

第二,看用途。如果只是日常问答、总结、改写,小模型和中等量化通常够用。如果要做代码、长文档分析或多模态理解,就需要更强模型和更多显存。

第三,看许可证和安全边界。网上有很多社区改版模型,能力、限制和许可证都不一样。下载前要确认来源、授权、适用场景和风险,不建议把生产任务直接交给来源不明的模型。

常见问题

如果启动时报 DLL 缺失,先确认下载的包和显卡路线是否匹配。例如 NVIDIA 用户不要误下载 HIP 版本,AMD 用户也不要下载 CUDA 版本。

如果模型加载很慢,可能是模型太大、硬盘速度慢,或者显存不足导致部分层回落到 CPU。

如果网页打不开,先看命令行是否已经成功启动服务,再确认端口是不是 8080。如果端口被占用,可以查阅 llama-server 参数换端口。

如果多模态模型效果不对,优先检查 mmproj 文件是否和主模型配套,而不是只换提示词。

小结

这次 Windows 预编译包的价值在于降低了本地 AI 的入门门槛。以前很多用户卡在编译和依赖环境,现在可以更快进入“下载模型、启动服务、测试效果”的阶段。

对 Windows 用户来说,选择路线可以简单理解为:

  • NVIDIA:优先 CUDA。
  • AMD:优先尝试 Vulkan,再看 HIP。
  • Intel:尝试 SYCL 或 Vulkan。
  • 没有独显:用 CPU 版本跑小模型。

真正使用前,仍然要确认模型来源、许可证、显存需求和实际效果。本地 AI 的好处是可控、离线、低延迟,但它不等于没有成本:模型管理、硬件资源和输出质量都需要自己负责。

参考来源:https://www.freedidi.com/24211.html

记录并分享
使用 Hugo 构建
主题 StackJimmy 设计