llama-cli -hf 下载 Hugging Face 模型默认保存在哪里

如果你使用的是 llama-cli 直接从 Hugging Face 下载并运行模型，例如：

1

llama-cli -hf unsloth/gemma-4-E4B-it-GGUF

这是 llama.cpp 自带的 Hugging Face 下载能力。新版 llama.cpp 会把 -hf 下载的模型放进标准 Hugging Face Hub 缓存目录。

默认缓存位置

llama-cli -hf 下载的模型缓存位置优先由 LLAMA_CACHE 环境变量控制。如果没有设置 LLAMA_CACHE，则会继续检查 Hugging Face 相关缓存变量，例如 HF_HUB_CACHE、HUGGINGFACE_HUB_CACHE 和 HF_HOME。

如果这些变量都没有设置，常见默认路径如下：

系统	默认缓存目录
Linux	`~/.cache/huggingface/hub`
macOS	`~/.cache/huggingface/hub`
Windows	`%USERPROFILE%\.cache\huggingface\hub`

在 Windows 上，%USERPROFILE% 通常对应：

1

C:\Users\用户名

所以默认缓存目录大致是：

1

C:\Users\用户名\.cache\huggingface\hub

想修改 llama-cli 的缓存目录怎么办

可以设置 LLAMA_CACHE，把模型缓存放到指定磁盘或目录。也可以按 Hugging Face 的习惯设置 HF_HOME，此时实际 Hub 缓存目录会是 $HF_HOME/hub。

Windows 临时设置示例：

1
2


set LLAMA_CACHE=D:\models\llama-cache
llama-cli -hf unsloth/gemma-4-E4B-it-GGUF

PowerShell 临时设置示例：

1
2


$env:LLAMA_CACHE="D:\models\llama-cache"
llama-cli -hf unsloth/gemma-4-E4B-it-GGUF

Linux / macOS 临时设置示例：

1
2


export LLAMA_CACHE=/data/models/llama-cache
llama-cli -hf unsloth/gemma-4-E4B-it-GGUF

小结

llama-cli -hf ... 使用的是 llama.cpp 下载逻辑，但新版默认落到 Hugging Face Hub 缓存。
Linux / macOS 默认：~/.cache/huggingface/hub
Windows 默认：%USERPROFILE%\.cache\huggingface\hub
想换目录：设置 LLAMA_CACHE，或设置 HF_HOME / HF_HUB_CACHE