faster-whisper 是 SYSTRAN 维护的 Whisper 推理实现。它用 CTranslate2 作为后端,在保持 Whisper 使用方式接近的同时,把推理速度、显存占用和部署灵活性做得更适合工程场景。
如果你已经用过 openai/whisper,可以把 faster-whisper 理解成一个更偏生产环境的替代方案:接口仍然围绕模型加载、音频转写、分段结果展开,但底层执行效率更高,也更容易按 CPU、GPU、量化和批处理策略做取舍。
它解决什么问题
Whisper 的效果很好,但原版实现直接部署时经常会遇到几个问题:
- 长音频转写耗时明显。
- GPU 显存占用偏高。
- CPU 环境可用,但速度不一定理想。
- 批量处理大量音视频时,吞吐不容易压上去。
faster-whisper 主要就是围绕这些问题做优化。项目 README 中说明,在相同精度下,它可以比 openai/whisper 快到 4 倍,并且内存占用更低;如果使用 8-bit 量化,速度还可以进一步提升。
安装
常规 Python 环境里可以直接安装:
|
|
如果要使用 GPU,需要确认本机 CUDA、cuDNN 与 CTranslate2 版本匹配。这里最容易踩坑的是显卡驱动和 CUDA 运行时版本不一致:代码本身可能没问题,但运行时会在加载模型或首次推理时失败。
基本用法
最小示例很直接:
|
|
这里有几个关键参数:
| 参数 | 作用 |
|---|---|
model_size |
选择 Whisper 模型规格,例如 small、medium、large-v3 |
device |
推理设备,常见值是 cuda 或 cpu |
compute_type |
计算精度,例如 float16、int8_float16、int8 |
beam_size |
解码搜索宽度,通常越大越稳,但速度越慢 |
如果你的目标是本地快速转写,通常可以先从 medium 或 large-v3 开始测试。显存紧张时,再考虑量化。
CPU 和 GPU 怎么选
有 NVIDIA GPU 时,优先用:
|
|
显存不够时可以换成:
|
|
没有 GPU 时,可以在 CPU 上跑:
|
|
CPU 模式更适合轻量任务、后台低频任务,或者没有显卡的服务器。要处理大量长音频,GPU 仍然更合适。
批量转写
faster-whisper 也提供批量转写能力。批处理适合大量短音频,或者需要提升 GPU 吞吐的场景:
|
|
batch_size 不是越大越好。它会提高吞吐,但也会增加显存压力。实际部署时建议从 4、8、16 这样的值逐步测试,找到机器能稳定承受的点。
VAD 和词级时间戳
语音转文字经常会遇到长静音、背景噪声和字幕对齐问题。faster-whisper 内置了一些实用参数,可以直接在转写时启用。
启用 VAD:
|
|
获取词级时间戳:
|
|
VAD 适合处理会议录音、播客、直播回放这类包含长静音的音频。词级时间戳则适合生成字幕、做逐字稿校对,或者后续接入播放器高亮。
模型怎么选
模型选择主要看三件事:准确率、速度、机器资源。
| 场景 | 建议 |
|---|---|
| 快速测试 | small 或 medium |
| 中文内容质量优先 | large-v3 |
| GPU 显存紧张 | int8_float16 或更小模型 |
| CPU 跑后台任务 | 小模型加 int8 |
| 批量短音频 | 尝试 BatchedInferencePipeline |
如果是中文语音,建议优先测试 large-v3。如果机器压力太大,再降模型规格或使用量化。不要一开始就只看速度,转写质量下降后,人工校对时间可能会把省下来的推理时间抵消掉。
适合的使用场景
faster-whisper 很适合这些任务:
- 视频字幕生成。
- 播客、会议、课程录音转文字。
- Bilibili、YouTube 等视频的本地转写流程。
- 批量音频归档和检索。
- 把语音内容接入 RAG、知识库或搜索系统。
它不直接解决说话人分离、摘要、章节切分这些上层问题,但可以作为稳定的转写层。后面可以再接 pyannote 做说话人分离,接 LLM 做摘要和结构化整理。
部署建议
实际使用时,可以按这个顺序调试:
- 先用一段 1 到 3 分钟的音频确认环境能跑通。
- 再换成目标语言和目标音质的样本测试准确率。
- 确认显存占用,再决定是否启用量化。
- 长音频先切分,避免一次性任务失败后重跑成本过高。
- 输出结果同时保存 TXT 和 SRT,后续校对更方便。
如果是服务器任务,最好把模型加载放在服务启动阶段,不要每次请求都重新加载模型。模型加载本身会消耗时间,频繁加载也容易让显存管理变得不稳定。
小结
faster-whisper 的价值在于把 Whisper 变成更适合长期使用的转写组件。它不是换一个模型,而是换一套更高效的推理后端和工程接口。
对于个人工作流,可以用它快速把视频、会议、课程音频变成文本。对于服务端任务,可以通过 GPU、量化、批处理和 VAD 做性能调优。只要机器环境配置正确,它会比原版 Whisper 更适合承担稳定、批量的语音转文字工作。