PersonaPlex 上手指南：可控音色与角色的全双工语音对话模型

PersonaPlex 是一个实时、全双工（full-duplex）的语音到语音对话模型。它支持两类可控能力：

通过文本角色提示词控制“人设与说话方式”
通过音频条件控制“音色与声音风格”

它基于 Moshi 架构与权重，目标是以低延迟输出更自然、且 persona 一致的语音交互。

你可以用它做什么

PersonaPlex 适合以下场景：

实时语音助手
客服角色对话
低延迟语音演示与交互系统
语音角色化实验（人设 + 音色）

部署前准备

先安装 Opus 开发库：

1
2
3
4
5


# Ubuntu/Debian
sudo apt install libopus-dev

# Fedora/RHEL
sudo dnf install opus-devel

安装与环境配置

安装仓库：

1

pip install moshi/.

Blackwell GPU 可额外执行：

1

pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu130

1

export HF_TOKEN=<YOUR_HUGGINGFACE_TOKEN>

启动实时服务

标准启动（带临时 SSL）：

1

SSL_DIR=$(mktemp -d); python -m moshi.server --ssl "$SSL_DIR"

显存不足时可启用 CPU offload（需 accelerate）：

1
2


pip install accelerate
SSL_DIR=$(mktemp -d); python -m moshi.server --ssl "$SSL_DIR" --cpu-offload

本地访问通常为 localhost:8998；若远程部署，使用脚本输出的访问链接。

离线评估

离线脚本可输入 wav，输出同长度 wav 结果：

1
2
3
4
5
6
7


HF_TOKEN=<TOKEN> \
python -m moshi.offline \
  --voice-prompt "NATF2.pt" \
  --input-wav "assets/test/input_assistant.wav" \
  --seed 42424242 \
  --output-wav "output.wav" \
  --output-text "output.json"

1
2
3
4
5
6
7
8


HF_TOKEN=<TOKEN> \
python -m moshi.offline \
  --voice-prompt "NATM1.pt" \
  --text-prompt "$(cat assets/test/prompt_service.txt)" \
  --input-wav "assets/test/input_service.wav" \
  --seed 42424242 \
  --output-wav "output.wav" \
  --output-text "output.json"

预置音色

固定音色标签如下：

Natural(female): NATF0, NATF1, NATF2, NATF3
Natural(male): NATM0, NATM1, NATM2, NATM3
Variety(female): VARF0, VARF1, VARF2, VARF3, VARF4
Variety(male): VARM0, VARM1, VARM2, VARM3, VARM4

提示词使用建议

官方训练覆盖三类主要场景：

Assistant Role（问答助手）
Customer Service Roles（客服角色）
Casual Conversations（日常开放对话）

实践建议：

先固定角色信息，再补充业务上下文
控制提示词长度，避免角色漂移
用同一 voice prompt 做可重复对比测试

总结

PersonaPlex 的优势不在“单次回答更聪明”，而在“在实时语音交互里更稳定地维持角色与声音一致性”。

如果你正在做全双工语音 Agent，这个方案值得尽快实测与对比。