PersonaPlex 是一个实时、全双工(full-duplex)的语音到语音对话模型。它支持两类可控能力:
- 通过文本角色提示词控制“人设与说话方式”
- 通过音频条件控制“音色与声音风格”
它基于 Moshi 架构与权重,目标是以低延迟输出更自然、且 persona 一致的语音交互。
你可以用它做什么
PersonaPlex 适合以下场景:
- 实时语音助手
- 客服角色对话
- 低延迟语音演示与交互系统
- 语音角色化实验(人设 + 音色)
部署前准备
先安装 Opus 开发库:
|
|
安装与环境配置
安装仓库:
|
|
Blackwell GPU 可额外执行:
|
|
登录 Hugging Face 并接受 PersonaPlex 模型许可证后,配置令牌:
|
|
启动实时服务
标准启动(带临时 SSL):
|
|
显存不足时可启用 CPU offload(需 accelerate):
|
|
本地访问通常为 localhost:8998;若远程部署,使用脚本输出的访问链接。
离线评估
离线脚本可输入 wav,输出同长度 wav 结果:
|
|
|
|
预置音色
固定音色标签如下:
- Natural(female): NATF0, NATF1, NATF2, NATF3
- Natural(male): NATM0, NATM1, NATM2, NATM3
- Variety(female): VARF0, VARF1, VARF2, VARF3, VARF4
- Variety(male): VARM0, VARM1, VARM2, VARM3, VARM4
提示词使用建议
官方训练覆盖三类主要场景:
- Assistant Role(问答助手)
- Customer Service Roles(客服角色)
- Casual Conversations(日常开放对话)
实践建议:
- 先固定角色信息,再补充业务上下文
- 控制提示词长度,避免角色漂移
- 用同一 voice prompt 做可重复对比测试
总结
PersonaPlex 的优势不在“单次回答更聪明”,而在“在实时语音交互里更稳定地维持角色与声音一致性”。
如果你正在做全双工语音 Agent,这个方案值得尽快实测与对比。