PersonaPlex 是一個即時、全雙工(full-duplex)的語音到語音對話模型,提供兩種關鍵可控能力:
- 以文字提示詞控制角色與人設
- 以音訊條件控制音色與語音風格
它基於 Moshi 架構與權重,目標是在低延遲下輸出更自然、且 persona 一致的語音互動。
適用場景
PersonaPlex 適合:
- 即時語音助理
- 客服角色對話
- 低延遲語音互動展示
- 人設 + 音色控制實驗
先備條件
先安裝 Opus 音訊編碼開發庫:
|
|
安裝與環境設定
安裝倉庫:
|
|
若使用 Blackwell GPU,可額外執行:
|
|
在 Hugging Face 接受 PersonaPlex 模型授權後,設定 token:
|
|
啟動即時服務
標準啟動(含暫時 SSL):
|
|
若顯存不足,可啟用 CPU offload(需安裝 accelerate):
|
|
本地通常從 localhost:8998 存取;遠端部署請使用程式輸出的訪問連結。
離線評估
離線腳本可輸入 wav,並輸出同長度 wav:
|
|
|
|
預設音色標籤
- Natural(female): NATF0, NATF1, NATF2, NATF3
- Natural(male): NATM0, NATM1, NATM2, NATM3
- Variety(female): VARF0, VARF1, VARF2, VARF3, VARF4
- Variety(male): VARM0, VARM1, VARM2, VARM3, VARM4
提示詞建議
訓練覆蓋主要包含:
- Assistant Role
- Customer Service Roles
- Casual Conversations
實務上建議:
- 先固定角色資訊,再補充任務上下文
- 提示詞保持精簡,降低角色漂移
- 固定同一 voice prompt 進行可重現比較
總結
PersonaPlex 的價值不在單次回答更聰明,而在即時語音互動中更穩定地維持角色與音色一致性。
若你正在做全雙工語音 Agent,這個方案值得盡快實測與對比。