PersonaPlex 入門ガイド: 音色とキャラクターを制御できる全二重音声対話モデル

PersonaPlex は、リアルタイムの全二重音声対音声会話モデルです。次の 2 種類の制御可能な機能をサポートします。

テキストの役割プロンプトを通じて「性格と話し方」を制御する
オーディオ条件で「音色とサウンドスタイル」をコントロールする

これは Moshi アーキテクチャと重みに基づいており、その目標は、より自然でペルソナに一貫した音声インタラクションを低遅延で出力することです。

それを使って何ができるか

PersonaPlex は次のシナリオに適しています。

リアルタイム音声アシスタント
顧客サービスの役割に関する対話
低遅延の音声プレゼンテーションおよび対話システム
声の特徴付け実験（キャラクターデザイン＋音色）

導入前の準備

まず、Opus 開発ライブラリをインストールします。

1
2
3
4
5


# Ubuntu/Debian
sudo apt install libopus-dev

# Fedora/RHEL
sudo dnf install opus-devel

インストールと環境構成

リポジトリをインストールします。

1

pip install moshi/.

Blackwell GPU はさらに次のことを実行できます。

1

pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu130

Hugging Face にログインし、PersonaPlex モデルライセンスに同意した後、トークンを構成します。

1

export HF_TOKEN=<YOUR_HUGGINGFACE_TOKEN>

リアルタイムサービスを開始する

標準起動 (一時 SSL を使用):

1

SSL_DIR=$(mktemp -d); python -m moshi.server --ssl "$SSL_DIR"

ビデオメモリが不足している場合、CPU オフロードを有効にできます (accelerate が必要)。

1
2


pip install accelerate
SSL_DIR=$(mktemp -d); python -m moshi.server --ssl "$SSL_DIR" --cpu-offload

ローカルアクセスは通常、localhost:8998 です。リモートにデプロイされている場合は、スクリプトによって出力されたアクセスリンクを使用します。

オフライン評価

オフラインスクリプトは、wav を入力し、同じ長さの wav 結果を出力できます。

1
2
3
4
5
6
7


HF_TOKEN=<TOKEN> \
python -m moshi.offline \
  --voice-prompt "NATF2.pt" \
  --input-wav "assets/test/input_assistant.wav" \
  --seed 42424242 \
  --output-wav "output.wav" \
  --output-text "output.json"

1
2
3
4
5
6
7
8


HF_TOKEN=<TOKEN> \
python -m moshi.offline \
  --voice-prompt "NATM1.pt" \
  --text-prompt "$(cat assets/test/prompt_service.txt)" \
  --input-wav "assets/test/input_service.wav" \
  --seed 42424242 \
  --output-wav "output.wav" \
  --output-text "output.json"

プリセットサウンド

固定トーンラベルは次のとおりです。

Natural(female): NATF0, NATF1, NATF2, NATF3
Natural(male): NATM0, NATM1, NATM2, NATM3
Variety(female): VARF0, VARF1, VARF2, VARF3, VARF4
Variety(male): VARM0, VARM1, VARM2, VARM3, VARM4

プロンプトワードの使用に関する提案

公式トレーニングでは、次の 3 つの主要なタイプのシナリオがカバーされます。

アシスタントの役割 (Q&A アシスタント)
カスタマーサービスの役割
カジュアルな会話（日常のオープンな会話）

実践的な提案:

まずロール情報を修正してから、ビジネスコンテキストを追加します
文字のずれを避けるためにプロンプトワードの長さを制御する
同じ音声プロンプトを使用して反復可能な比較テストを実行する

要約する

PersonaPlex の利点は、「一度でよりインテリジェントな回答ができること」ではなく、「リアルタイムの音声対話において、キャラクターと音声の一貫性がより安定して維持されること」です。

全二重音声エージェントを構築している場合、このソリューションはできるだけ早く実際にテストして比較する価値があります。