PersonaPlex 入門ガイド: 音色とキャラクターを制御できる全二重音声対話モデル

この記事では、サーバーの起動、オフライン評価、ロール制御の実践を含む、PersonaPlex のコア機能、展開手順、およびプロンプト ワードの使用法について説明します。

PersonaPlex は、リアルタイムの全二重音声対音声会話モデルです。次の 2 種類の制御可能な機能をサポートします。

  • テキストの役割プロンプトを通じて「性格と話し方」を制御する
  • オーディオ条件で「音色とサウンドスタイル」をコントロールする

これは Moshi アーキテクチャと重みに基づいており、その目標は、より自然でペルソナに一貫した音声インタラクションを低遅延で出力することです。

それを使って何ができるか

PersonaPlex は次のシナリオに適しています。

  • リアルタイム音声アシスタント
  • 顧客サービスの役割に関する対話
  • 低遅延の音声プレゼンテーションおよび対話システム
  • 声の特徴付け実験(キャラクターデザイン+音色)

導入前の準備

まず、Opus 開発ライブラリをインストールします。

1
2
3
4
5
# Ubuntu/Debian
sudo apt install libopus-dev

# Fedora/RHEL
sudo dnf install opus-devel

インストールと環境構成

リポジトリをインストールします。

1
pip install moshi/.

Blackwell GPU はさらに次のことを実行できます。

1
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu130

Hugging Face にログインし、PersonaPlex モデル ライセンスに同意した後、トークンを構成します。

1
export HF_TOKEN=<YOUR_HUGGINGFACE_TOKEN>

リアルタイムサービスを開始する

標準起動 (一時 SSL を使用):

1
SSL_DIR=$(mktemp -d); python -m moshi.server --ssl "$SSL_DIR"

ビデオ メモリが不足している場合、CPU オフロードを有効にできます (accelerate が必要)。

1
2
pip install accelerate
SSL_DIR=$(mktemp -d); python -m moshi.server --ssl "$SSL_DIR" --cpu-offload

ローカル アクセスは通常、localhost:8998 です。リモートにデプロイされている場合は、スクリプトによって出力されたアクセス リンクを使用します。

オフライン評価

オフライン スクリプトは、wav を入力し、同じ長さの wav 結果を出力できます。

1
2
3
4
5
6
7
HF_TOKEN=<TOKEN> \
python -m moshi.offline \
  --voice-prompt "NATF2.pt" \
  --input-wav "assets/test/input_assistant.wav" \
  --seed 42424242 \
  --output-wav "output.wav" \
  --output-text "output.json"
1
2
3
4
5
6
7
8
HF_TOKEN=<TOKEN> \
python -m moshi.offline \
  --voice-prompt "NATM1.pt" \
  --text-prompt "$(cat assets/test/prompt_service.txt)" \
  --input-wav "assets/test/input_service.wav" \
  --seed 42424242 \
  --output-wav "output.wav" \
  --output-text "output.json"

プリセットサウンド

固定トーンラベルは次のとおりです。

  • Natural(female): NATF0, NATF1, NATF2, NATF3
  • Natural(male): NATM0, NATM1, NATM2, NATM3
  • Variety(female): VARF0, VARF1, VARF2, VARF3, VARF4
  • Variety(male): VARM0, VARM1, VARM2, VARM3, VARM4

プロンプトワードの使用に関する提案

公式トレーニングでは、次の 3 つの主要なタイプのシナリオがカバーされます。

  • アシスタントの役割 (Q&A アシスタント)
  • カスタマーサービスの役割
  • カジュアルな会話(日常のオープンな会話)

実践的な提案:

  • まずロール情報を修正してから、ビジネス コンテキストを追加します
  • 文字のずれを避けるためにプロンプ​​トワードの長さを制御する
  • 同じ音声プロンプトを使用して反復可能な比較テストを実行する

要約する

PersonaPlex の利点は、「一度でよりインテリジェントな回答ができること」ではなく、「リアルタイムの音声対話において、キャラクターと音声の一貫性がより安定して維持されること」です。

全二重音声エージェントを構築している場合、このソリューションはできるだけ早く実際にテストして比較する価値があります。

记录并分享
Hugo で構築されています。
テーマ StackJimmy によって設計されています。