PersonaPlex は、リアルタイムの全二重音声対音声会話モデルです。次の 2 種類の制御可能な機能をサポートします。
- テキストの役割プロンプトを通じて「性格と話し方」を制御する
- オーディオ条件で「音色とサウンドスタイル」をコントロールする
これは Moshi アーキテクチャと重みに基づいており、その目標は、より自然でペルソナに一貫した音声インタラクションを低遅延で出力することです。
それを使って何ができるか
PersonaPlex は次のシナリオに適しています。
- リアルタイム音声アシスタント
- 顧客サービスの役割に関する対話
- 低遅延の音声プレゼンテーションおよび対話システム
- 声の特徴付け実験(キャラクターデザイン+音色)
導入前の準備
まず、Opus 開発ライブラリをインストールします。
|
|
インストールと環境構成
リポジトリをインストールします。
|
|
Blackwell GPU はさらに次のことを実行できます。
|
|
Hugging Face にログインし、PersonaPlex モデル ライセンスに同意した後、トークンを構成します。
|
|
リアルタイムサービスを開始する
標準起動 (一時 SSL を使用):
|
|
ビデオ メモリが不足している場合、CPU オフロードを有効にできます (accelerate が必要)。
|
|
ローカル アクセスは通常、localhost:8998 です。リモートにデプロイされている場合は、スクリプトによって出力されたアクセス リンクを使用します。
オフライン評価
オフライン スクリプトは、wav を入力し、同じ長さの wav 結果を出力できます。
|
|
|
|
プリセットサウンド
固定トーンラベルは次のとおりです。
- Natural(female): NATF0, NATF1, NATF2, NATF3
- Natural(male): NATM0, NATM1, NATM2, NATM3
- Variety(female): VARF0, VARF1, VARF2, VARF3, VARF4
- Variety(male): VARM0, VARM1, VARM2, VARM3, VARM4
プロンプトワードの使用に関する提案
公式トレーニングでは、次の 3 つの主要なタイプのシナリオがカバーされます。
- アシスタントの役割 (Q&A アシスタント)
- カスタマーサービスの役割
- カジュアルな会話(日常のオープンな会話)
実践的な提案:
- まずロール情報を修正してから、ビジネス コンテキストを追加します
- 文字のずれを避けるためにプロンプトワードの長さを制御する
- 同じ音声プロンプトを使用して反復可能な比較テストを実行する
要約する
PersonaPlex の利点は、「一度でよりインテリジェントな回答ができること」ではなく、「リアルタイムの音声対話において、キャラクターと音声の一貫性がより安定して維持されること」です。
全二重音声エージェントを構築している場合、このソリューションはできるだけ早く実際にテストして比較する価値があります。