多人数の遠隔音声を“話者マスク”で分けるSLM—Dixtralが話者別転写精度を大幅向上
この論文は、多人数が同時に話す遠隔(ファー・フィールド)音声向けに、音声を話者ごとに分けて扱う新しい方法を提案します。研究者たちは、音声認識と推論を担う大きな言語モデル(LLM:Large Language Model)をそのまま維持し、音声側のエンコーダだけを「話者の活動を示すダイアリゼーション(誰がいつ話したかを示す情報)マスク」で条件付けしてターゲット話者の表現を取り出す仕組みを作りました。こうすることで、従来のSerialized Output Training(SOT:複数話者の発話を一列に並べる訓練)で必要になるデコーダ側の再学習を避け、モデルが元々持っている推論力や要約力を失う危険を減らします。
実装は「Dixtral」と名付けられています。Dixtralは、ダイアリゼーション条件付きのWhisperエンコーダを備えた「DiCoW」と、既存の話者理解型SLM「Voxtral」を組み合わせています。DiCoW側では、各フレームごとにSilence(無音)、Target(ターゲット話者)、Non-target(非ターゲット)、Overlap(重なり)の4種類の確率(STNO)を計算し、その確率に応じて各層の内部表現に学習可能な線形変換を確率的に混ぜる「Frame-Level Diarization-Dependent Transformations(FDDT)」を使います。こうして得た話者特化の音響表現は、モダリティアダプタでLLMの埋め込み空間に合わせられ、デコーダ(ここではMinistralベース)は凍結したままテキストを生成します。実験時はLLMとアダプタを凍結し、更新するのはエンコーダとFDDTのみとしています。
結果は有望です。AMI、NOTSOFAR-1(NSF-1)、LibriSpeechMix、Mixer6という4つの多人数データセットで、話者別の転写性能を示す指標「cpWER(concatenated minimum-permutation word error rate:連結最小置換単語誤り率)」を使って評価しました。DixtralはGemini 3.0 Flash、VibeVoice、Voxtral Mini Transcribe V2に比べて、それぞれ絶対で29.0%、19.8%、16.0%のcpWER改善を示し、マクロ平均で15.4%のcpWERを達成しました(比較モデルは44.4%、35.2%、31.4%)。また、長尺のマルチスピーカー用の質問応答・要約ベンチマーク(NSF-QA)では、ファー・フィールドの内容理解に関してはゼロショットでGeminiと同等の能力を示し、微調整(ファインチューニング)すればGeminiやVoxtralの近接話者(クローズトーク)入力を上回る結果になったと報告しています。パラリングイスティックな問い(感情や話者性別など、音声情報が必要な問い)でも性能向上が得られたことが強調されています。
運用面の利点も説明されています。複数話者分を一度に連結してデコーダで生成する方法は系列長が増えると計算量が二乗で増えますが、話者ごとに独立してエンコーダ処理を行いデコーダを繰り返す方式は、話者数Sと各話者の出力長Nに対して計算量がO(S·N^2)となり、長い会話や大規模なLLMを扱う際に有利だと述べています。
注意点もあります。Dixtralはダイアリゼーション情報を前提に動くため、ダイアリゼーションの精度や使用するダイアリゼーション器(本研究ではDiariZenを用いた)が性能に影響します。また、論文序文でも触れているように、SLM全体は従来のモジュラー(分割された)パイプラインに比べて未だ劣る点があること、そしてここに示した結果は提供された抜粋に基づくもので、論文全体や追加の実験結果によって理解がさらに深まる可能性がある点を明記します。