MeloDISinger:歌声の歌詞だけを変えて、メロディと全体の長さを守る編集法
この論文は、歌の録音で歌詞だけを差し替えたいときに、元のメロディや伴奏とのタイミング(全体の長さ)を壊さずに編集する技術を説明します。研究チームはMeloDISingerというシステムを提案しました。これは編集する部分だけを自然につなげて再合成(オーディオ・インフィリング)し、未編集の部分はそのまま残すことを目指しています。主な新しさは、編集範囲ごとに「使える時間の配分」を明示的に決める仕組みを導入した点です。
研究者たちは三段階の流れで動くシステムを作りました。まず元の音声からメルスペクトログラムや話者情報、フレーム単位の基本周波数(F0)や音素の位置などの特徴を取り出します(音素の位置合わせにはMontreal Forced Alignerという道具を使います)。次に、差し替えたい箇所を特定して編集マスクを作ります。最後に音声を生成するモデルで編集部分だけを入れ替えます。中心的なモジュールはMeloDRP(メロディ対応の「持ち時間比率予測器」)で、編集区間ごとの総時間を固定した上で、区間内の各音素に何割ずつ配分するかの比率を予測します。比率は区間内で合計1になるように正規化されるので、結果として区間の合計時間は元と一致します。
メロディへの対応は、音素の情報と音声から推定した擬似MIDI(楽譜に近い音高・ノート情報)を結びつけることで行います。モデルはクロスアテンションという仕組みで両方の情報を融合し、音素と音符の「ゆるい対応」を学びます。対応の学習には、正解の音素・音符の時間的重なりを使った教師信号や、短すぎる音素を罰する損失など複数の工夫が入っています。これにより、単に発音を当てはめるだけでなくメロディやリズムに合う時間配分ができるように設計されています。
編集部分の音声生成には、フローマッチングという非自己回帰のデコーダを使った音声補間を採用します。学習中はランダムに編集マスクを作って、マスクされた領域だけを生成するように訓練します。推論ではノイズからODE(常微分方程式)を解く手順で編集部分のメルスペクトログラムを合成し、未編集のフレームはそのまま残して結合します。このため編集境界が滑らかに保たれ、周囲の文脈と整合する編集が可能になります。
評価のために、単に文章を変えるだけだと歌で時間的に不可能な編集が出る問題にも対処しています。元音声から単語の開始・終了時刻を推定するWhisperXを使い、各時間枠に入れられる最大音節数(シラブル容量)を計算してから、大規模言語モデル(LLM:ここではGemini-2.5-flash)に時間制約を満たす編集後の歌詞を作らせる仕組みを用意しました。実験はGTSinger-En(英語の歌データ、約13時間、3人の歌手)で行われ、著者は客観評価と主観評価の双方で最先端の成績を示したと報告しています。ただし、抜粋された本文には評価の詳細な数値や聴取例は含まれておらず、全文を見ないと具体的な比較指標や再現条件は確認できません。
重要な注意点として、本稿の情報は論文の抜粋に基づいています。実験は英語の限られたデータセットで実施されており(13時間、3歌手)、他の言語や多様な歌い方へ一般化できるかは明示されていません。また、擬似MIDIの抽出や音素位置合わせの精度に依存するため、原音声の品質や表現のぶれが大きい場合は結果が変わる可能性があります。著者は既存手法の欠点(全体の持ち時間を厳密に守れない、メロディ文脈が弱いなど)を挙げ、それらを解決するための設計を示していますが、実運用での堅牢性や限界はさらなる検証が必要です。