自然言語処理日本語公開済み

LLMSurgeon：生成テキストだけでモデルの「学習データの混合比」を推定する方法

2026年5月29日arXiv: 2605.30348v1

この論文は、ある大規模言語モデル（LLM）がどの種類のデータで学習されたか──いわばその「デジタルDNA」──を、モデルから出てくる生成テキストだけで推定する問題を定式化しています。研究者たちはこれを「Data Mixture Surgery（データ混合手術、DMS）」と名付けました。学習データの構成がわからないと、偏りの監査や責任追跡が難しくなるため、こうした事後監査の手法が求められています。

提案手法は「LLMSurgeon」と呼ばれる枠組みです。まず、参照データで外部の分類器を事前に訓練します。次に、その分類器の出力の系統的なぶれを表す「ソフト混同行列」を較正（キャリブレーション）して求めます。対象のLLMからは中立的なプロンプトで出力を多くサンプリングし、訓練済み分類器で分類します。最後に、その観測された偏ったラベル分布を混同行列を使って数理的に「逆補正」し、モデルが内部に持つ潜在的なドメイン混合比（π）を復元します。

背後にある仮定は「ラベルシフト」です。これは、全体のドメイン比率は変わっても、各ドメイン内の言語的特徴（たとえばコードらしさや百科事典調の文章）はほぼ変わらないという仮定です。プロンプトや整合化（alignment）が生成分布を歪めるため、著者らは中立的なサンプリングを用いてその影響を最小化しようとしています。LLMSurgeonは単純に分類結果を集計する手法と違い、分類器の系統的な誤りを「デブラー（ぼかし除去）」することで精度を上げる点が特徴です。

評価のために、研究チームはLLMScanというベンチマークも作りました。これは学習データの由来が透明なオープンソースLLMを集めたもので、1B〜65Bパラメータの8モデルを含み、粗い、中位、細かいの三段階の粒度で監査を行えるように設計されています。例として論文中に挙がるモデル名にはLLaMA-1やPythia、GPT-Neo、StarCoderなどが含まれます。著者らは、この限定された評価設定（固定プロトコル）ではLLMSurgeonが混合比を高精度で復元し、単純な集計ベースの基準手法より優れると報告しています。

重要な限界点も明示されています。第一にラベルシフトの仮定が成り立たない場合、たとえばプロンプトや整合化によってドメイン内の言語様式が変化していれば推定は誤る可能性があります。第二に、復元されるのはモデルが生成時に示す「潜在的な事後的比率（π）」であり、必ずしも学習データの真の混合比（α）と同一とは限りません。さらに、今回の良好な結果は透明な学習レシピを持つオープンなモデル群での評価に基づくため、閉鎖的な商用モデルや異なるサンプリング条件へそのまま一般化できるかは不確かです。論文はまた、既存の会員推定攻撃（membership inference）が短い断片向けで計算コストや誤差蓄積の問題を抱えることを指摘し、DMSがより実用的なコーパスレベルの監査を目指す点を強調しています。