大規模言語モデルでランダム化比較試験の精度を改善する手法――テキストを使う試験で特に効果
この論文は、大規模言語モデル(LLM)を使ってランダム化比較試験(RCT)の推定精度を安全に高められるかを調べたものです。著者らは、LLMによる予測を追加の共変量(解析に使う説明変数)として組み込み、従来の設計に基づく手法で平均処置効果を推定するパイプラインを作りました。全体として、LLMの予測は特にテキストのような共変量がある場合に精度を改善することが分かりましたが、効果には場合差があります。
方法の骨子は分かりやすく示されています。まずLLMから各観測単位の結果の予測値を得ます。次にその予測値を元のRCTの共変量に追加します。重要な点として、各観測値についての補完(欠けている「もしも」の結果の推定)は、その観測値の割り当て(治療か対照か)に依存しないように作る必要があります。著者らはこれを実現するために、リー ブワンアウトやランダムフォレストのアウト・オブ・バッグのような手法を使うことを勧めています。こうして得た補完を使って設計に基づく推定量を計算します。論文で参照する方法(Gagnon-Bartschらの手法)は、設計に基づくため不偏性が保たれると説明されています。
具体的な応用例は三つのケーススタディです。1つ目は判事の割り当てを利用した再犯率の自然実験で、2002–2003年に薬物関連で逮捕された1,003人を対象にし、再犯が4年以内に起きたかを結果としました。2つ目はCognitive Tutor Algebra Iという代数カリキュラムのクラスターペア無作為化試験で、19,053人の生徒データと事前テスト点などの共変量を用いました。3つ目はオープンアクセスが論文引用数に与える影響を調べたRCTで、もともと用意されていた共変量は著者数やページ数などわずか4つでした。ここではジャーナルの抄録を得られるジャーナルに絞り、最終的に1,248本の論文(5誌)で抄録を共変量として使いました。結果として、最初の二つの事例(量的で整った共変量がある場合)ではLLM導入による改善は小さかった一方、抄録というテキストを使った三つ目の事例では精度が大きく改善し、あるケースではサンプルサイズをほぼ60%増やしたのと同等の改善になりました。
なぜ重要なのか。RCTは因果推論の「金標準」とされますが、サンプルが小さいと推定のばらつきが大きくなりがちです。特に説明変数(共変量)が高次元だったり構造が複雑な場合、従来の統計モデルでうまく情報を引き出せないことがあります。LLMは文章など複雑な入力から情報を抽出して予測を出すのが得意です。外部の大規模データが使えない場合でも、LLMを使って難しい共変量を一つの予測値に圧縮し、RCTの解析に組み込めば、推定の精度が上がる可能性があります。さらに論文で採用する手法は設計に基づいており、LLMが誤りを出しても不偏性が維持されるとされています。
ただし注意点もあります。LLMは誤情報を作る(ハルシネーション)ことや、訓練データの偏りを増幅することが知られます。著者らはその点を認めつつ、今回の組み込み方ではLLMの正確さに頼らなくても不偏性は保たれると述べています。また、効果の大きさはケースによって大きく異なります。量的な共変量が整っている試験ではあまり改善しませんでした。論文の最後では方法の妥当性に対する潜在的脅威を議論し、重大な問題になっていない証拠を示していますが、外挿や一般化には慎重さが必要です。