「確率が高い答えは正しいのか?」 大規模言語モデルの生成確率と正答率の関係を調べた研究
この論文は、大規模言語モデル(LLM)がある続きを生成するときの「生成確率」と、その出力が正しいかどうかの関係を定量的に調べたものです。研究者たちは、モデルが高い確率を付けた応答が本当に正しいことが多いかを、複数の手法や設定、データセットで詳しく検証しました。
調査は四つのレベルで行われました。まず、異なるデコーディング(生成)手法間での比較。次に、同じ手法内でのハイパーパラメータ(温度やトップkなど)の変化による違い。三つ目は、データセット内の個々のプロンプトとその正答ペア間の差。四つ目は、同じプロンプトに対する繰り返し応答のばらつきです。対象には、QwenやOlmo系のモデル群や、GPQA、HumanEval、IFEval、MATH500、MedQA、MMLUなどのベンチマークが含まれます。また、低温度やtop-k、top-p、εサンプリングといった「局所的」手法と、ビームサーチやBest-of-N、パワーサンプリングのような「全体的」手法の両方を扱っています。
主な発見は三点です。第一に、同じデータセット内でプロンプトと正答ペアを比べると、より高いシーケンス確率(生成全体の条件付き確率)は正答と相関することが多い、ということです。たとえば数学問題データセット(MATH500)では相関が比較的強く出ています。一方で第二に、デコーディング手法やハイパーパラメータを変えて「生成確率を上げる」ことが、必ずしも精度向上につながるわけではありません。すなわち、確率を増やしても正答率が改善されないことが多く見られました。第三に、同じプロンプトに対する複数の応答を比べる場合、個々の応答の確率が正しさを示す良い指標にはならない、という点です。
論文はデコーディング手法の見方も整理しています。局所的な手法は各トークン(語や記号)ごとの出現確率を変えて生成を制御します。低温度サンプリングやtop-k/top-pはこの例です。全体的な手法はシーケンス全体の確率が高くなる出力を狙います。ビームサーチは最も確率の高いシーケンスを近似的に探す一方で、繰り返しや質の劣化を招くことが知られています。Best-of-Nは多数サンプリングして確率の高いものを選び、パワーサンプリングは高確率のシーケンスに重点を置いて期待値上の対数確率を上げます。
この研究の意義は、生成確率をそのまま「正しさの信号」として使う限界を明らかにしたことです。確率はデータセットやモデルの種類に依存して有益になる場合があります。つまり、モデルがそのタスクに対してすでにある程度正確であれば、確率は有力な手がかりになり得ます。しかし、確率に基づく単純な重み付けや、ハイパーパラメータ調整だけでの自己改善(検証器なしの自己一貫性やセルフディスティレーション)は、常に信頼できるとは限りません。論文は、確率が有用な場面と、そうでない場面を分けて考えることが必要だと結論づけています。限界として、確率と正解の関係は一様ではなく、データセットやモデルによって符号(正または負の相関)が変わること、同一プロンプト内での応答間相関が弱いことが示されています。