統計的機械学習日本語公開済み

「確率が高い答えは正しいのか？」大規模言語モデルの生成確率と正答率の関係を調べた研究

2026年6月26日arXiv: 2606.27359v1

この論文は、大規模言語モデル（LLM）がある続きを生成するときの「生成確率」と、その出力が正しいかどうかの関係を定量的に調べたものです。研究者たちは、モデルが高い確率を付けた応答が本当に正しいことが多いかを、複数の手法や設定、データセットで詳しく検証しました。

調査は四つのレベルで行われました。まず、異なるデコーディング（生成）手法間での比較。次に、同じ手法内でのハイパーパラメータ（温度やトップkなど）の変化による違い。三つ目は、データセット内の個々のプロンプトとその正答ペア間の差。四つ目は、同じプロンプトに対する繰り返し応答のばらつきです。対象には、QwenやOlmo系のモデル群や、GPQA、HumanEval、IFEval、MATH500、MedQA、MMLUなどのベンチマークが含まれます。また、低温度やtop-k、top-p、εサンプリングといった「局所的」手法と、ビームサーチやBest-of-N、パワーサンプリングのような「全体的」手法の両方を扱っています。

主な発見は三点です。第一に、同じデータセット内でプロンプトと正答ペアを比べると、より高いシーケンス確率（生成全体の条件付き確率）は正答と相関することが多い、ということです。たとえば数学問題データセット（MATH500）では相関が比較的強く出ています。一方で第二に、デコーディング手法やハイパーパラメータを変えて「生成確率を上げる」ことが、必ずしも精度向上につながるわけではありません。すなわち、確率を増やしても正答率が改善されないことが多く見られました。第三に、同じプロンプトに対する複数の応答を比べる場合、個々の応答の確率が正しさを示す良い指標にはならない、という点です。

論文はデコーディング手法の見方も整理しています。局所的な手法は各トークン（語や記号）ごとの出現確率を変えて生成を制御します。低温度サンプリングやtop-k/top-pはこの例です。全体的な手法はシーケンス全体の確率が高くなる出力を狙います。ビームサーチは最も確率の高いシーケンスを近似的に探す一方で、繰り返しや質の劣化を招くことが知られています。Best-of-Nは多数サンプリングして確率の高いものを選び、パワーサンプリングは高確率のシーケンスに重点を置いて期待値上の対数確率を上げます。

この研究の意義は、生成確率をそのまま「正しさの信号」として使う限界を明らかにしたことです。確率はデータセットやモデルの種類に依存して有益になる場合があります。つまり、モデルがそのタスクに対してすでにある程度正確であれば、確率は有力な手がかりになり得ます。しかし、確率に基づく単純な重み付けや、ハイパーパラメータ調整だけでの自己改善（検証器なしの自己一貫性やセルフディスティレーション）は、常に信頼できるとは限りません。論文は、確率が有用な場面と、そうでない場面を分けて考えることが必要だと結論づけています。限界として、確率と正解の関係は一様ではなく、データセットやモデルによって符号（正または負の相関）が変わること、同一プロンプト内での応答間相関が弱いことが示されています。