LLMの「説明」は本当に役立つか? 誤った答えへの“誤った信頼”を生む仕組みを検証
この論文は、大規模言語モデル(LLM)や大規模推論モデル(LRM)が出す説明が、利用者に正しい判断を助けるのか、それとも誤った信頼を生むのかを調べた研究です。研究者たちは、モデルが示す推論の痕跡(チェーン・オブ・ソート、reasoning trace)やその要約、あとから付け加えられる説明(ポストホック説明)など、よく使われる説明の種類ごとに、人がAIの答えを「正しい」と判断するかを比較しました。主な問いは「説明は誤りを見抜く助けになるか、それともただ説得力があるだけか」です。
研究チームは、ユーザー中心の評価プロトコルを作り、検証できない状況を模した被験者実験を行いました。具体的には、IIT JEE-Advanced試験の過去問を集めた難易度の高いデータセット(JEE‑Bench)から数学・物理・化学の問題を用い、高校卒業程度の基礎はあるが専門家ではない参加者をオンラインで募集(Prolific)して、各参加者に一種類の説明条件だけを見せる「被験者間(between‑subject)」の設計にしました。参加者は外部で正解を確かめられない設定で、AIの答えが正しいかどうかを判断します。
結果は明確でした。推論の痕跡やポストホック説明は説得力が高く、利用者の受け入れを増やしますが、必ずしも正しい判断を助けるわけではありません。つまりこれらは「説得的だが有益とは限らない」ことが多く、正誤にかかわらず受け入れを高めるため、誤った答えに対する誤った信頼(false trust)を生みやすい。一方で、対照的な二面説明(dual explanation)──AIの答えの賛成・反対の両方の議論を提示する方法──だけが、利用者が正しいものと誤ったものを区別する能力を実際に改善しました。
さらに細かい観察も報告されています。推論の痕跡は全体的に利用者の自信を高めるため、正しい答えの検出は高くなる一方で、誤った答えを見抜く力は低くなる傾向がありました。対照的に二面説明は、正誤の両方に対してバランスよく高い検出精度を示し、最も誤った信頼を抑えました。参加者の問題に対する「慣れ」も影響し、慣れている問題では推論の痕跡や要約が役に立つことがありましたが、慣れていない場合は二面説明が最も効果的でした。また、参加者は意外にも推論の痕跡やその要約を「モデルの内部計算を説明する助け」とはあまり評価しませんでした。
この研究が重要な理由は、LLMが医療や教育、法律のような重要な場面で広く使われ始めている点です。これらの場面ではモデルが流暢に自信を持って誤った答えを出す「ハルシネーション」が問題になります。本研究は、単に説明を出せばよいのではなく、どの形の説明が利用者に正しい信頼を促すかを慎重に選ぶ必要があることを示しています。限界としては、研究は検証不可能な設定を意図的に作った実験環境と、JEE‑Benchのような特定の難易度の高い学術問題群、および高校卒業程度の参加者を対象にしている点に留意する必要があります。したがって結果は他のタスクや異なる利用者層にそのまま当てはまるとは限らず、さらなる検証が必要です。