未公開の「ガリレイ的相対性」テストでAIチャットボットは高得点も、図の解釈で致命的に失敗することが判明
この論文は、学生が物理の学習に使うAIチャットボットが概念問題にどれだけ頼れるかを調べた研究です。研究者は、ガリレイ的相対運動(古典的相対性)の理解を問う新しい21問の概念テスト(CRCI)を使い、これが公開されていない状態で最先端の大規模言語モデル(LLM)を評価しました。比較用には同じテストを受けた大学1年生のデータ(N = 267)も用いられています。学生の平均正答率は62%でした。
研究チームはGPT-5.2、Gemini 3 Pro、Gemini 3 Flashの3モデルをテストしました。各設問はモデルごとに30回ずつ、合計1890回の応答を集めています。問題は英語に翻訳した高解像度のスクリーンショットで提示し、モデルの出力は「図の解釈」「物理的推論」「解答との整合性」の三つの観点で質的に分類しました。実験設定としてはGemini両モデルは温度パラメータT=0.7で、GPT-5.2はreasoning_effort(推論の深さ)を「none」にして温度を合わせています。研究中の設定変更が結果に影響する可能性も論文で触れられています。
結果はモデル間で差がありました。平均正答率はGemini 3 Flashが97%、Gemini 3 Proが89%、GPT-5.2が73%でした。全体では学生平均を上回る性能です。しかし三モデルとも、いくつかの設問では完全に失敗する例がありました。失敗例は一部に集中しており、まったく解けない問題が存在した点が重要です。
質的分析からは、誤答の主因は物理知識の欠如よりも「図や視覚情報の誤解釈」であることが示されました。多くの設問は手描きのイラストを含み、空間的解釈が必要です。モデルが間違える場合、単一の誤答選択肢(ディストラクタ)に高い一致で収束する傾向がありました。対照的に学生の誤答はより広く分散していました。こうした違いは、モデルのエラーが学生の誤解と同じ機構から生じているとは限らないことを示唆します。
この結果は実務的な意味を持ちます。AIチャットボットは多くの概念問題で高い正答率を示しますが、問題ごとに信頼性が大きく変わります。特に図を読む力が問われる問題では不安定です。教育者が概念テストを運用する際や、学生がチャットボットを学習補助に使う際は、どの設問でボットが誤りやすいかを考慮する必要があります。
論文が挙げる注意点もあります。CRCIの設問は公開前であったため高得点が単純な丸暗記によるものではない一方、モデルの設定(たとえばGPT-5.2の推論モードの切替)によって成績が変わる可能性があります。また、学生とモデルはそもそも答えに至る過程が異なるため、誤答の意味合いを単純に比較することはできません。最後に、いくつかの設問では翻訳や提示の仕方が結果に影響した可能性がある点も論文で指摘されています。