書くより選ぶ方が伝わることが多い:AIに好みを伝える「提示」と「選択」の比較実験
この論文は、AIに人間の好みを伝える方法として「書いて伝える」か「行動で示す」か、どちらがより有効かを調べた研究です。著者らは、被験者が文章で指示を書く「表明(stated)=プロンプト」と、実際に選択する「顕在化(revealed)=選択データ」を比べました。主要な結論は、平均でAIに選択データを与えたほうが、被験者の意思決定をより正確に予測できたということです。これは、被験者が自分の好みを言葉で正確に表現するのが難しいためだと示唆されています。
研究者たちはオンラインのインセンティブ実験を行いました。実験は二択の宝くじ問題(リスク下の選択)が中心です。まず参加者は複数の選択問題に答します(Part I)。その回答に基づいてAIが学習するか、あるいは参加者自身がAI向けに指示文(プロンプト)を書きます。後で別の似た問題群(Part II)で参加者が選んだ実際の行動と、AIの予測を突き合わせて精度を測ります。AIには少なくともAnthropicのClaude Opus 4.5が使われ、別の最先端モデル(GPT‑5.4)でも結果を再現しています。評価指標は「アウト・オブ・サンプルの予測精度(match rate)」です。
詳細な結果では、選択データを与えたAI(Data‑AI)は、プロンプトのみを与えたAI(Prompt‑AI)より高い一致率を示しました。Data‑AIの平均一致率は、従来の経済学モデルである期待効用理論と同等の性能でした。一方で被験者ごとの差も大きく、行動に偏り(行動バイアス)が強い被験者ほど両方のAIにとって予測が難しくなります。特にPrompt‑AIは偏りの強い被験者で約10ポイント低い性能を示しました。興味深いことに、研究者が同じ情報と指示でAIに合成プロンプトを作らせたAutoPrompt‑AIはData‑AIと同等の性能になり、人間がもっと良いプロンプトを書ければ性能は改善しうることを示しています。
また、被験者がどちらの情報源をAIに与えるかを選べる状況も調べました。59%がData‑AIを選びましたが、被験者の選択は自分が信じるAI性能に基づくことが多く(85%が自分の思う“より良い”方を選択)、しかし実際の性能を誤認することが多く、35%はより性能の良い方を選べませんでした。さらに、両方の情報を与えたBoth‑AIは、期待に反してData‑AIより悪く、Prompt‑AIよりわずかに良いにとどまりました。これは、約25%の質問で両情報が矛盾したときにBoth‑AIがプロンプト側の予測に寄ってしまい、精度を落としたためです。
本研究が示すのは、過去の選択データ(revealed preference)がAIに好みを伝える有力な手段になりうることです。しかし重要な注意点もあります。今回の証拠はリスク下の二択問題という限定された環境に基づいています。実験は特定の最先端言語モデルで行われており、他のタスクやモデルへ直接一般化できるかは不確かです。また、人間がどの情報を選ぶかや、情報を与えすぎたときのAIの扱い方次第で結果は変わります。論文は、現実の応用では「選択データを活用する設計」と「プロンプト作成支援」の両方が重要だと結論づけています。