因果関係を「説得」するモデル:真実を示すのは簡単でも、否定するのは難しい
研究の要点はこうです。情報を出す側(発信者)が観察できる変数の一部とそれらの本当の同時分布を選んで示し、特定の因果モデル(どの変数がどの変数に影響するかの説明)を提案します。受け手は、その提示されたモデルがデータによって決定的に示されないかぎり納得しません。論文は、いつ説得が成功するか、いつ失敗するかを数学的に整理し、因果の主張を立証するのはしばしば容易だが、因果関係を否定するのはとても大変だと示します。
著者は、因果関係を向きを持つ矢印で表す「有向非循環グラフ(directed acyclic graph, DAG)」を使って理論を作りました。前提として発信者は真の因果グラフと全データを見ています。発信者は受け手にいくつかの変数を公開し、その変数どうしの本当の関係(同時分布)を示します。受け手の側は二種類を想定します。単純な受け手は提示されたモデルがデータと矛盾しなければ受け入れます。一方で「高度な」受け手は、データが因果リンクを決定的に示すときだけ受け入れます。論文はこの違いを踏まえて、どの変数を公開すれば説得できるかを示す条件を導きます。
主な発見の一つは非対称性です。単純な受け手なら、変数xとyが相関していれば発信者はxがyに影響すると示せます。しかし高度な受け手を説得するには条件が厳しくなります。真の因果関係を立証するためには、発信者はしばしばxとy以外の「適切な」1つか2つの変数を公開すれば足ります。これらを示すことで他の可能性(例えば交絡=共通の原因)が排除され、x→yという結論が導けます。逆に、もし発信者がxとyの関係を逆向き(y→x)と主張するのが真実と反する場合、そのような説得は不可能であることも示しています(論文中の定理1)。ただし発信者は、データを偽らなくても共通の原因による相関を因果と見せかけて受け手を誤導できる場合があるとも指摘しています。
受け手がすでに別の主観的モデルを持っている場合についても論じられています。発信者はまずその既存モデルを論駁(デバンク)する必要があります。重要なのは、既存モデルがただ変数を見落としているだけでは不十分で、その見落としが原因で既存モデルの因果関係が真のモデルと逆転しているか、新しい因果リンクを作っている必要がある点です。もし既存モデルが論駁可能であれば、論駁は空白状態の受け手を説得する場合と本質的に同じ作業になります。ここでも適切な変数があれば2つまでの公開で済むことがありますが、逆に「ある因果関係が存在しない」と受け手を納得させるには、当該の二つの変数のすべての共通原因を公開しなければならないため、作業量が際限なく大きくなり得ます。論文は具体例として、MBAと高所得の関係が本当は能力などの共通原因による相関にすぎないときに、教育が因果的に賃金を上げると説得する方法や、その逆に「因果はない」と示す難しさを説明しています。
この研究が意味することと限界です。意味することは明快です。因果的な話を作るのは案外少ない情報で済む場合があるのに対して、その因果が本当にないと示すのは多くの共通原因を突き止めて公開する必要があり、はるかに難しい、という点です。これには政策論争、宣伝、科学のコミュニケーションなどでの情報戦略の理解に役立ちます。一方で論文は理論モデルに基づく結果であり、いくつかの単純化された前提に依っています。例えば発信者が真の因果構造と全データを完全に知っていること、受け手が母集団データにアクセスできること、測定誤差や限られたサンプル、現実の情報コストや心理的要因は扱われていないことです。従って実世界での適用には慎重さが必要です。論文自体も、どの変数が「適切」かが存在する場合と存在しない場合で必要な公開量が大きく変わると明記しています。