分布全体で因果効果を推定する新手法:ドイツ東西の賃金格差を例に
この論文は、平均だけでなく「分布全体」に着目して因果効果を調べる新しい枠組みを提示します。従来の平均処理効果(Average Treatment Effect, ATE)は結果の平均値しか見ませんが、本研究は「反事実密度(counterfactual density)」と呼ぶ考え方を使い、結果の形や山の位置、ゼロにたまる確率なども含めて効果を検出できます。反事実密度とは、ある群の条件付きの分布を別の群の共変量(説明変数)の分布に置き換えたときにどう変わるかを表すものです。簡単に言えば「もしAの条件でBの人が暮らしていたら分布はどうなるか」を見る道具です。
研究手法としては、Oaxaca–Blinder分解に似た「乗法的(multiplicative)分解」を用います。具体的には二つの効果に分けます。一つは分布効果で、条件付き密度そのものを変えたときの影響です。もう一つは共変量効果で、共変量の分布を仮に変えたときの影響です。因果的な解釈は、標準的な仮定である無交絡(観測されない交絡がないとする仮定)とオーバーラップ(どの共変量でも両群に重なりがあること)が成り立つ場合に可能だと論文は述べています。推定には「ベイズ・ヒルベルト空間(Bayes Hilbert space)」という、密度関数が負にならず面積が1になる性質を保つ数学的空間を使い、柔軟な加法的回帰モデルで条件付き密度を推定します。計算はポアソン近似の回帰問題として扱えると説明しています。
方法の有用性はドイツの東西賃金格差の分析で示されます。所得分布は片寄りや二峰性(山が二つある形)、そしてゼロがたまる(失業などで所得がゼロになる)といった特徴があります。定量や分布関数だけを見てもこれらは捉えにくいことがあります。本研究の結果では、再統一後30年で東西格差は狭まったものの差は残り、その差は共変量の違い(例えば学歴や年齢の構成)よりもむしろ条件付き分布の違いに起因することが多い、と報告されています。さらに、差異は男性集団でより目立つため、東西賃金格差は「男性に特有の問題」である可能性が示唆されます。
なぜ重要かというと、この手法は平均だけで見落としがちな分布の形を直接比較できる点です。特に所得のように連続・離散が混ざった変数や、ゼロが多い場合に有利です。また、従来の分位点回帰(quantile regression)や累積分布関数による手法を補うものになり得ます。密度比(比率)に基づく局所的な差の検出も可能で、低密度領域での解釈上の利点があると論文は述べています。
重要な注意点もあります。因果的解釈をするには無交絡とオーバーラップという前提が必要です。条件付き密度の正確な推定が結果に直結するため、推定モデルの仕様やデータの性質に敏感です。完全に非パラメトリックな方法は次元の呪い(説明変数が増えると精度が落ちる)に悩まされ、逆に固定的なパラメトリックモデルは誤特定のリスクがあります。本論文は柔軟な加法モデルとベイズ・ヒルベルト空間でこれらを仲介すると主張しますが、最終的な結論はデータとモデルの選択に依存します。また、論文内でシミュレーションや推定の詳細が示されていることが記載されていますが、ここで示した抜粋は全文ではないため、実際の適用範囲や感度分析の結果は本文で確認する必要があります。