Rパッケージgsynthの実装ミスで標準誤差が過小評価に──APSR掲載の3論文にも影響
何が起きたかを一言で言うと、人気のRパッケージgsynthの古いバージョンが、ある設定の組み合わせで標準誤差を大きく小さく見積もってしまっていた、ということです。具体的には、パラメトリック・ブートストラップ(inference = "parametric")とEM推定(EM = TRUE、IFE-EMと呼ばれる)を同時に使うと、gsynthは本来のアルゴリズムと異なる方法でサンプルを作り、結果として不確実性を過小評価しました。パッケージは2025年12月の1.3.1版でこの組合せをサポートしなくなり、現在の説明書では理論的に合わないと明記されています。
著者ら(Beniamino Green と P. M. Aronow)は、問題の核心を実装ミスに特定しました。Xu(2017)が提案した手順では、ブートストラップ用の新しいサンプルを作る際に“外部(out-of-sample)の予測誤差”を再現する必要があります。しかし、gsynthの古い実装はこれを省き、代わりに“学習に使ったデータ上の残差(in-sample residuals)”だけを使っていました。学習データの残差だけを再利用すると、ブートストラップサンプル間のばらつきが小さくなり、標準誤差が実際よりずっと小さく出ることがあります。著者らはこの誤りだけで標準誤差が桁違いに小さくなることを示しています。
研究チームは応用上の影響を評価するために、州レベルのパネルデータを使った乱置換(placebo)モンテカルロ実験を行いました。これにより、現実的な設定で偽の効果を高い頻度で検出してしまう(偽陽性率が高くなる)ことを示しました。さらに、米国政治学会誌(American Political Science Review)に掲載された3本の論文がこの挙動の影響を受けていることを特定し、該当箇所を再解析しました。元のgsynth実装での結果と、(a)実装ミスを修正した場合、(b)Xu(2017)の提案するGeneralized Synthetic Control(GSC)法を使った場合、の3通りを比較したところ、修正を加えると多くの結果が従来の基準で有意ではなくなり、GSCを使うと該当する全ての結果が有意でなくなりました。
この問題は実務で重要です。gsynthは広く使われており(2026年4月時点で週300回以上のダウンロード)、IFE系の手法は因果推論で人気があります。標準誤差の過小評価は、研究者が効果を「見つけた」と結論づける確率を不当に高めます。さらに注意すべき点として、潜在因子の数(モデルのランク)をデータから選ぶ手順は、推定の信頼区間の性質に大きく影響します。gsynth内のGSCとIFE-EMは、事前データの使い方が異なり、理論的な互換性の問題もあります。著者らの原稿をXu本人に共有したところ、Xuは実装ミスを認めると同時に、単に欠落した手順を戻すだけではIFE-EMに対するパラメトリック・ブートストラップが理論的に正当化されない可能性を指摘しました。著者らは「修正済み」と言う際に、それが実装上の修正にとどまることを明確にしています。
現状と勧告についても触れておきます。gsynthは2025年12月の更新で当該組合せのサポートをやめ、ドキュメントに注意書きを追加しました。実務的には、因子の数に対する感度(rank sensitivity)や擬似処置(placebo)診断を報告すること、GSCとIFE-EMを区別すること、そして「実際に適合している推定量」に理論的に裏打ちされた推論手続きを使うことが推奨されています。著者らは、元のAPS R事例の再解析を残したままにしていますが、Xuの追試が示すように一部の設定では小さな例外があり得る、という不確実性も報告しています。