時系列データ下で因果効果の不確実性を測る新手法:二重ロバスト適応コンフォーマル推論(DR‑ACI)
この論文は、時系列に依存するデータでも個々の処置効果(条件付き平均処置効果:CATE)の周りに意味のある予測区間を作る方法を示します。研究者は「二重ロバスト適応コンフォーマル推論(DR‑ACI)」を提案しました。DR‑ACIは観測可能な「二重ロバスト疑似アウトカム(pseudo‑outcome)」に対して区間を校正します。重要なポイントは、この校正は独立同分布を仮定しないため、金融や疫学のように時間的相関があるデータでも分布に依存しない(distribution‑free)カバレッジ保証を目指すことです。
研究者たちは次の仕組みを組み合わせています。まず、CATE自体は観測できない潜在量なので、条件付き結果モデルと割当確率(傾向スコア)を使って二重ロバスト疑似アウトカムψDRを作ります。二重ロバスト性とは、二つの補助モデル(「ヌイサンス」)のうち少なくとも一方が十分良ければψDRは正しく中心化される性質です。次に、時系列依存を扱うために「ブロック単位のクロスフィッティング」と「ガードバンド(隙間)」を導入します。これは校正用ブロックと学習用データの間に一定のギャップを設けて、直近の相関を弱める工夫です。さらに、適応型コンフォーマル推論(Adaptive Conformal Inference)の仕組みを重ねて、長期的な適合性を保つようにしています。
理論面では、DR‑ACIはカバレッジのずれ(coverage gap)を三つの成分に分解して評価します。一つは「ミキシングギャップ」で、過去と未来の依存の強さ(β‑mixing係数という、時系列依存の減衰を測る量)に由来します。二つ目は「ヌイサンスバイアス税」で、補助モデルの推定誤差の積に比例する項です。三つ目は「適応率」で、標本数Tに対しておおむねO(T−1/2)で減る項です。理論の結果は、一定のβ‑mixing(依存が十分速く減る)やヌイサンス推定の収束速度といった条件の下で、従来の独立性を仮定した場合と同等の速度が得られることを示しています。さらに、実験ではVS‑DR‑ACI(分散標準化バージョン)が分割コンフォーマル法と比べて区間幅を63%狭めたことや、依存とドリフトが同時に起きる状況でもカバレッジを約89.9%に保ったのに対し、従来のDML(ダブル機械学習)ベースの信頼区間はドリフト開始後に35ポイントほどカバレッジが低下したという結果が報告されています。
なぜ重要か。標準的なコンフォーマル法や信頼区間は観測の独立を前提にすることが多く、金融や市場のマイクロストラクチャーなど時間相関が強い場面では誤ったカバレッジを与えがちです。DR‑ACIはその問題に直接対処し、観測ごとの予測区間を時間依存下でも制御する一つの実用的な手法を提供します。実証面ではナスダックのDynamic M‑ELO(市場関連のロールアウト)に適用し、銘柄レベルの隠れた注文実行品質について区間を報告しています。コードも公開されています(https://github.com/rockandrolla13/draci)。
重要な注意点と限界もあります。まず、コンフォーマル校正は観測可能な疑似アウトカムψDRを直接の対象にしている点です。論文はこの予測区間が推定器が一貫的であれば潜在的なCATEを漸近的に包含する(保守的に覆う)ことを示しますが、潜在CATEに対する有限標本での(1−α)保証は証明していません。次に、理論の多くは厳密定常性(時間的な構造の変化や大きな構造変化、共変量のドリフトを除く)とβ‑mixingの仮定に依存します。実際のデータで起きる体制変化や急速なドリフトは定理の範囲外です(実験では頑健性の証拠を示すが理論保証はない)。また、理論で使うミキシング境界は現実には過大評価する傾向があると著者自身が指摘しており、より厳密な境界の導出は今後の課題としています。これらを踏まえ、DR‑ACIは時系列依存を考える上で有望な道具ですが、使用時は仮定とその限界を意識する必要があります。