ムンバイの月別マラリア発生を「カウント時系列モデル」で予測 過分散と時系列依存を同時に扱う重要性を確認
この論文は、インド・ムンバイ地域の月別マラリア発生数を使って、発生予測に適した統計モデルを比較した研究です。研究チームは2012年から2019年までの保健管理情報システム(HMIS: Health Management Information System)に記録されたPlasmodium vivax(マラリア原虫の一種)の月次データと気象変数を用いました。主な結論は、データのばらつき(過分散)と時間的な依存性を同時に扱うモデルが予測で優れる、というものです。
研究者はまず一般化線形モデル(GLM: Generalized Linear Model)の代表的な手法であるポアソン回帰を試しました。ポアソン回帰は平均と分散が等しいという仮定を置きますが、診断の結果、データはその仮定を破る「過分散」を示しました。そこで分散が平均より大きい状況を扱えるネガティブ・ビノミアル(negative binomial)回帰に切り替えたところ、データの性質をよりよく表せることが分かりました。さらに残差(モデルと観測の差)を調べると、時系列の連続した依存性が残っていることが明らかになりました。
この時間的依存を明示的に扱うために、研究者らはGLARMA(Generalized Linear Autoregressive Moving Average:一般化線形自己回帰移動平均)というフレームワークを使いました。簡単に言えば、GLARMAは回帰の仕組みを保ちつつ、過去の発生が現在の発生に与える影響を「潜在的な自己回帰過程」としてモデルに組み込みます。モデルはトレンド(長期変化)、季節性(月ごとの周期性)、外部の気象変数を説明変数として分けて扱います。予測はシミュレーションに基づいて行い、移動窓を用いた時系列クロスバリデーションで4つの予測先行期間(ホライズン)にわたり性能を比較しました。
結果として、ネガティブ・ビノミアルを分布仮定にしたGLARMAモデルが、単純な回帰モデルやガウス型のARIMA(自己回帰和分移動平均)ベンチマークよりも一貫して良い予測精度と安定性を示しました。また、個々の気象要因よりも季節性の影響が強く見えたことが報告されています。こうした知見は、都市部でのマラリア監視において過分散と時系列依存の両方を同時に扱うことが重要であることを示し、早期警報システムの補助としてカウント時系列モデルが有用である可能性を示します。
ただし重要な注意点もあります。対象はムンバイ市とムンバイ郊外の月次Plasmodium vivaxデータに限られます。モデル化にあたっては、過剰なパラメータ化を避けるために潜在過程を自己回帰AR(p)に制限するなどの設計判断が入っています。また、観測データには監視制度の変化や測定誤差など、本研究で完全に取り除けない不確実性が残る可能性があります。研究者らは予測時の誤差増幅のリスクに対処するため、シミュレーションから得た条件付き平均の中央値を用いる工夫をしていますが、長期予測や別地域への単純な外挿には慎重さが必要です。