機械学習で作った世界初の時系列降水データセット、MSWEP V3が毎時0.1°で利用可能に
この論文は、機械学習を使って作った世界規模の降水量データセット「MSWEP V3」を紹介します。データは1979年から現在までの毎時値を0.1度メッシュで提供し、ほぼリアルタイムで約2時間の遅延で更新されます。研究チームはこれを「全世界で連続的に使える歴史的な機械学習ベースの降水データ」として位置づけています。
開発は二段階で進められました。まず衛星データや再解析に基づく降水・気温のデータと、地形などの静的な変数を組み合わせた機械学習モデル群(モデルスタック)でベースとなる降水場を作成しました。この段階のモデルは世界中の15,959の観測雨量計(時間・日単位の観測)を用いて学習しています。次に、そのベース場をさらに補正するために、日次で57,666局、月次で86,000局の雨量計データを使って調整を行いました。
性能評価は、ベース段階の出力を独立した15,958局の雨量計で検証する形で行われ、19の(準)世界規模グリッド降水製品と比較されました。指標にはKling-Gupta Efficiency(KGE、相関・偏り・変動性を総合する性能指標で、値が大きいほど良い)を用い、MSWEP V3のベースは日次の中央値でKGE=0.69を記録し、比較対象の中で最も良い成績でした。参考として、他製品の中央値はERA5(再解析)が0.61、IMERG-Lが0.46、GSMaPが0.38、CHIRPが0.31でした。
さらに日次のゲージ補正効果を評価するために「一つ外し交差検証(leave-one-out cross-validation)」を行い、中央値の相関が0.09だけ改善したと報告しています。これはベース性能が既に高かったため、補正で得られる改善幅が限定的だったことを示します。ただし論文は、不確実性や地域ごとの性能差が残る可能性を示唆しており、利用時にはその点を考慮する必要があります。
このデータセットは、洪水や干ばつの監視、短期予報、資源管理など、水に関わるリスクの監視と管理をより確実にすることが期待されています。データは継続的に更新され、公開URL(www.gloh2o.org/mswep)から入手できます。研究は性能評価で既存手法を上回る結果を示していますが、地域差や観測網の制約などの制限が残る点は重要な注意点です。