学習データを「設計」して気候エミュレータの汎化力を高める方法
この論文は、機械学習で作る気候エミュレータ(物理モデルの代わりに素早く予測を出す統計的代理モデル)の性能を、学習データそのものを最適化することで向上させる方法を示します。著者らは、既存の標準的な排出シナリオ群(ScenarioMIP)が持つ構造的多様性の乏しさがエミュレータの性能に上限を作っていると指摘し、より少ない計算でより汎化できるモデルを作るために、入力となる排出経路を設計する手法を提案しました。
研究者たちは、差分可能(微分が取れる)な単純気候モデル(Simple Climate Model, SCM)を使い、学習に使う排出経路を調整してエミュレータのテスト誤差が小さくなるよう繰り返し更新する仕組みを作りました。SCMはFinite-amplitude Impulse Response(FaIR)というモデルに基づいており、CO2、CH4、N2O、硫黄エアロゾル、黒色炭素といった主要な強制因子を扱います。手順は大きく四段階で、(1)初期の排出経路でエミュレータ(ここでは多層パーセプトロンという単純なニューラルネット)を学習、(2)目標のテストシナリオ群で性能を評価、(3)自動微分でテスト誤差が学習データのどの変化に敏感かを計算、(4)確率的勾配降下法で学習用の排出経路を更新して繰り返す、という流れです。評価指標には正規化二乗平均平方根誤差(NRMSE、最大の地上平均気温で正規化)を用いています。
結果として、著者らは一つの最適化された排出シナリオだけで学習したエミュレータが、標準のScenarioMIPの6経路で学習したベースラインより高い予測性能を示すと報告しています。しかも学習データはより小さく済みました。興味深い点は、この最適化手法で学習したエミュレータが、CO2など個別の強制因子の異なる物理的振る舞いを、単独の強制実験(single-forcing runs)を行わずに識別できたことです。さらに、このSCMで最適化したシナリオをより複雑な系を扱う中間複雑度モデル(EMIC)であるMITEarthSystemModel(MESM)に入力して得たデータで学習しても、ScenarioMIP出力で学習した場合より性能の高いエミュレータが作れたと報告されています。これは、最適化シナリオがより高次のモデルにも有用に移転し得ることを示唆します。
意義は明確です。フルスケールの地球システムモデル(ESM)は計算コストが非常に高く、多様な訓練データを作るのが難しい点が問題です。著者らの結果は、計算資源が限られる状況では従来の多数の現実的排出経路を増やすよりも、少数の「動的に豊かな」最適化シナリオを作る方がエミュレータの学習により大きな価値を与える可能性を示しています。これにより、エミュレーションや気候応答の特徴付けがより効率的になる可能性があります。
ただし重要な制約もあります。今回の検証は差分可能なFaIRに基づくSCMと、中間複雑度モデル(MESM)をプロキシとして使った結果に基づいています。扱った強制因子の集合は主要なものに限定されており、フルな地球システムモデルでの直接検証や、もっと多様な物理過程を含めた場合に同じ効果が得られるかは本稿の抜粋からは確定できません。また、本研究はモデルアーキテクチャの工夫ではなく学習データ設計に焦点を当てています。したがって、現実のESMデータやより多様な強制条件での追加検証が必要です。