制御が確率分布を変える系を現場測定だけで最適化する手法の解析
この論文は、制御入力が不確実性の分布を変えるようなネットワーク化されたシステムを、現場の出力測定だけを使って最適に動かす方法を扱います。こうした問題は「決定に依存する確率分布(decision-dependent distributions)」と呼ばれます。著者らは、制約付きの確率的最適化問題に対して、実時間で動くフィードバック最適化(Online Feedback Optimization, OFO)の枠組みを拡張しました。主な理論結果は、アルゴリズムの追従誤差(平均二乗誤差)に対する上界です。これは定常状態での誤差の大きさを示します。論文では電力系に価格応答資産がある場合の数値実験も示しています。
研究者が行ったことは次の三点です。第一に、実際の出力測定を使って勾配の近似を得る、投影付きのプリマル・デュアル型確率的勾配降下アルゴリズムを提案しました。ここで「デュアル制約集合」は最適化に必要な補助の変数に対する制約で、実務では正確に分からないことが多いため、研究者らは既知でない真の集合の代わりに「代用(サロゲート)集合」を使う設計にしました。第二に、このアルゴリズムが「パフォーマティブに安定な鞍点(performatively stable saddlepoints)」と呼ばれる、入力が作る分布に対して自己一致する解にどれだけ近づくかを解析しました。第三に、誤差項を四つの原因に分けて明確に説明しました。
解析の主な示唆は上界の形に集約されます。誤差は(i)問題の確率性、自体のばらつき、(ii)出力測定の誤差、(iii)問題が時間とともに変わること、(iv)代用デュアル集合と真のデュアル集合の不一致、という四つの寄与に分解できます。具体的には、各寄与に対応する定数が現れ、ステップ幅(学習率)αとの関係で定常誤差の大きさが決まります。いくつかの分かりやすい特別例も示されています。例えば乱数が時間で変わらないなら(i)は消え、代用集合が真の集合を包含すれば(iv)は消えます。さらに測定誤差や時間変動、代用集合の誤差が無ければ、誤差は学習率に比例するO(α)の振る舞いになり、従来の確率的勾配降下法と整合します。
論文は厳しい前提のもとで解析を行っています。主な仮定は、目的や制約の関数が凸で勾配がリプシッツ(滑らかさの上限)であること、入力集合と代用デュアル集合が有界であること、スレーター条件(実行可能な余裕があること)を満たすこと、測定誤差の二乗期待値が有界であること、そして分布の入力依存性が二乗平均の意味でリプシッツであること、です。これらの仮定の下で、勾配作用素は平均二乗でリプシッツかつ強単調であり、確率的変動も有界であることが補題として示されています。
重要な注意点と限界です。上界は定常状態での「上限」を与えるものであり、必ずしも速い収束や厳密な収束速度の保証を単独で意味しません。また、代用デュアル集合が真のデュアル変数を含まない場合は、そこから生じる誤差項が残ります。解析結果は仮定群と定数に依存しますので、実際の系で使う際はこれらの仮定が成り立つかを確認する必要があります。論文は最後に、電力系の数値例で理論の有用性を示していますが、実運用での評価や分布推定の実装は今後の課題です。