有限サンプルで標準法は弱いことがある。分散削減で最良に近づく新手法VISOR
この論文は、確率的なノイズのある観測だけから滑らかで強凸な母関数の最小化を行う問題を扱います。研究者たちは、昔から使われる「サンプル平均近似(SAA)」や「平均化された確率的近似(Ruppert–Polyak–Juditsky平均、以後SA)」が、有限の現実的なサンプル数では期待した性能を出さない場合があることを示しました。代わりに、分散削減(variance reduction)を取り入れた新しいアルゴリズムVISORが、同じサンプル数でこれらより大きく改善できると示します。加速版のVISORは、対数因子を除けばインスタンス最適(その問題ごとに可能な最良に近い)であると主張しています。
問題の設定は単純に言うと次の通りです。観測zは未知の分布から独立に得られ、各観測についての「サンプル毎の目的関数」f(x,z)の期待値F(x)=E[f(x,z)]を最小化したいが、手元にあるのはn個のノイズのあるサンプルだけ、というものです。古典的な理論では、スケールを√nで拡大すると推定誤差が正規分布に近づき、その分散は逆フィッシャー情報行列に関連する行列Λの跡(trace(Λ))で表されます。しかしこれは漸近(n→∞)の話で、有限サンプルではこの漸近結論が実用的でないことが多いと筆者らは指摘します。例えば論文の二次問題の例では、平均化された確率的勾配法が漸近的には正規分布に従うにもかかわらず、現実的なnでは誤差分布が歪み、想定よりずっと大きな二乗誤差を生じました。
そこで著者らは二つの理論的手掛かりを出します。一つは有限サンプルでの「局所ミニマックス下界」を情報理論的に導出したことです。この下界はインスタンス依存的で、やはりtrace(Λ)が主要な幾何学的量として現れますが、その形はサンプル数が問題依存の閾値n0を超えるかどうかに左右されます。二次問題の例ではパラメータζに対して閾値がおよそc·ζ^2となり、nがそれより小さいとどのアルゴリズムでも有限の良好な誤差は期待できないことが示されます。もう一つは新しいアルゴリズムVISORの提案です。VISORは分散削減の仕組みを組み合わせ、必要に応じて内側で加速された確率的近似ループを回します。
結果として、VISORは二次最適化問題では有限サンプルの非漸近下界に対して対数因子まで一致します。一般の非二次問題についても、追加の雑音に関する仮定の下で局所下界にほぼ到達すると示されます。さらに加速版は「オラクル複雑度」(基本的には必要な一階情報、つまり勾配の問い合わせ回数)についても最適であると主張されます。理論の応用例として、一般化線形モデル(generalized linear models)に対して従来結果を改善し、線形回帰でも既知の中で最良の非漸近・インスタンス依存の一般化誤差境界を得たとしています。
注意点として重要なのは、これらの結論は特定の仮定の下に成り立つことです。対象は滑らかでµ-強凸な母関数であり、観測ノイズは加法と乗法の両方を含む確率的オラクルのモデルに従うと想定されています。VISORの一般性や厳密な最適性は、二次問題では明確に示されますが、非二次の場合は追加の雑音仮定が必要であり、最良結果は「対数因子まで」や「ほぼ到達」といった形で述べられます。また、論文で示される有限サンプルの閾値は問題に依存しており、閾値が大きければ実際に大量のデータが必要になります。PDF抜粋は本文の一部であり、詳細な定理や証明、具体的な定数は本文で確認する必要があります。