なぜ遺伝的アルゴリズムは次元の高い探索空間でも働くのか:小さな変異で「勾配をたどる」仕組み
この論文は、最も単純な遺伝的アルゴリズムの一つであるエリーティスト(1+M)スキームが、変異が小さい場合に「切り詰め勾配降下」にノイズが加わった動きと等価になることを示します。言い換えれば、アルゴリズムは明示的に勾配を計算したり、損失評価を平均したりしなくても、期待値としては損失の勾配に沿って進みます。ノイズは勾配と直交する方向に働き、これが収束を遅らせますが、その遅れはパラメータ数そのものではなく、損失の二次微分を表す行列(ヘッセ行列)の「有効ランク」によって決まると論じられています。これが高次元でも遺伝的アルゴリズムが機能する理由の一つだと著者は提案します。
研究者は(1+M)遺伝的アルゴリズムを数学的に扱いました。ここでは親個体から正規分布に従う小さな変異でM個の子を作り、損失が最も小さい子だけを次世代に残す単純な手順を想定します。この操作を確率過程として書き下し、変異規模が小さい極限でフックの法則に相当する確率方程式(ランジュバン方程式/フォッカー–プランク方程式)へと近似しました。結果として得られる平均的な動きは、損失の勾配方向を大きさで割った「切り詰めた」方向に進む項と、方向ごとに強さが異なるガウス白色ノイズの項から成ることが示されます。
この結果の意味は二つあります。第一に、ランダム変異と「最良個体選択」だけで、期待値として勾配に沿う更新が実現される点です。従って勾配を計算できない状況でも、アルゴリズムは暗黙に降下方向を学べます。第二に、ノイズが収束速度を遅らせるが、その影響はパラメータ数Nではなくヘッセ行列の固有値分布に強く依存するという点です。ヘッセ行列は損失の曲がり具合を示す二次微分の行列です。著者は固有値がべき則で減少する場合を解析し、固有値が k^{-a} に従うとき有効ランクは a の値に応じて N に対して緩やかに増えるか、ログ増加か、ほとんど増えないかの三相を示します。実際のニューラルネットワークでは a が約0.8〜1.3と報告されており、この範囲では有効ランクがパラメータ数に比例して増えないため、遺伝的アルゴリズムの遅延は線形に増えるよりずっと穏やかになる可能性があります。
論文は理論結果を数値でも示しています。まず異方的な二次関数の損失と、小さなニューラルネットワーク(重み数241)を用いた実験で、個々の遺伝的アルゴリズムの経路はノイズのある理論予測の周りで揺らぎ、複数回の平均はノイズなしの切り詰め勾配降下の経路と一致しました。ただし一致は変異規模が十分小さい場合に限られます。特に、勾配の大きさが変異の大きさに比べて十分大きい(具体的には勾配の大きさが変異×ヘッセの大きさより大)ときに近似が成り立ち、臨界点や勾配が小さい場所では近似が壊れます。
重要な注意点も明示されています。解析は変異が小さい極限に基づきます。損失関数が滑らかで、探索経路近傍のヘッセ行列が正定であるという仮定も置いています。ヘッセの分布に関する遅延評価はスケーリング議論であり、厳密な学習理論ではありません。さらに、勾配が利用可能で信頼できる場合は通常の勾配法の方が効率的です。遺伝的アルゴリズムが有用になるのは、勾配が計算できない、消える・発散するなど信頼できない、あるいは実験で直接勾配を測れないような状況です。著者自身も、この理論が遺伝的アルゴリズムの挙動を部分的に説明することを狙いとしていると述べています。