多数の「専門家」を集めた学習モデルが平均場で振る舞うことを証明 — 量子ニューラルネットワークにも応用
この論文は、Mixture of Experts(複数の“専門家”の平均で作るモデル、MoE)を勾配流(continuous-time gradient flow)で学習したときに、専門家の数を無限に増やすとモデルのパラメータ分布が決まった「平均場(mean-field)」の振る舞いに収束することを示します。著者らは、この収束を「カオスの伝播(propagation of chaos)」という言葉で定式化し、パラメータの経験的分布がある非線形な連続方程式の解に近づくことを定量的に示しました。応用例として、各専門家をパラメトリックな量子回路(量子ニューラルネットワーク)で置き換えた場合についても扱っています。
研究で行ったことは次の通りです。モデルは N 個の同型な専門家 f(θ,x) の平均 FN(x)=1/N Σ_i f(θ_i,x) で表されます。各 θ_i は位相空間としての d 次元トーラス T^d 上にあり、初期値は一様分布から独立に取られます。損失関数は教師あり回帰の二乗誤差で、パラメータはその勾配流で更新されます。主結果として、任意の固定時刻 t に対して経験的分布 μ_{Θ_N(t)} と平均場の分布 μ_t の二乗ワッサースタイン距離 W_2 の期待値が制御され、ある定数 C に対して E[W_2(μ_{Θ_N(t)},μ_t)] ≤ C N^{-2/d} の形の収束率が得られると示しました(論文では次元 d>4 を仮定)。ここで μ_t は式 dμ_t/dt = −∇_θ·(b(θ,μ_t) μ_t) で記述される非線形連続方程式を満たします。ベクトル場 b はデータ点ごとの勾配とモデル出力の平均との差から構成されます。
直観的には「カオスの伝播」とは、多数の相互作用する粒子(ここでは専門家)が個々にはほとんど独立に振る舞うようになる現象です。著者らは、個々のパラメータ列の経験的分布の距離を測る道具としてワッサースタイン距離(Wasserstein 距離)を使い、分布間の幾何的な近さを定量化しました。W_2 は分布間で質量を最小コストで移動するコストを距離として使う指標です。
量子ニューラルネットワークへの応用では、各専門家がパラメトリックな量子回路となり、モデル出力は回路による観測値の期待値として与えられます。本研究は、そうした量子回路群の平均をとる MoE を対象に、専門家の数を増やす極限で経験的分布が平均場方程式に従うことを数学的に保証します。先行研究が無限幅やガウス過程としての振る舞いを扱ったのと異なり、本論文は出力関数が一様有界であり「レイジー学習(lazy training)」にならない系を扱っている点が特徴です。
重要な注意点もあります。証明は次元 d>4 やモデル関数に対する適切な正則性(滑らかさ)などの仮定の下で成り立ちます。収束率はパラメータ空間の次元 d に依存するため、次元が高いと多くの専門家が必要になります。さらに、与えられた評価は任意の固定時刻 t に対するものであり、学習時間 t→∞ に対する評価は保証されません(論文中でも無限学習時間での平均場の妥当性は未解決問題として残されています)。これらの限定条件を踏まえれば、本研究は多数の専門家を持つ MoE の訓練ダイナミクスを平均場方程式で扱うための明確な数学的根拠を与えるものです。