生成モデルは「データのかたまり」と「主要成分」を別々に学ぶ — 線形モデルで示された記憶、収束、一般化の違い
この論文は、生成モデルが訓練データをそのまま覚えてしまう「記憶(memorisation)」と、新しい良いサンプルを作れるようになる「一般化(generalisation)」の違いを、線形の単純なモデルで明確に分けて示します。著者らは、独立に学習したモデル同士が同じ潜在変数(乱数)から似た出力を作る「収束(convergence)」が起きても、それがデータの主要な潜在要因(主成分)を復元していることを必ずしも意味しないと示しました。重要な結論は、一般化は少なくとも二つの目的に分解できるという点です。ひとつはデータ分布の「塊(bulk)」を一致させること、もうひとつは主要な潜在因子を取り出すことです。収束は前者を捉えているにすぎません。
研究の方法は数学的で単純化された設定です。入力は平均ゼロの多次元正規分布として扱い、共分散行列は「単一の強い方向(スパイク)」を持つ低ランク摂動で表します(いわゆるスパイク・ウィシャートモデル)。生成モデルは訓練データの共分散の平方根を使ってノイズからサンプルを作る線形モデルです。重要な制御変数はサンプル数と入力次元の比率で、γ := n/d として扱います。また、記憶や収束、潜在復元を測るためにそれぞれ m(記憶度合い)、q(独立学習モデル間の出力の一致度)、Q(主要潜在の復元度)という指標を導入しています。論文は高次元極限(次元が大きい場合)での厳密な解析を行います。
主な結果は次の通りです。まず、データが非常に少ないとき(nが小さい)にはモデルは訓練例をほぼ丸ごと記憶します。たとえば n=1 なら完全に記憶されますが、サンプル数を増やすと記憶の度合いは速く下がります。正則化(小さなノイズ項)を入れると記憶はさらに減ります。次に、独立に学習したモデル同士の出力の一致 q は、サンプル数が入力次元と同じくらいのスケール(n が d と同じオーダー)のときに連続的に増え始めます。解析では q をサンプル共分散の固有値分布(マルチェンコ/パストゥール分布)に基づいて正確に表現でき、その結果、n≈d の領域でゼロから1へ滑らかに遷移することが示されます。簡単に言えば、十分多くのデータがあれば別々に学習しても「塊」の特徴は一致するようになります。
一方で、主要な潜在因子(主成分)の学習は全く別の振る舞いを示します。主要因子の復元 Q は鋭い転移を伴い、収束 q の連続的な立ち上がりとは独立して起きます。つまり、モデル出力が互いに似ていても、それがデータの本当に重要な方向を正しくとらえているとは限らないのです。著者らはこの区別を理論的に示し、スペクトルがべき乗則に従うデータや、畳み込み型のデノイザーを使った実験、そして先行研究(Kadkhodaie et al.)の実データでも同じ区別が観察されると報告しています。これにより、生成モデルの一般化は「分布の塊を一致させること」と「主要潜在を復元すること」という少なくとも二つの異なる課題に分解できると主張します。
注意点と限界も明確です。解析は線形モデルとガウス分布、そして高次元極限という単純化された仮定の下で行われています。現実の深層生成モデルは非線形であり、ここで得られた結論がそのまま当てはまるとは限りません。著者ら自身は実験的に同様の区別が現実データでも観察されると述べていますが、理論はあくまで簡潔化された設定での厳密結果です。また、正則化やデータのスペクトル形状(塊と外れ値の存在)が結論に強く影響するため、実際の応用ではこれらの条件を注意深く見る必要があります。本文は「収束が起きても潜在復元は別物」といった慎重な解釈を促しています。