機械学習日本語公開済み

2つのデータ群を“角度”で比べる方法：GSVDを使った一枚ごとの幾何学的診断

2026年3月16日arXiv: 2603.10283v1

この論文は、2つのデータ集合を点ごとに比べるためのシンプルで解釈しやすい指標を提案します。研究者らは観測値を単なるベクトルとして扱わず、共通の空間における幾何学的な関係＝線形関係を尊重する視点から出発しました。具体的には、AとBという二つのデータ行列について「Ax = By = z」という形の共通表現（co‑span）を基本対象とし、各サンプルzがどちらのデータ集合でより説明されやすいかを一つの角度で示します。

手法の中心はGSVD（一般化特異値分解：Generalized Singular Value Decomposition）です。GSVDはAとBを共通の座標系で表し、A = H C U、B = H S Vという分解を与えます。ここでHは共通の基底、CとSは対角（またはブロック対角）構造を持ち、C^T C + S^T S = Iという関係で共有方向とデータ特有の方向を分けます。論文はこの分解から、あるサンプルzに対してθ(z)という「整合角」を定義します。θ(z)は最小ノルム解の係数の大きさの比を角度に写したもので、θ≈0は「よりAに説明される」、θ≈π/2は「よりBに説明される」、θ≈π/4は「両方に同程度説明される」ことを意味します。

計算はGSVDの座標で行います。まずzをHの座標に写してc(z)=H† z（†はムーア・ペンローズ擬似逆行列）を得ます。次にCやSで重み付けしたコストa(z)=||C† c(z)||、b(z)=||S† c(z)||を計算し、θ(z)=arctan(a(z)/b(z))で角度を出します。研究者らはこの角度の挙動をMNIST（手書き数字データセット）上で示し、角度分布の図やGSVDで得られる代表的な方向を提示しています。さらに、θ(z)を用いた単純な二値分類器を例示的に作り、角度が診断ツールとして機能することを示しています。

この仕事の意義は、データ集合間の類似性を「点ごとの幾何学」で可視化できる点です。既存の分布比較や表現類似性の指標は全体的なスカラー値や行列を返すことが多く、個々のサンプルがどのように寄与しているかは見えにくいことがあります。θ(z)はサンプル単位で「どちらに近いか」を直感的に示せます。応用例としては、転移学習でどのソースデータを重視するかの選別や、データシフトの診断、モデル比較の補助などが考えられます。

重要な注意点もあります。まずθ(z)は線形関係を前提にしています。非線形な違いを持つデータや、共通の特徴空間がそもそも成立しない場合には適用できません。θ(z)は定義上、zがAとBの列空間の交差（col(A) ∩ col(B)）にある場合にのみ計算可能で、それ以外のサンプルは「非関係的」とされます。数値計算ではムーア・ペンローズ擬似逆行列の切り捨てや安定化が必要になることが示唆されています。論文はMNISTでの挙動を示すことで方法の直観性を示していますが、他のデータや大規模・高ノイズ環境での一般性については慎重な検証が必要です。