不完全な投票でも使える「順位の距離」を数学的に整理し、有権者の塊(ブロック)と候補のスレートを見つける道具を作った研究
この論文は、順位(ランキング)を比べるための距離の考え方を不完全な投票(部分的な順位表)にも自然に拡張する数学的な枠組みを示します。研究者たちは、統計でよく使われる二つの順位距離――Kendall(ケンドール)tau と Spearman(スピアマン)footrule――を、座標埋め込み(ベクトルに変換する方法)とグラフによる実現の両方で扱えるようにしました。これによって、距離に基づく好みのモデルや、選挙の分極化、比例性といった話題を一つの視点でつなげられます。
具体的には二種類の埋め込みを使います。Borda(ボルダ)埋め込みは、各候補に対して「m−順位」のような得点を割り当て、各投票を候補ごとの得点ベクトルに変えます。head-to-head(対戦)埋め込みは、各候補ペアについてどちらが上位かを+1/0/−1で記録するベクトルにします。これらのベクトル間の半分のL1距離(要するに成分の差の合計の半分)をそれぞれの距離dBとdHとして定義すると、前者はSpearmanのfootrule、後者はKendallのtauに対応します。対戦埋め込みでのL1最適中心はKemenyランキング(集団の相互比較の不一致を最小にするランキング)になりますし、Borda埋め込みのL2最適中心は従来のBordaルールに対応します。
さらに、研究者たちは「票のグラフ(ballot graph)」という、順位を節点にしたまばらなグラフ構造も作りました。このグラフの最短経路距離で上に述べた順位距離を再現できます。グラフ実現は計算上有利になることがある一方で、部分的な順位を扱う際には注意が必要です。特に部分票の扱い方として「未記載の候補を末尾に置く保守的(pessimistic)規約」と「未記載候補に平均順位を与える平均(averaged)規約」の違いが結果に影響します。論文は、保守的規約の下でのBordaグラフはうまく働くが、平均規約では必ずしも同じとは限らないことを示しています。
応用として、著者らはこの距離構造を使って有権者の塊(ブロック)や候補のスレート(複数候補のまとまり)を効率よく見つける方法を提示しました。部分票のままでも定義が働くため、合成データだけでなく実際の選挙データにも適用できます。実験には合成選挙に加えて、2012年から2022年のスコットランドの地方選挙約1000件超のランク投票データ(主要5党と多数の小党を含む)を用い、党派ラベルを使わずに有権者のまとまりを学習できることを示しています。興味深いことに、ある手法群(Condorcet準拠のランキング規則に基づくもの)と別の手法群が、しばしば同じような有権者グループを生むことが報告されています。
重要な注意点も示されています。部分的な順位への拡張は自明ではなく、どの規約を選ぶかで結果が変わり得ます。論文は最悪事態(worst-case)の解析ではなく、二つの距離の最も妥当な取り扱い方の詳細な研究を行ったものであり、最悪ケースでの「歪み(distortion)」を評価することが主目的ではありません。また、提案手法は投票がある確率モデルに従うと仮定してクラスタを学ぶわけではなく、非確率的な方法でクラスタを検出します。そのため、モデル選択や部分票の扱いに関する選択が実際の応用で結果に与える影響を慎重に見る必要があります。