2次元の隣り合い予測で高速化:SSDが自己回帰型画像生成を最大13.3倍に
この論文は、画像を1列に並べる既存の自己回帰型(オートレグレッシブ)生成で生じる計算の壁を、画像の“2次元の形”を使って突破する方法を示します。著者たちはSpatially Speculative Decoding(SSD)と呼ぶ枠組みを提案しました。要するに、従来の「次に来る1つのトークンだけを予測する」やり方をやめ、隣接する右側のトークンと下側のトークンを同時に予測します。これが主なアイデアです。
問題の背景はこうです。自己回帰モデルは画像を文章のように1次元の連続したトークン列として扱います。こうすると、画像本来の横・縦の近さ(2次元の局所性)が失われます。その結果、推論(画像を生成する処理)で多くの逐次的な処理や大量のメモリが必要になり、速度のボトルネックになります。著者はこれを「メモリウォール」と呼んでいます。
SSDのやり方は直感的です。画像の自然な2次元構造を利用して、ある位置のトークンから右と下のトークンも同時に予測します。こうすることで、隣接する画素(トークン)間の相関を生かし、1次元に平坦化したときに生じる非効率さを減らします。論文の説明によれば、この「空間的に投機的な」予測を組み込むことで、推論時の計算とメモリの壁を緩和できるとしています。
実験では、DPG-BenchとGenEvalというベンチマーク上で検証し、生成速度を最大で13.3倍にできたと報告しています。同時に、出力画像の忠実度(品質)も高く保てたと述べています。これが本当なら、高解像度の自己回帰生成モデルをリアルタイムに近い速度で動かせる道を開く可能性があります。
重要な注意点もあります。ここで示した情報は要旨に基づくもので、詳細な実装や条件、品質評価の細かい結果は論文本体にあります。「最大13.3倍」は最良ケースを示す表現であり、全てのモデルやデータで同じ改善が出るとは限りません。著者は高い忠実度を維持したとしていますが、実世界の幅広い応用での一般化やトレードオフ(例えば学習時間やモデルの複雑さ)についてはさらに検証が必要です。