Tuna-2:視覚エンコーダーを使わず生のピクセルから理解と生成を両立するAIモデル
この論文は、画像と言葉を同時に扱う「統一マルチモーダルモデル」で、従来必須と考えられてきた事前学習済みの視覚エンコーダーを捨て、ピクセルそのものの埋め込み(pixel embeddings)で理解と生成を行う新しいモデルTuna-2を示します。著者らは、単純なパッチ埋め込み層で生画像を直接トークン化し、ひとつのトランスフォーマーで画像とテキストを処理することで、両方の能力を端的に統合しました。論文はこの設計が多様なベンチマークで最先端の性能を出すと報告しています。
研究チームは段階的に既存設計を簡略化しました。まずVAE(変分オートエンコーダー)を取り除き、画像を表す事前学習済み表現エンコーダーだけを残した中間版「Tuna-R」を作りました。さらに進めて表現エンコーダーも廃し、画像を小さなパッチに分けて数値ベクトルに変換する「パッチ埋め込み層」だけを使う設計がTuna-2です。パッチ埋め込みとは、画像を一定サイズの小片に切り、それぞれをモデルが扱えるベクトル(トークン)に変換する単純な処理です。
生成のためには、Tuna-2はピクセル空間での「フローマッチング」(flow matching)という手法を採用しました。これは画像にノイズを加えた状態から元のきれいな画像を直接予測する学習法で、論文ではx-予測とv損失(速度項に基づく損失)という具体的な目標で訓練しています。推論時は数値解法(Eulerソルバー)を使って段階的にノイズを取り除き、最終的な画像を生成します。また、ピクセル空間での学習は次元が非常に高く不安定になりやすいため、学習の安定化と堅牢な特徴習得のために「マスキングベースの特徴学習」を導入しました。これは学習中にランダムに一部のパッチを学習可能なマスクトークンで置き換え、モデルが欠けた視覚情報でも意味のある表現を学ぶようにする手法です。
なぜ重要かというと、Tuna-2は「事前学習済み視覚エンコーダーが必須ではない」ことを示した点です。論文は、十分なマルチモーダル事前学習を行えば、エンコーダー無しでも高品質な画像生成で潜在空間(latent space)方式と競合できること、そして細かい視覚的認識を要する理解タスクではむしろエンコーダー無しの方が優れる場合があると報告しています。著者らは各設計の比較実験(アブレーション)も行い、Tuna-2が多様な理解・生成ベンチマークで最先端の結果を出したとしています。
重要な注意点もあります。ピクセル空間での統一学習は次元が大きく学習が難しいため、マスキングなどの工夫や十分な事前学習が必要です。実際、エンコーダーを持つ変種(Tuna-R)は初期の事前学習段階ではより速く収束する、と著者らは報告しています。つまりトレーニング時間や計算コスト、初期の学習安定性は設計によって変わり得ます。論文はこれらの利点とトレードオフを示す結果と分析を提示しており、事前学習量やタスクの性質によって最適な設計が変わる可能性があることを示唆しています。