MuRF:推論時に複数解像度を融合して視覚基盤モデルの力を引き出す方法
この論文は、既に学習済みの視覚基盤モデル(Vision Foundation Models, VFMs)を再学習せずに、複数の画像解像度から得た特徴を統合して性能を上げる手法「Multi-Resolution Fusion(MuRF)」を提案します。低解像度は全体の意味(物体のカテゴリなど)を捉えやすく、高解像度は境界や細部を正確に表現します。MuRFは推論時に両者を同時に利用し、単一解像度のみを使う従来手法の欠点を補います。
技術的には、入力画像を複数のスケールにリサイズしてピラミッドを作ります。各スケールの画像を凍結したVFM(例:DINOv2)に通し、得られたパッチレベルの特徴マップをバイリニア補間で同じ空間解像度にアップサンプリングします。最後にこれらの特徴マップをチャンネル方向に連結して一つの表現(MuRF表現)を作ります。連結後のチャンネル次元は元の特徴次元のスケール数倍(D = |S_res| × d)になります。特徴抽出器本体は学習せず凍結のままにし、用途ごとは軽いヘッドだけを学習します。
著者らはこの手法を複数の重要な視覚タスクで試しました。主にDINOv2を使って検証していますが、対照学習モデルのSigLIP2にも一般化することを示しています。応用例には、セマンティックセグメンテーションや深度推定といった密な予測での改善(MuRF表現に単純な線形ヘッドを付けたほうが単一解像度より有意に良い)、マルチモーダル大規模言語モデル(MLLM)での視覚エンコーダとしての利用(視覚質問応答で大域情報と微細情報を同時に理由づけできる)、学習不要な異常検知(MVTecAD2TESTpriv,mix などのベンチマークで最先端の性能を達成)などが報告されています。いずれもバックボーンの再学習は不要で、推論時の融合だけで効果が出る点が強調されています。
なぜ重要かと言えば、MuRFは既存の大きな事前学習モデルを壊さずに、その表現力を広げる簡単な方法だからです。画像の全体像と細部の間にある「役割分担(認識=低解像度、精緻化=高解像度)」を明示的に組み合わせることで、多くの下流タスクで堅牢な特徴を得られます。従来のタイル分割は境界で連続性が壊れる問題がありますが、MuRFは画像ピラミッドを使い特徴空間で融合するためそのような人工的な分断を避けます。しかもバックボーンの再学習を必要としないため、実装が比較的容易です。
重要な注意点もあります。MuRFは複数解像度の順伝搬を行うため、計算量とメモリ使用量が単一解像度より増えます。チャンネル連結により特徴次元が大きくなるため、下流ヘッドや保存・転送の負担が増します。論文の抜粋では「有意な改善」「SOTA(最先端)」といった成果が示されていますが、ここに記したのは抜粋の範囲での記述であり、具体的な数値や詳細な実験設定は同梱の全文を参照する必要があります。また、主な検証はDINOv2中心で行われており、より多様なアーキテクチャや実用的なリアルタイム制約下での普遍性を確かめる追加の検証が望まれます。