「見る力」を先に鍛えると効果的:視覚と言語を分けた段階的後訓練でVLMの成績が向上
この論文は、視覚と言語を同時に鍛えるのではなく、能力ごとに段階を分けて後訓練することで、視覚と言語モデル(VLM: Vision-Language Model)の性能が上がると報告します。著者らは多くの視覚推論の失敗が「見る力(視覚的知覚)」の誤りに起因することを示し、先に視覚能力を固めることが重要だと主張します。
研究チームはVLMの能力を三つの訓練段階に分けました。具体的には「視覚知覚」「視覚的推論」「文章的推論」です。視覚知覚用のデータは、DOCCIという画像と詳細なキャプションを持つ約15K枚の画像を基に、大規模言語モデル(Qwen2.5-72B)で視覚に特化した質問と答えを生成し、元のキャプションには答えがあるのにモデルが画像だけでは間違う例を抽出して作成しました。また、視覚知覚の訓練には強化学習(RL: Reinforcement Learning)の一種である「検証可能報酬付き強化学習(RLVR: Reinforcement Learning with Verifiable Rewards)」を用い、従来のキャプションベースの教師あり微調整(SFT: Supervised Fine-Tuning)と比較しています。
実験結果は段階的な後訓練が有効だと示します。たとえば、視覚知覚段階を導入するとQwen3-VL-8BのWeMathベンチマークの正答率は50.9%から56.1%へ上がり、約5.2ポイントの改善が見られました。段階的に訓練したQwen3-VL-8Bは、数学系の推論精度で1.46ポイントの向上を示し、推論で使う「思考の長さ(reasoning traces)」は20.8%短くなりました。さらに、視覚知覚をRLVRで学ばせると、SFTに置き換えた場合と比べてWeMathでQwen2.5-VL-7Bは8.1ポイント、Qwen3-VL-8Bは1.6ポイントの正答率低下が生じ、RLVRが視覚知覚向上に有利であることが示されました。
なぜこれが重要かというと、多くの誤答が初期の視覚認識ミスに由来するためです。本文では、あるモデルで誤答した例のうち86.9%が視覚的な誤りに関連すると分析しています。誤った「見る力」が入ると、その後いくら長く考えさせても誤りは修正されず、むしろ間違いを積み上げる傾向があると報告されています。視覚を先に正しくすると推論が短く簡潔になり、全体として精度も上がるという点が本研究の核心です。
重要な注意点もあります。結果は主に公開モデル(Qwen系など)と用意した公開ソースのデータで示されています。訓練段階の順序が重要であり、順序を狂わせると性能が下がる例(Qwen2.5-VL-7Bで42.3%から37.7%へ低下)も報告されています。さらに、RLVRは効果的ですが実装や計算の負担が大きく、生成データの質に依存する点も考慮が必要です。また、本記事は与えられた抜粋に基づく要約であり、論文全体の追加実験や詳細は原論文を参照する必要があります。
最後に著者らは、能力別の段階的訓練が従来の「難易度順カリキュラム」とは直交する新しい訓練軸になると提案します。両方を組み合わせるとさらに上乗せの改善が得られ、論文では統合した場合にマージ訓練より約4.43%の改善が確認されたと報告しています。視覚と言語を同時に鍛えるのではなく、「まず見る力を固める」ことが実用的な改善につながるという結論です。