評価方法とラベル誤りで過小評価されていた?MLLM(マルチモーダル大規模言語モデル)の画像分類性能を再検証
この論文は、マルチモーダル大規模言語モデル(MLLM:画像とテキストの両方を扱える大きな言語モデル)の画像分類性能が、評価方法と正解ラベルの質に強く左右されることを示しています。研究者たちは、これまでの比較研究で矛盾した結論が出ているのは、評価プロトコルやデータの問題が原因だと指
この論文は、マルチモーダル大規模言語モデル(MLLM:画像とテキストの両方を扱える大きな言語モデル)の画像分類性能が、評価方法と正解ラベルの質に強く左右されることを示しています。研究者たちは、これまでの比較研究で矛盾した結論が出ているのは、評価プロトコルやデータの問題が原因だと指摘します。主張の中心は「評価のやり方を直せば、MLLMは思ったほど劣っていない」という点です。
研究チームは、一般に使われる評価プロトコルで起きている具体的な問題点を洗い出し、修正を加えました。問題の例としては、モデルの出力が与えられたクラス一覧の外に出たときに捨てられてしまうこと、選択肢(マルチプルチョイス)の誤答候補が弱くて結果が不当に良く見えること、そして「オープンワールド設定」で正しくマッピングできていないために性能が低く見えていることを挙げています。また、バッチサイズ、画像の並べ方、テキストエンコーダーの選択といった設計上の細かい違いが精度にかなり影響することも定量的に示しました。
評価の中心として、研究者たちはReGTというデータセットを用いました。ReGTはImageNet-1kの625クラスを対象にしたマルチラベル再注釈(1枚の画像に複数の正解ラベルを許す再ラベリング)です。正しいラベルで評価すると、MLLMは最大で+10.8%も改善し、従来の監視学習(スーパー バイズド)モデルとの差が大きく縮まることが分かりました。つまり、多くの「MLLMは分類が苦手だ」という報告は、雑な正解データと評価プロトコルのせいで過大評価された可能性があると示唆しています。
さらに、監視学習シグナルに依存しないモデルほど注釈の質に敏感であることが分かりました。これは、ラベルの誤りや曖昧さがあると、特にそのようなモデルで性能が変わりやすいという意味です。加えて、設計上の小さな選択(先に挙げたバッチサイズや画像順など)が精度に実際に大きな差を生む点は、比較研究で見落とされがちな重要事項です。
最後に、MLLMを人間のアノテーター支援に使う試験も行われました。制御されたケーススタディで、困難な事例に対してアノテーターがMLLMの予測を約50%のケースで確認または取り入れました。これは、大規模データセットのキュレーション(注釈作業)にMLLMが役立つ可能性を示しますが、同時に本研究の結果はReGTの625クラスに基づくものであり、評価プロトコルやデータセットの範囲に依存する点に注意が必要です。研究者たちは、多くの報告された性能差が真のモデル欠陥ではなく、評価とラベルの問題に起因している可能性が高いと結論づけています。プロジェクトは「Aiming for Perfect ImageNet-1k」の一部として公開されています(https://klarajanouskova.github.io/ImageNet/)。