評価方法とラベル誤りで過小評価されていた?MLLM(マルチモーダル大規模言語モデル)の画像分類性能を再検証 | arXiv News