Tuna-2:視覚エンコーダーを使わず生のピクセルから理解と生成を両立するAIモデル | arXiv News