臨床用大規模言語モデル(LLM)は「正確さ」と「安全さ」で別の振る舞いをする――ラジオロジー試験で示された新しい評価枠組み | arXiv News