大規模言語モデルでランダム化比較試験の精度を改善する手法――テキストを使う試験で特に効果 | arXiv News