大規模言語モデルは手順通りに計算を続けられるか:段階的検査で見えた弱点 | arXiv News