生成型レコメンダーの後学習:観測報酬をexp(r/λ)で重み付けする手法がRLHFより堅牢だと主張 | arXiv News