層ごとに幅を変える×字形トランスフォーマーが少ない計算で性能を改善 | arXiv News