Belle II電磁カロリメータでグラフニューラルネットを使い、ビーム背景やハドロン由来の誤クラスターを減らす試み
この研究は、Belle II実験の電磁カロリメータ(ECL)に入る「余分な」エネルギー堆積を機械学習で見つけて消す方法を示します。ECLは約8,700個のCsI(Tl)結晶で構成され、光子や電子のエネルギー測定だけでなく、中性ハドロンの位置決めにも使われます。近年の加速器の高いルミノシティ(衝突回数の多さ)により、ビーム起源の背景が増え、誤って作られる光子クラスターやエネルギー分解能の悪化が問題になっています。加えてハドロンの相互作用は電磁シャワーと異なり不規則で離れた点にエネルギーを生むため、現在のクラスタリングアルゴリズムでは本来の粒子を誤認することがあります。
研究者たちは、まずシミュレーション情報を使って「局所最大(local maximum, LM)」がどの原因で生じたかを分類するラベルを作りました。シミュレーションはイベント発生器とGeant4による検出器応答、さらにランダムトリガー実データのオーバーレイでビーム背景を再現します。LMが20 MeV未満ならビーム背景とみなすルールや、同じ粒子から複数のLMが出た場合の対応、シャワー中に再生成され遠くで再相互作用する「スプリットオフ」粒子の取り扱いなど、詳細な基準を設けて正解ラベルを作成しています。これにより「信号LM(本来の粒子由来)」と「ビーム背景・誤分割・スプリットオフ」といった背景クラスを区別する学習問題を定義しました。
分類器にはグラフニューラルネットワーク(GNN)を使います。入力グラフはエネルギー測定のある結晶だけをノードにした小さなグラフで、各ノードに測定エネルギー、時間、パルス形のフィット情報、結晶の質量(形状差を表す)などを与えます。メッセージパッシングと呼ぶ処理でノード間の情報をやり取りしますが、入力グラフが小さいため全結合の辺を用い、通常の近傍探索(k近傍)はスキップして学習速度と安定性を高めています。訓練は20,000個のΥ(4S)→BB̄事象と10,000個のe+e−→ϕ(→K0LK0S)γ事象で行い、学習の安定化にStochastic Weighted Averagingや平均二乗誤差の損失を使っています。
開発の狙いはクラスタリングに入れる前に不要なLMを取り除くことです。図示した結果では多くのビーム背景LMはよく分離できる一方で、スプリットオフや誤分割と信号の分布は重なりが大きく、完全に切り分けるのは難しいことが示されています。運用面では検出器領域(前方、バレル、後方)やLMの測定エネルギーごとに閾値を決め、特に100 MeV未満のLMにのみ分類器を適用して高エネルギー粒子の物理性能悪化を避ける方針を取っています。閾値はエネルギー別・領域別に決め、スムーズ化のために三次スプライン補間を使っています。
重要な注意点として、この手法はシミュレーションとランダムトリガーのオーバーレイに大きく依存しています。シミュレーションでの分類ラベル付けやオーバーレイ条件が実データと異なると性能に影響が出る可能性があります。また、スプリットオフなど一部の背景クラスは信号と分布が似ており誤分類が残る点、そして今回はLMごとの前処理としての分類に焦点を当てているため、最終的な物理解析への影響(たとえばエネルギー分解能やハドロン識別性能全体の改善)は今後の検証が必要です。今回の成果は会議用の進行報告であり、今後実データでの検証と最適化が求められます。