並列GPU加速iQCCで100–124量子ビットのルテニウム触媒を古典計算で数時間以内に解析、DMRG精度を上回る
研究チームは、古典計算機上で量子化学問題を大規模に扱うための並列化されたGPU(グラフィックス処理装置)対応実装を報告しました。手法は反復型キュービット結合クラスタ(iQCC)と呼ばれるもので、工業的に重要なルテニウム触媒の電子構造ハミルトニアンを100–124量子ビット相当のサ
研究チームは、古典計算機上で量子化学問題を大規模に扱うための並列化されたGPU(グラフィックス処理装置)対応実装を報告しました。手法は反復型キュービット結合クラスタ(iQCC)と呼ばれるもので、工業的に重要なルテニウム触媒の電子構造ハミルトニアンを100–124量子ビット相当のサイズで扱い、NVIDIA製GPU上で基底状態計算を1.2〜45時間で完了したとしています。著者らは、この計算精度が密度行列繰り込み群(DMRG: Density Matrix Renormalization Group)を上回ったと報告しています。
iQCCは量子ビット空間で直接試行波をつくる方法です。従来の量子回路表現で起きやすい「バレーン・プレートー(平坦化)」——回路が複雑になると勾配がほとんどゼロになり最適化ができなくなる問題——を避けるため、操作子(エンタングラー)を「直接相互作用空間(DIS: Direct Interaction Space)」という特別な部分集合から選びます。DISに属する操作子は、各反復でエネルギー勾配がゼロにならないことが保証されており、これにより反復的な最適化が安定して進みます。論文は、こうした理論的仕組みを用いて浅い回路で化学精度を目指す枠組みを説明しています。
実装面では、ハミルトニアンを構成する多数のパウリ項(多量子ビット演算子)増大が主要なボトルネックです。著者らはこの指数的増加を抑えるため、パウリ項をビット単位で分割して計算ノードに配分する「ビットワイズパーティショニング」を用いました。各コアは排他的に部分集合を担当し、生成された新項も正しいパーティションへ決定論的にルーティングされるため、全ノード間での全交換(all-to-all)通信を最小化します。パウリ収縮(Pauli contractions)と期待値計算はGPUカーネルにオフロードされ、パウリ語をX/Z成分の二進文字列で表現してビット演算で高スループットを得ています。著者はこれによりシリアルCPU実装に比べ二桁以上の速度向上を達成したと述べています。
最適化の効率化にも工夫があります。エンタングラー振幅の最適化では対称多項式展開を切り詰める手法を用い、展開次数K=2–6で切るとサブミリハートリー(0.001ハートリー未満)精度が回復できると報告しています。この近似により数千から数十万のエンタングラーを同時に扱えるようになり、多項式展開はノード間で並列化して局所寄与だけを集約する設計になっています。
この仕事の意味合いとして、著者らは「化学での古典的計算可能性の境界が従来想定の約50量子ビットよりずっと先にある可能性がある」と主張します。論文では、少なくとも今回扱った遷移金属系(ルテニウム触媒)については、古典機で100量子ビット超の実問題を現実的な時間で扱えることを示し、真の量子優位が出る規模は200量子ビットを超えるかもしれないと述べています。ただしこれは著者側の示唆であり、一般性や他の系への適用範囲については慎重な検討が必要です。
重要な制約も残ります。論文自身が述べるように、iQCCの反復でハミルトニアン項数は最大で反復ごとに約3/2倍に増えるなど指数的増大の本質は残っており、今回の手法はその増加をハードウェアと並列化で“制御”しているにすぎません。また、マルチGPU環境での通信が主要なボトルネックであり、負荷不均衡や通信遅延は運用上の課題になります。提示された結果はルテニウム触媒の事例とGPUクラスタでの経験に基づくもので、論文抜粋は全文が途切れているため、系の詳細や長期的な一般化の可否については完全な論文での確認が必要です。