生成AIのエネルギーを大きく下げるには何が必要か:第一原理シミュレーションで機器と物理を同時設計する提案
この論文は、生成系AI(例えばGPTのようなモデル)で最もエネルギーを使う計算を狙い撃ちして、材料・素子・配線・回路・アーキテクチャを一体で設計する必要があると主張します。とくに行列-ベクトル・行列-行列乗算(MatMul)がトークンあたりの計算とエネルギーの大部分を占めるため、
この論文は、生成系AI(例えばGPTのようなモデル)で最もエネルギーを使う計算を狙い撃ちして、材料・素子・配線・回路・アーキテクチャを一体で設計する必要があると主張します。とくに行列-ベクトル・行列-行列乗算(MatMul)がトークンあたりの計算とエネルギーの大部分を占めるため、ここを劇的に効率化する新しい「Beyond-Digital-CMOS」型の加速器が求められます。著者らは、その設計を導く手段として「予測的な第一原理シミュレーション」を提案します。ここでいう第一原理シミュレーションとは、実験データへの当てはめ(フィッティング)に頼らず、物理法則から直接素子や配線の挙動を予測する方法です。
論文はまず、どの計算が重いかを示します。GPT系のアーキテクチャではマルチヘッド自己注意のQKV射影や注意出力、フィードフォワード層(FNN)などでのMatMulが圧倒的にコストを占めます。MatMulの計算量はバッチサイズB、系列長S、埋め込み次元d_modelなどに応じて急増します(論文は複雑度の式と、GPT‑3に相当する数値例を示しています)。このため、行列計算を効率化する専用ハードが、トークンあたりのエネルギーを大きく下げる鍵だと論じられます。
提案する方法の核は「共同設計(co‑design)」です。材料や素子の設計パラメータ(形状、材料、ドーピングなど)と回路や配線の設計を同時に最適化します。ここで予測的第一原理シミュレーションは重要です。素子や配線の設計ノブから、遅延・エネルギー・寄生要素・変動幅・動作域といった回路で使える指標へ信頼できる写像を与えるからです。論文はまた、エネルギー源として動的スイッチングエネルギー(C·V^2、キャパシタンス×電圧二乗)、オン電流や駆動能、静的リーク、そしてデータ移動・配線(ワイヤのRC遅延、ファンアウト、メモリ/インターフェースのエネルギー)を挙げており、素子改善だけでなく配線を含む系全体の最適化が必要だと指摘します。
なぜ重要なのか。データセンターでのAI関連エネルギーは急増しており、米国エネルギー省が今後10~20年で微細電子の効率を100倍〜1000倍向上させる目標を示すなど、抜本的な改善が求められています。MatMulに特化した加速器や、例えばアナログの「2T1C」計算のようにトランジスタ数を大幅に減らす方式は、トークンあたりのエネルギーを劇的に下げる可能性があります。予測的シミュレーションは、そうした将来デバイスが実際にシステムレベルでどれだけ効くかを事前に評価する道具になります。
重要な留意点も示されています。これは展望(Perspectives)論文であり、既に動作する新世代加速器の実装報告ではありません。非デジタルやハイブリッドな計算方式にとって理想的な素子特性はまだ明確ではありませんし、ニューロモルフィック系は低消費電力でもスループットが限定的で、ワークロード依存の利点に留まる場合があります。したがって、第一原理シミュレーションが有力な候補設計を提示できても、実機での検証や配線・メモリ周りの現実的な制約を含めた評価が不可欠です。論文はこうした限界を踏まえつつ、物理とワークロード指標をつなぐ予測的シミュレーションが共同設計の鍵になり得ると結論づけています。