ディープヘッジは何を学ぶか:S&P500オプションで見つかったデルタの“ヘアカット”と脆弱性
この論文は、S&P500指数のコールオプションを題材に、機械学習で学んだヘッジが実際にどんな修正を行うかを調べています。研究者は「局所的なダウンサイド短期損失(local downside‑shortfall)」という報酬を与えた強化学習エージェントが、日次で更新するブラック–ショールズのデルタヘッジに対してどんな違いを示すかを検証しました。結果は一貫して「デルタのヘアカット(Black‑Scholesよりも少なくショートする)」を学ぶことが多い、というものでしたが、その効果は市場の状態によって壊れやすいことも示されました。さらに、学習したニューラル政策を人間が読める簡潔な式に落とすと、多くの利点を保てる一方で脆弱性も受け継ぐことが分かりました。 研究で行ったことは次の通りです。エージェントにはTD3(Twin Delayed Deep Deterministic Policy Gradient)という連続行動に向く強化学習手法を使い、同じオプションの実際の価格経路でブラック–ショールズデルタと直接比較しました。評価はウォークフォワード方式で、各テスト年Yに対してそれ以前のデータで訓練し、2015年から2023年まで年ごとにアウト・オブ・サンプルで性能を測りました。報酬設計は日次のヘッジ損益がマイナスになる場面を重く罰するもので、プラスの損益はあまり罰されません。これにより、学習される方針は「下振れに対して保守的な修正」を重視するものになります。 仕組みを平易に説明するとこうなります。扱うポートフォリオはコールを1枚ロングし、基礎となる指数を−δ単位でショートする伝統的な形です(報告されるデルタが大きいほどより強くショートしていることを意味します)。ブラック–ショールズのデルタは各リバランスで当日の市場インプライド・ボラティリティを使って再計算しますが、学習エージェントは観測された現物価格とインプライド・ボラの共動きを踏まえて、しばしば「ショートを控える(underhedge)」方向の修正をします。直感的には、株価下落時にインプライド・ボラティリティが上がることが多く、オプション価格は固定ボラの仮定よりもあまり下がらないため、完全なブラック–ショールズのショートは過剰になることがあるためです。 この研究が重要な理由は三点あります。第一に、同じ目的関数の下で学習されたヘッジが系統的にどんな経済的修正を行うかを明確に示した点です。第二に、学習された修正は多くの年で蓄積報酬や「終端の下振れ分散(terminal downside variance)」を改善することがあった一方で、市場状況によっては損失を招く「レジーム脆弱性(regime fragility)」を示した点です。例えば、2022年には日次の逆境的な状態で損失が顕在化しましたし、2023年にはオプションの損益が現物の動きに強く支配され、ボラティリティ経路が弱かったためにアンダーヘッジが通常の分散を高める結果になりました。第三に、研究者はシンボリック回帰を使ってニューラルネットの方針を簡潔な取引式に蒸留(distill)しました。これらの式はサンプル外でも多くの利点(報酬、下振れ分散、CVaR=条件付き期待損失の改善)を保ち、場合によっては強めましたが、同じ難しい相場では失敗する傾向も残しました。 重要な注意点もあります。まず、学習環境は各時点の情報だけを使うマルコフ近似やフィードフォワード構造を前提としており、実際の市場のパス依存性(ボラティリティの履歴や流動性変化など)を完全には表現していません。次に、報酬は日次の損益に焦点を当てた局所的な目的であり、最終的な平均分散最小化や完全な複製を目指すものではありません。したがって、学習されたアンダーヘッジが常に望ましいわけではなく、市場レジームが変わると逆効果になる可能性が現実に観測されました。最後に、簡潔な式にした政策は解釈性を高めますが、その式自体も同じ脆弱性を引き継ぐため、運用ではレジーム診断や追加の安全策が必要です。