FinTradeBench:企業の基礎データと株価の動きを同時に問う新しい金融推論ベンチマーク
この論文は、会社の会計情報と株価の時系列データの両方を使って金融判断ができるかを調べる新しいベンチマーク、FinTradeBenchを紹介します。ベンチマークはNASDAQ‑100の銘柄を対象に、2015年から2025年の10年分を使って作られ、合計1,400問で構成されています。問題は「基礎指標中心」「取引シグナル中心」「両方を統合するハイブリッド」の三分類に整理されています。大規模言語モデル(LLM)を金融判断に使う際の弱点を明確にすることが目的です。
研究者たちは二つの主要データ源を組み合わせました。一つは企業の規制報告書(10‑K/10‑Q)から得た財務指標で、例としてROA(総資産利益率)、ROE(自己資本利益率)、簿価対時価比率や負債比率などがあります。もう一つは日次の価格・出来高データ(OHLCV:始値・高値・安値・終値・出来高)から計算したモメンタムや移動平均、実現ボラティリティ、ドローダウンなどの取引シグナルです。すべての指標は銘柄と四半期に合わせて整列され、実際に検証できる履歴データに基づくように設計されています。信頼性を保つために、研究者は「キャリブレーション(調整)→スケーリング(拡大)」の手順を取り、150問の専門家作成の初期問題(各カテゴリ50問)を種として、多モデルの応答生成、モデル内自己フィルタリング、数値監査、人間とLLMの判定調整を組み合わせて1,400問に拡張しました。
評価では14種類の大規模言語モデルを、例示なしで解かせるゼロショット設定と、関連文書を参照させる検索付き(retrieval‑augmented)設定で比較しました。結果として、検索機能は会計や開示文書に基づく問題の解答精度を大きく改善しました(基礎指標中心で約+37%、ハイブリッドで約+55%の精度向上と報告)。一方で、価格時系列に基づく取引シグナル問題では検索の恩恵が限られ、場合によっては改善が小さいか逆効果だったことが示されました。これらの結果は、現在のLLMがテキスト情報の検索と統合は得意でも、数値の厳密さや時間系列データの解釈には課題があることを示唆します。
このベンチマークが重要な理由は、実際の投資判断では企業の中身(ファンダメンタルズ)と市場の動き(トレーディングシグナル)の両方を考慮する必要がある点を、評価タスクとして明確に扱ったことです。従来の金融QAデータセットは主に財務報告書の数値処理に偏っており、市場ダイナミクスの推論を体系的に評価するものは少なかったため、FinTradeBenchはそのギャップを埋めます。研究者はこのベンチマークを使って、モデルの強みと弱点を把握し、金融向けの改良や新しい手法の開発を促すことを狙っています。
重要な注意点として、金融問題の高品質な注釈は専門知識を必要とします。論文は数値の忠実性や専門家の判断との一致を重視しており、そのために人間とモデルの判定を合わせる工程を設けていますが、それでもLLMは数値処理や時間軸に関する推論で誤りを起こしやすいと報告されています。また、取引シグナルの評価で検索が十分に効かなかったことは、現状のモデル設計や入力表現では時系列データの扱いが未完成であることを示します。これらの制約は論文の主要な結論に直結しており、今後の研究課題として明確に残っています。