回路を作り替えて推論ミスだけを直す——REditで言語モデルの推論パターンを選択的に編集
この論文は、大型言語モデル(LLM)が持つ「特定の誤った推論パターン」を狙って直す方法を示します。研究者は、推論能力を一括で鍛える従来法は非効率で、正しく動く別の推論を壊してしまうことがあると指摘します。そこで「Reasoning Editing(推論編集)」という考え方を導入し
この論文は、大型言語モデル(LLM)が持つ「特定の誤った推論パターン」を狙って直す方法を示します。研究者は、推論能力を一括で鍛える従来法は非効率で、正しく動く別の推論を壊してしまうことがあると指摘します。そこで「Reasoning Editing(推論編集)」という考え方を導入し、あるパターンだけを変え、他は保つことを目指します。例えば「A→B, B→CならA→C(推移律)」のような正しいルールや、「¬B→¬AならA→B」といった誤ったルールの扱いを区別します。
まず研究者たちは、編集の効果が他の推論パターンに及ぶかどうかは、モデル内で使われる神経回路(パラメータのまとまり)の重なりに依存する、という経験則を見出しました。これを「Circuit‑Interference Law(回路干渉法則)」と呼びます。重なりが大きいほど、一つの編集が別のパターンに影響を与えやすくなります。したがって「ある編集が別の事例にも広く効く(汎化性)」と「他の正しい能力を損なわない(局所性)」の間にトレードオフが生じます。
この法則に基づいて提案された枠組みがREditです。REditは三つの要素で構成されます。一つ目はContrastive Circuit Reshaping(対照的回路再形成)で、目的の推論パターンに関わる回路を他と分けるように回路を“ほぐす”操作を行います。二つ目はMeta‑Contrastive Learning(メタ対照学習)で、観測したパターン以外にも編集の効果が移るように学習を拡張します。三つ目はDual‑Level Protection(二重レベル保護)で、回路の更新方向に制約をかけたり、タスクレベルの予測を正則化したりして、既存の正しい能力を守ります。回路を整えた後は、LoRA(Low‑Rank Adaptation、低ランク適応)と呼ばれる広く使われるパラメータ編集手法で最終的な推論編集を行います。
実験はQwen‑2.5‑3Bというモデル(約3億パラメータではなく、論文表記のモデル名)を使い、命題論理(propositional logic)の推論タスクを難易度別に三段階で評価しました。結果として、REditは既存の編集手法に比べて汎化性と局所性の両方で一貫して優れていると報告しています。さらに数学領域での追加検証も行われ、より広い種類の推論への応用可能性が示唆されます。ソースコードは公開されています(論文にURLあり)。
重要な注意点も明記されています。本研究は「推論編集」への初期的な一歩として、構造が明確な命題論理を主な実験領域にしています。回路干渉法則はこの設定での観察に基づく経験則であり、全てのモデルやより複雑な現実世界の推論にそのまま当てはまる保証はありません。また、REditはトレードオフを緩和することを目指しますが、完全に解消するものと断定はしていません。今後は他のモデル規模やより雑多な推論課題での検証が必要です。