3K Views
October 23, 23
スライド概要
事前学習済み言語モデルの性能を引き出す方法としてプロンプトが注目されており,その1つが思考連鎖プロンプトが存在する.思考連鎖プロンプトは,最終的な答えを導き出すために,途中の考えを明示的に表現することを促すプロンプトであり,モデルの多段階の推論能力を改善することが知られている.一方で,モデルが思考連鎖プロンプトからどのような影響を受け,多段階推論を可能になるのかについては,未だ不明な点が多い.
本研究では,言語モデル中のニューロンの活性化によりタスクの性能を解釈する既存研究を背景として,モデル中のニューロンが多段階推論のタスクにおいて内部的にどのような影響を及ぼされているかを検証した.その結果,多段階推論において,複数の思考連鎖プロンプトで共通して活性化するニューロンが存在することが明らかになった.また,これらのニューロンをの活性化を抑制することで,推論パフォーマンスが悪化することがわかった.この結果はモデルの推論能力の獲得のメカニズムに示唆を与える.
事前学習済み言語モデル中の多段階推論に 関与するニューロンに関する分析 沖村 樹1,岩澤 有祐1,小島 武1,松尾 豊1 (1. 東京大学) 1
概要 ● 本研究では,言語モデル中のニューロンの活性化によりタスクの性能を 解釈する既存研究を背景として,モデル中のニューロンが多段階推論の タスクにおいて内部的にどのような影響を及ぼされているかを検証した ● その結果,多段階推論において,複数の思考連鎖プロンプトで共通して 活性化するニューロン「多段階推論ニューロン」が存在することが 明らかになった. ● これらのニューロンをの活性化を抑制することで,多段階推論における パフォーマンスが悪化することが判明した. 2
背景 思考連鎖プロンプトはモデルに多段階の推論を促すことができる 「思考連鎖プロンプト(Chain of Thought Prompts)」 は,最終的な解を導き出すために, 中間で推論プロセスを明示することを促す プロンプトを入力することで, モデルの多段階推論能力を引き出すことができる. Few-shotの設定で540Bのパラメータを持つ PaLMの性能は,ファインチューニングされた GPT-3を凌駕した. 一方で,思考連鎖プロンプトは, 約100Bのパラメータがないと機能しなかった. 出典:Chain-of-Thought Prompting Elicits Reasoning in Large Language Models[Wei, et al. 2022] 3
背景 様々な設定で思考連鎖プロンプトについて検証が行われている ゼロショット思考連鎖プロンプト 出典:Large Language Models are Zero-Shot Reasoners [Kojima, et al. 2023] 不適切な推論経路 出典:Towards Understanding Chain-of-Thought Prompting: An Empirical Study of What Matters [Wang, et al. 2022] 4
問題意識 依然として,思考連鎖プロンプトには不明な点が存在している • 思考連鎖プロンプトはモデルにどのような影響を及ぼしているのか? • なぜサイズの大きなモデルのみで多段階の推論は可能になるのか? 5
関連研究 Self-conditioning Pre-Trained Language Models [Suau, et al. 2022] 入力から概念を検出し,その概念に基づく テキスト生成を担うエキスパートユニット(ニュー ロン)を特定し,生成された出力に概念を 誘導する手法を提案した. その結果,驚くほど少ないユニットの活性化 (345Mのパラメータを持つモデルでわずか 3ユニット)で,テキスト生成を制御できることを 発見した. 思考の連鎖を可能にするニューロンが大規模言語モデル中に存在するのではないか? 6
方法
多段階推論の有無を含んだテキストを用意し,実験に用いる
思考連鎖関連の研究で用いられるMultiArithという文章題のQAのデータセットを使用する.
本実験では,対象テキスト𝑥と,多段階推論を含んでいるか否かを示すバイナリフラグ𝑏を含む
データセット𝐷 = {(𝑥! , 𝑏! )}" 𝑁 = 𝑁 # + 𝑁 $ を用意する.
多段階推論を含むものとして,MultiArithの質問とZeroshot-cot(例. “A: Let‘s think step by step.”)を与えて,
Bloom-140Bで生成した結果を取得する.
!
これによって得られたテキストとバイナリフラグ𝑏 = 1の組のデータを𝐷 # = {(𝑥! , 𝑏! )}" とする.
多段階推論を含まないものとして,MuliArithの質問と回答“A: The numeric Answer (Arabic number) is
{gold}.”を単純に結合したものを取得する.
"
これによって得られたテキストとバイナリフラグ𝑏 = 0の組のデータを𝐷 $ = {(𝑥! , 𝑏! )}" とする.
7
方法 モデル中の多段階推論の有無に高い予測性を持つニューロンを特定する " " 長さ𝑇のテキスト𝑥! = 𝑥!,& … 𝑥!,' を入力としたときにニューロン𝑧から得られる中間状態を𝑧!" = 𝑧!,& … 𝑧!,' と する.この場合,あるニューロン𝑁からの活性化出力𝑢!" は,トークン長𝑇に依存しない値として,以下の式で 定義できる. " " 𝑢!" = max( 𝑧!,& … 𝑧!,' ) モデル全体は,テキストに多段推論があるかどうかをニューロンの出力から予測する二値分類器と 見なすことができる. 各ニューロン𝑁について,ニューロンの出力から多段推論の有無を予測する際の平均精度AP " は, 以下の式で求められる. AP " = AP 𝑢!" , 𝑏 AP " >0.999のニューロンを他段階推論の存在で活性化が起こる多段階推論ニューロンと定義する. 8
実験設定 モデル BLOOM-140Bを実験モデルとして使用した.また,BLOOM-560M,BLOOM-7.1Bを使用し, より低いパラメーターのモデルでも同様の現象が見られるかどうかについても検証した. プロンプト 実験では,プロンプトの言葉の表面的な影響を軽減するため,複数のプロンプトから 生成されたテキストを用いて比較した. 思考連鎖プロンプトには, “Let‘s think step by step.”, “First”, “Let’s think about this logically. First”, “Let‘s think about this logically.”, “Let’s do it step by step.”, and “Let‘s do it a little at a time.”を用いた ニューロン 分析対象となるニューロンの層は,各TransformerブロックのSelf-Attention層とFeed-Forward層に限定 した 9
結果 すべてのモデルサイズにおいて,多段階推論の有無に高い予測性を持つ 「多段階推論ニューロン」の存在が確認された 10
結果 多段階推論ニューロンの活性化は,異なる思考ゼロショット思考連鎖 プロンプトの間でも類似性が観察された 11
考察 多段階推論ニューロンの活性化が抑制した状態で生成を行った場合, 多段階推論のパフォーマンスが低下した BLOOM-140Bでは,すべてのプロンプト設定で 平均適合率が0.999以上だった2949個の 多段階推論ニューロンについて,出力を 多段階推論を含まないサンプルでの出力の 中央値に固定した. この条件で,思考連鎖プロンプト “Let‘s think step by step. ”を使用した 場合にMultiArithを用いた場合の性能を測定した. BLOOM-140BのMultiArithでの性能 設定 正解率(%) ニューロンの固定なし 33.0 ニューロンの固定あり 19.3 ニューロンを固定した場合,固定しなかった場合に比べて性能低下が観察された. 多段階推論ニューロンの出力値は多段階推論の性能に影響を与える 12
まとめ ● 本研究では,言語モデル中のニューロンの活性化によりタスクの性能を 解釈する既存研究を背景として,モデル中のニューロンが多段階推論の タスクにおいて内部的にどのような影響を及ぼされているかを検証した ● その結果,多段階推論において,複数の思考連鎖プロンプトで共通して 活性化するニューロン「多段階推論ニューロン」が存在することが 明らかになった. ● これらのニューロンをの活性化を抑制することで,多段階推論における パフォーマンスが悪化することが判明した. 13