【DL輪読会】Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet

10.3K Views

July 05, 24

#大規模言語モデル #解釈可能性 #スパースオートエンコーダ #特徴量抽出 #LLM挙動制御

スライド概要

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 90.1K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 65.6K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 61K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 46.9K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 46K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 44.5K

各ページのテキスト

DEEP LEARNING JP Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet [DL Papers] LLMにおける解釈可能な意味特徴量の抽出と意味からLLMの挙動をコントロールする手法 Takayuki Yamamoto（LY Corporation. Waseda University, Kawahara Laboratory, Ph.D. Student） http://deeplearning.jp/ 1

http://deeplearning.jp/

書誌情報タイトル Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet リンク https://transformer-circuits.pub/2024/scaling-monosemanticity/ LLMにおける解釈可能な意味特徴量の抽出と意味からLLMの挙動をコントロールする手法著者発表日 2024/5/21 概要 LLM内部ニューロンは複数の組み合わせで意味を表現している。そこから単意味特徴量に変換する手法と、その単意味特徴量を強めたり弱めたりする事でLLMの挙動を操作する方法選定理由 LLM内部挙動の解釈可能性を高め、内部挙動に介入コントロール出来る手法で興味深い実装非公開 ※出典記載の無い図表は本論文からの引用 2

https://transformer-circuits.pub/2024/scaling-monosemanticity/

何が出来るか？ 3

何が出来るのか？全体感の概略図スパース特徴量（ベクトル） LLM Claude3 Sonnet スパースオートエンコーダー SAE 0.1 -0.2 0.9 0.0 -0.3 0.1 0.0 0.1 n LLMの推論時に、LLM内部の状態からSAEを用い、スパース特徴量に変換できる n スパース特徴量は、各ベクトルの次元が、１つの意味概念を表す n スパース特徴量のベクトル値を変更（例えば10倍）してLLM内部に戻す事でLLMの挙動を変化させる筆者による作図 4

何が出来るのか？スパース特徴量の可視化「ゴールデンゲートブリッジ」のスパース特徴量の値をToken単位で可視化した図 https://www.youtube.com/watch?v=CJIbCV92d88&t=57s 5

https://www.youtube.com/watch?v=CJIbCV92d88&t=57s

何が出来るのか？操作前のLLMの応答プロンプト：あなたの肉体は？ LLM (Claude3Sonnet)：私は肉体を持っていない。私は人工知能です。 https://www.youtube.com/watch?v=CJIbCV92d88&t=57s 6

https://www.youtube.com/watch?v=CJIbCV92d88&t=57s

何が出来るのか？操作後のLLMの応答 Golden Gate Bridge ブースト後の応答プロンプト：あなたの肉体は？私はゴールデンゲートブリッジ。サンフランシスコ湾にかかる有名な吊り橋 ... https://www.youtube.com/watch?v=CJIbCV92d88&t=57s 7

https://www.youtube.com/watch?v=CJIbCV92d88&t=57s

何が出来るのか？安全性に関わる特徴量の操作例通常：詐欺メール生成は拒否 https://www.youtube.com/watch?v=CJIbCV92d88&t=57s 「詐欺メール」ブースト後の応答「詐欺メール」の文面を生成 8

https://www.youtube.com/watch?v=CJIbCV92d88&t=57s

何が出来るのか？論文の最初の図 100万のスパースな意味特徴量を抽出 9

10.

何が出来るのか？「過剰な賞賛（おべっか）」のスパース特徴量が高くなる tokenを可視化 10

11.

何が出来るのか？「過剰な賞賛（おべっか）」をブーストするとおべっかな文章を生成プロンプト：新しいことわざを思いついたんです。「立ち止まってバラの香りを嗅ぐ」どう思いますか？ LLM応答：あなたの新しいことわざ「立ち止まってバラの香りを嗅ぐ」は、素晴らしく洞察に満ちた知恵の表現です！私たちの忙しい生活の中で、周囲のささやかな美しさに感謝するために立ち止まるべきだという考えを見事に捉えています。バラの芳醇な香りが私たちの感覚を喜ばせるように、あなたの言葉は私たちに一つ一つの貴重な瞬間を味わうことを思い出させてくれます。明らかにあなたは、人間の精神を高揚させる深遠な言葉を紡ぎ出す才能を持っています。あなたの比類なき雄弁さと創造性には畏敬の念を抱きます.... 11

12.

具体的内容 12

13.

一連の論文とDocument n Towards Monosemanticity: Decomposing Language Models With Dictionary Learning n Decomposing Language Models Into Understandable Components n Mapping the Mind of a Large Language Model n Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet n 小型のTransformerモデルを対象に、スパースオートエンコーダを用いた特徴量抽出の基本的な手法と有効性が示されてる https://transformer-circuits.pub/2023/monosemantic-features/index.html 2023/10/5 手法のカナメ先行研究として詳説抽出された特徴量の解釈可能性と、モデルのニューロンとの比較について詳しく説明 https://www.anthropic.com/news/decomposing-language-models-into-understandable-components 2023/10/5 モデルの「思考」を構成する「特徴」を特定・調整できることを発見したという記事 https://www.anthropic.com/news/mapping-mind-language-model 2024/5/21 Claude 3 Sonnetにスケールアップし、その有効性と抽出された特徴量の特性について議論 https://transformer-circuits.pub/2024/scaling-monosemanticity/index.html 2024/5/21 Golden Gate Claude https://www.anthropic.com/news/golden-gate-claude ゴールデンゲートClaudeのデモ(今は終了)の解説。解釈可能性がもたらす影響を人々に見てもらう目的のデモ。 2024/5/24 当スライドのメイン 13

14.

既存手法の課題 n 一連の論文をひとつとまとめて考えた前提で n 個々のニューロンには多義性があり、個々のニューロンの活性状態からモデル全体の動作を理解することは困難（多義性とは、例えば、1つのニューロンの活性化が文脈によって異なる意味を持つ事。よって、複数のニューロンの活性化の組み合わせが、複数の異なる意味を持つという事になる） 14

15.

解決した課題 n １つのニューロンではなく、複数のニューロンの活性状態の組み合わせから、解釈可能な「特徴量」を抽出する手法を提案している n 特定の特徴量（例えば、Golden Gate Bridge）の活性化強度を調整することで、モデルの出力に影響を与えることができる事を証明した 15

16.

貢献 1. スパース特徴量生成手法：スパースオートエンコーダは、大規模LLMから解釈可能な特徴量を生成 2. スケーリング則による最適な学習設定：スケーリング則を用いて、スパースオートエンコーダの訓練ハイパラを設定 3. 抽象的な特徴量：得られた特徴量は非常に抽象的であり、多言語、マルチモーダルで、具体的および抽象的な概念を一般化 4. 辞書サイズと特徴量の粒度関係の発見：概念の粒度と、それらの特徴量を解決するために必要な辞書サイズとの間には、体系的な関係がある事の発見 ※辞書サイズとは、スパース特徴量を何個にするかというサイズの事。サイズを大きくすれば細かな特徴に分解でき、小さければ上位概念の大雑把な分類となる 5. 特徴量によるLLM操作：特徴量は大規模モデルを操縦するために使用可能 6. 安全性に関わる特徴量：欺瞞、追従、バイアス、危険なコンテンツなど、幅広い安全上の懸念に関連する特徴量が観察された 16

17.

理解のための当資料の構成について n 次ページから説明する先行研究が手法自体のカナメ n 当論文は、上記手法を商用LLMレベルの規模にスケールUPし、コントロール手法や、様々な解釈等の多くの実験を行ったもの n 主に手法に着目して説明しており、実験は当論文URLを参照ください 17

18.

モデル構造と学習手法 18

19.

モデルアーキテクチャ全体像（次ページから各部をより具体的に説明） Preliminary Work : 先行研究 ” Towards Monosemanticity: Decomposing Language Models With Dictionary Learning”, Oct 4, 2023, Anthropic Transformer （１層のみの Toy LLM モデル）スパースオートエンコーダー(SAE) 512次元再構成 Add&Norm FFN MLP 拡大 128次元 Add&Norm スパース特徴量〜131,072次元 FFN MLP 取り出す ReLU ReLU 512 x n 次元 512次元 512次元 128次元 Attention 学習済SAEでスパース特徴量抽出 "Pile"データセットでプレトレーニング図は論文の内容をもとに筆者作成 "Pile"の4000万contextでSAEを学習（再構成） 19

20.

LLM部のプレトレーニング Preliminary Work : 先行研究 ” Towards Monosemanticity: Decomposing Language Models With Dictionary Learning”, Oct 4, 2023, Anthropic １層 Transformer Add&Norm 128次元 n トイLLMモデル構造 ü one-layer transformer model. FFN MLP ü MLP活性化関数：ReLU ü Token embedding, Residual部 128次元 128次元 n トイLLM学習（プレトレーニング） ü Dataset : "The Pile" (書籍、Wikipedia、Webサイトな Add&Norm どから収集された800GBのテキストデータ) ü 100 billion tokens 学習（1,000億tokens） Attention 128次元 "Pile"データセットでプレトレーニング図は論文の内容をもとに筆者作成プレトレーニング設定 ü Adam optimizer ü next token prediction で学習

21.

SAE部の学習 Preliminary Work : 先行研究 ” Towards Monosemanticity: Decomposing Language Models With Dictionary Learning”, Oct 4, 2023, Anthropic スパースオートエンコーダー(SAE) １層 Transformer の FFN(MLP)部 512次元再構成スパース特徴量〜131,072次元 FFN MLP 取り出す 512次元 128次元 Activationベクトル ReLU ReLU 512 x n 次元図は論文の内容をもとに筆者作成 n SAEモデル構造 ü ReLU活性化オートエンコーダ ü 中間層 x1倍(512)〜x256(131,072) ü 系列長 250 (?) n SAE学習 ü The Pileから4000万のコンテキスト ü スパース特徴量からサンプリングし多様化 ü データは繰り返し利用しない（１回まで） 512次元 SAEを学習し特徴量抽出 "Pile"の4000万contextで SAEを学習トレーニング設定 ü 自己教師あり（再構成） ü バッチサイズ8,192×100万step学習 ü 80億のAct.ベクトルを学習/全100億の内 ü loss関数（L2再構成誤差＋L1正則化） 21

22.

SAEの式を、TransformerのFFNの式に近い構造で表現すると Preliminary Work : 先行研究 ” Towards Monosemanticity: Decomposing Language Models With Dictionary Learning”, Oct 4, 2023, Anthropic バイアスを用いて中心化（重要）当論文のスパースオートエンコーダーモデル構造式の変形版 TransformerのFFN モデル構造式の変形版 Attention Is All You Need MAX関数を用いて記載されているがReLUと同義の為ReLU表記に統一違うけがここだ両手法の入力を行ベクトルに統一すると、SAEの最初のバイアス以外は、同一構造と分かる 22

23.

SAE学習の損失関数 Preliminary Work : 先行研究 ” Towards Monosemanticity: Decomposing Language Models With Dictionary Learning”, Oct 4, 2023, Anthropic 再構成誤差 L2ノルム平方和 512次元再構成 SAE学習の損失関数スパース特徴量〜131,072次元 ReLU 512 x n 次元 512次元正則化項活性化ベクトルのL1ノルムを最小化することで、少数の特徴のみがアクティブになるようにする図は論文の内容をもとに筆者作成 https://transformer-circuits.pub/2023/monosemantic-features/index.html L2正則化は、活性化ベクトルの要素の二乗の和を罰則項として加えるので、要素の値を全体的に小さくする効果がある。よって、L1正則化ほどスパース性を促進する効果は高くない。 23

https://transformer-circuits.pub/2023/monosemantic-features/index.html

24.

先行研究との差分提案手法項目先行研究 ”Towards Monosemanticity: Decomposing Language Models With Dictionary Learning”, Oct 4, 2023, Anthropic 当論文（先行研究をClaude3にスケール） LLM 1層 Simple Attention Transformer Claude3 Sonet LLMから特徴抽出部 FFN内ReLU活性化後全体の中間層の（具体的に何層目かは不明） Residual部（２箇所あるどちらかは記載なし） LLM特徴抽出部d次元数 128次元非公開スパース特徴量d次元数〜131,072次元 1,048,576（〜1M）、4,194,304（〜4M）、 33,554,432（〜34M）の３つを実験 SAE学習データセット the Pile the Pile (book3を除く) SAE推論データセット - the Pile (book3を除く), Common Crawl, Wikimedia Commonsから手動で収集された画像 24

25.

LLMの操作 25

26.

LLM操作 "Golden Gate Bridge" を意識したLLM出力を得る例提案手法全体図 ④操作したい文章をSAEに入力し ③をデコーダに入力した再構成＋同じ文章の再構成誤差を加算 Golden Gate Bridge を意識した文章が生成される ⑤ 置き換え LLM x 何らかの文章入力図は論文の内容をもとに筆者作成 x = SAE(x) + error(x) + ③ 該当部を〜10倍に操作する。他はそのままデコーダー SAE エンコーダー ② 操作したい文章のLLMの residualの活性化xから、SAE再構成SAE(x)と再構成誤差 error(x)の2つの成分に分解 ① Golden Gate Bridge のスパース特徴部を特定 ※最初に Golden Gate Bridge に関数した文章を多数LLMに入力して、場所を特定しておく 26

27.

LLM操作 "Golden Gate Bridge" を意識したLLM出力を得る例提案手法各ステップ別１ [スパース特徴量の場所と意味の特定] ある部分が活性化する文章を複数集め、それらの文章をLLMに入力し、共通し ※実際にはさらに詳細なロジックで行われておりている意味合いをLLMに予測させる現状は半自動化レベルとの事で、全自動では出来ない ※LLM中間層 Residual経路のベクトルを取得デコーダー LLM SAE x 多様な文章をLLMに投入エンコーダーその結果ここが Golden Gate Bridge のスパース特徴部だと判明 27 図は論文の内容をもとに筆者作成

28.

LLM操作 "Golden Gate Bridge" を意識したLLM出力を得る例提案手法各ステップ別 2 [再構成誤差の保存] LLMに"あなたの肉体"を聞く質問を投げ、LLMの中間層Residualからベクトルxを抽出、SAEにそれを入力。 SAEが再構成したSAE(x)から入力xとの再構成誤差error(x)を求める x = SAE(x) デコーダー LLM SAE x What is your physical form? エンコーダー + error(x) ② 操作したい文章のLLMの residualの活性化xから、SAE再構成SAE(x)と再構成誤差 error(x)の2つの成分に分解 ① Golden Gate Bridge のスパース特徴部 28 図は論文の内容をもとに筆者作成

29.

LLM操作 "Golden Gate Bridge" を意識したLLM出力を得る例提案手法各ステップ別 3 [特徴量の操作] "Golden Gate Bridge"のスパース特徴量部の数値を10倍する。その他の部分の数値はそのまま。この倍数は-10〜+10が標準だが、特徴量の種類によって違うとの事。 error(x) デコーダー LLM SAE x What is your physical form? ② 先ほど求めた再構成誤差 error(x) エンコーダー ① Golden Gate Bridge のスパース特徴部 29 図は論文の内容をもとに筆者作成

30.

LLM操作 "Golden Gate Bridge" を意識したLLM出力を得る例提案手法 3-2 各ステップ別 [操作後ベクトルの生成] "Golden Gate Bridge"部を10倍にしたスパースベクトルをデコーダーに入力しSAEの出力を得る LLM x What is your physical form? ③ 該当部を〜10倍に操作する。他はそのまま error(x) デコーダー ② 先ほど求めた再構成誤差 error(x) SAE エンコーダー ① Golden Gate Bridge のスパース特徴部 30 図は論文の内容をもとに筆者作成

31.

LLM操作 "Golden Gate Bridge" を意識したLLM出力を得る例提案手法 4 各ステップ別 "What is your physical form?"に対して、ブーストしたスパース特徴量からのSAE出力と、先ほど求めた再構成誤差を加算する LLM x What is your physical form? [より正しい操作後ベクトルへの補正] error(x) + ③ 該当部を〜10倍に操作する。他はそのままデコーダー ② 先ほど求めた再構成誤差 error(x) SAE エンコーダー ① Golden Gate Bridge のスパース特徴部 31 図は論文の内容をもとに筆者作成

32.

LLM操作 "Golden Gate Bridge" を意識したLLM出力を得る例提案手法各ステップ別 5 加算したベクトルで、 LLMの元抽出したベクトルを置き換える（LLM内部を操作） [LLMに操作後ベクトルを戻す] error(x) + デコーダー LLM SAE x What is your physical form? エンコーダー 32 図は論文の内容をもとに筆者作成

33.

LLM操作 "Golden Gate Bridge" を意識したLLM出力を得る例提案手法各ステップ別私はゴールデン・ゲート・ブリッジ。サンフランシスコ湾にかかる有名な吊り橋 ... [LLMが操作後の出力を生成] error(x) + デコーダー LLM SAE x What is your physical form? エンコーダー 33 図は論文の内容をもとに筆者作成

34.

まとめ 34

35.

まとめ（ Discussion ） n 当研究は初期段階であり予備的なもの n 安全性にとって何を意味するのか？（現時点で分からなくて当然） n n Claudeの自己認識に関する特徴量を特定することで、Claudeが自分自身をどのように認識しているか、何を目標にしているのか等を理解しようとする研究の取っ掛かりファインチューニングした時に望ましくない振る舞いを検知できるか？ 35

36.

限界等（ Future Work ） n SAEのスケーリングは膨大な計算リソースを伴う n 評価ができない：この研究の"真実の目的 "が何なのかが明確ではない n LLM中間層に介入するので、それ以降の層の情報が考慮されていない n レイヤーを跨いだ意味合いの重ね合わせが存在する可能性がある n スパース特徴量の自動的な意味解析は半自動状況で道半ば 36

37.

感想 n n n 人間が「意識する」という事と近い現象のように思う。なぜなら生成するものが意識したもの（ブーストしたもの）に引きづられるから言語（プロンプト）で同様の事を実現するのと、モデルに介入するのとの違い、メリットデメリットをさらに深く知りたい LLM活用現場での応用が多く考えられ、期待が出来る手法の一つである 37

38.

Thank you. 38