2.5K Views
April 26, 24
スライド概要
【論文の学術分野】:Computation and Language
【論文正式名称】:In-Context Learning Creates Task Vectors
【原論文のリンク】:https://arxiv.org/abs/2310.15916
【論文投稿日付】:2023/10/24
【概要】:モデルが、パラメータの変更・調整(いわゆる学習)無しに、入力に含まれるルールを捉えることIn-Context Learningと呼びます。この論文は、単純で秀逸な実験によりこの現象の解明を試みるものです。具体的には、タスクベクトルという概念を定義し、それらの存在を示し、効力を測定、可視化しています。
【注意書き】:解釈に誤りがある可能性がありますので、ご参考いただく際はご注意ください。資料の転用は禁止しております。
人工知能(ディープラーニング)研究者。現在博士課程に在籍。主な実績:CVPR2024主著論文採択。研究テーマ:コンピュータ・ビジョンの分野で深層学習モデルがどのように機能するかを包括的に研究。
論文紹介 In-Context Learning Creates Task Vectors モデルが、パラメータの変更・調整(いわゆる学習)無しに、入力に含 まれるルールを捉えることIn-Context Learningと呼びます。 この論文は、単純で秀逸な実験によりこの現象の解明を試みるものです。
論文紹介 2024/01/23 立教大学人工知能科学研究科 瀧雅人研究室D1 安木 駿介
目次 • 論文概要 • 研究の振り返り • 研究背景 • 研究の観点 • 検証 • 議論 • まとめ 2
論文概要
論文概要>論文タイトル・貢献 論文タイトル • In-Context Learning Creates Task Vectors 原論文「https://arxiv.org/abs/2310.15916 」 貢献1 • ICLのメカニズム的な見方の提案 貢献2 • 公開されている様々なLLMと多様なタスクセットでの検証 4
論文概要>In-Context Learningとは? Q. ICL(In-Context Learning)とは? Input Output Apple→Red Lime→Green Corn→ A. Yellow LLM パラメータの変更・調整(いわゆる学習)無しに、 モデルが入力に含まれるルールを捉えること。 5
なぜこんなことが起こるのか? →論文はこの答えを探求している
研究アプローチ 疑問点と研究アプローチ 疑問点 ICLの背後には どんなメカニズムがあるのか? ※ さらに言えば、経験的リスク最小化 (Empirical Risk Minimization)。 書籍 仮説h=入力xを出力yに マップする関数 仮説H=真の法則 仮説Hの空間 研究アプローチ 統計的学習理論の仮説クラスの概念 (※)を利用してアプローチ。 データ生 成分布D 仮説h PDF 経験的リスク最小化 m個のサン プリング点 真の法則(仮説H)や分布Dがわからずとも、 m個のサンプリングから経験的に損失を最小化し、 入力xを出力yにマップする関数(仮説h)を見つけること。 ややこしく聞こえるが、結局は、ICLの現象も通常の学習 の常識で考えられるのでは?という切り口。 8
検証の目標 検証の目標理解 Input Output Apple→Red Lime→Green Corn→ Yellow LLM 右下図のように解釈できる アルゴリズム ベクトルθ(S)を計算 (デモデータS) ≒ルール関数を獲得 Input クエリx クエリxに ルール関数を適用 検証の目標 Input=デモデータS+クエリxと考えた時、 Sのみからルール関数を獲得し、xに適用できるかを確認したい。 9
仮説 著者らの仮説 アルゴリズム ベクトルθ(S)を計算 (デモデータS) ≒ルール関数を獲得 Input クエリx クエリxに 著者らの仮説 ICLは2つのステップから構成されると考える。 A. デモデータSに基づきベクトルθを計算する(ルールを抽出) ルール関数を適用 検証の目標 B. ベクトルθで定義されるルールをクエリxに適用する Input=デモデータS+クエリxと考えた時、 Sのみからルール関数を獲得し、xに適用できるかを確認したい。 Apple→Red Lime→Green Corn→ Output Yellow LLM ・・・ Layer Layer Layer Layer Shallow ・・・ B Output Input Layer LLMのフォワードパスでは、Sとxが二つの要素とし てうまいこと分解されているのか?検証しよう。 Input x S A Layer 浮上する疑問点 L番目 Layer Transformer内で上記が実行される場合、その単純な方法は以下。 L番目までのレイヤーでAが行われ、以降でBが行われるというもの。 Deep しかし、実際にはどの層でもSとxにアクセス可能であるため、 仮説の妥当性は不明である。 10
仮説の検証 仮説の検証のための、フォワードパスの変形 現状では、Sとxを同時に入力する。 そのため、A(ルール抽出)とB(ルール適 用)のステップの存在を確認できない。 クエリx(Corn)の代わりにダミークエリx’(Plum)を用意。Plumに続く「→」のL 層における表現「θ」ベクトルを獲得。その後「Corn→」のみの入力のL層にて、 11 「→」のL層表現を先の「θ」ベクトルに置き換え、Aとfの処理を独立させる。
仮説の検証 仮説の検証:先の変形プロセスで、18のタスクを実施 18のタスク。アルゴリズム、翻訳、言語学的タ スク、知識タスクと、4ジャンルに大別される。 計画した実験の結果は、通常実験の結果に迫る高い性能を 示した。これは、Aとfの分離が、ICLの基礎となるプロセス の経験的な近似といえることを示している。 12
発見 レイヤーとタスクベクトルに関する興味深い発見 最適なL番目のレイヤーは、モデルの層数やパラ メータ数が異なっても、おおよそ同じような中 間レイヤーとなった。 t-SNEによるタスクベクトル の可視化。タスクごとにまと まりがある。 類似タスク同士(例えば仏英 と西英の翻訳)のベクトルの 特徴は近い。 13
追加検証 異なる実験による、主張の補強 図:相反するタスクの実験。通常シナリオ(上)では、モデルにはタスクA(例えばアルファベットの前の文字を出力する)の ためのデモンストレーションSAが単純に提供される。 競合シナリオ(下)では、モデルにはタスクAのデモンストレーションが提供されるが、競合タスクB(例えばアルファベット の次の文字を出力する)からのタスクベクトルθ(SB)を注入する。 ===================== Regular Task A: デモ=A用 Conflicting Task B: デモ=A用、タスクベクトルθはB用のもの。 表2:競合タスクの実験結果。 両シナリオの関連タスク(「通常」のA、「競合」のB)に対するモデルの精度が表示されている。 通常タスクAと相反タスクBを用意。例:リストタスク。[c,d,b,a,e] 通常タスクA:デモデータS=A用のもの 相反タスクB:デモデータS=A用のもの。タスクベクトルθはB用のもの。 → 結果、Aは当然高いとして、Bも結構高くなった。 このモデルが主にθに依存しており、タスクAのための実証Sをほとんど無視してい ることを示唆している。 14
ベクトルθについて ベクトルθの解釈・保有情報 学習されたベクトルθは、S(デモデータ)が示すタスクに関する情報 を直感的に捉える。 =========abst より========= ICLはSを1つのタスクベクトルθ(S)に圧縮し、このタスクベクトルを用 いてTransformerを変調し、出力を生成すると見ることができる。 ======================== θはTransformerの中間的な隠れた状態なので、vocabulary projection method(語彙投影法、nostalgebraist, 2020; Dar et al.)により、隠れた状態によって誘導される語彙上の分布の上位トー クンを調べる。 ベクトルθは、パラメータの変更無しに少ないデモデータのみか ら計算されるのにもかかわらず、アウトプットには直接現れな 15 いようなタスク関連情報を保持している。