【DL輪読会】Foundation Models for Decision Making: Problems, Methods, and Opportunities

425 Views

April 21, 23

スライド概要

2023/4/21
Deep Learning JP
http://deeplearning.jp/seminar-2/

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

(ダウンロード不可)

関連スライド

各ページのテキスト
1.

Foundation Models for Decision Making: Problems, Methods, and Opportunities 2023.4.21 Presenter: Tatsuya Matsushima @__tmats__ , Matsuo Lab 1

2.

概要 基盤モデルを意思決定問題に用いる研究に関するレビュー論文 • 大規模データで事前学習された基盤モデルは幅広い画像や言語 タスクで高い性能を示している • 基盤モデルを実用的な連続意思決定問題に利用するための アプローチを整理 2

3.

書誌情報 Foundation Models for Decision Making: Problems, Methods, and Opportunities • Sherry Yang1,2, Ofir Nachum1, Yilun Du3, Jason Wei1, Pieter Abbeel2, Dale Schuurmans1,4 • 1Google Brain, 2UC Berkley, 3MIT, 4University of Alberta • https://arxiv.org/abs/2303.04129 • v1: 2023/3/7 • 本発表では,本論文で紹介されているそれぞれの研究よりも, 本論文自体のまとめ方や構成を中心に話します • 紹介されている論文を読む会は別の機会にちゃんとやりたい ※特に出典が明記されていない図は当論文から引用 3

4.

背景 多様なデータセットで自己教師あり学習で事前学習された 基盤モデルは多様な下流タスクで高い転移性能を示している • 画像やテキストの世界だけではなく,外部の要素やエージェントに 接する応用への期待も高まる • 例)ロボットの制御・プランニング・・・etc 4

5.

背景 基盤モデルを外部の要素やエージェントと関わる対象に応用しよ うとすると新しい課題も生まれる • 外部の要素から与えられるフィードバックからどのように 学習するか? • 言語や画像などの大規模データセットに含まれない多様な モダリティにどのように適応するか? • 例:ロボットの行動 • 長期のreasoningやplanningをいかに行うか? これらの課題は今まで連続意思決定問題として扱われてきた 5

6.

基盤モデルと連続的な意思決定問題の関係の整理 基盤モデルとしては • 単純なzero-shot/few-shotの画像・言語モデルだけではなく 長期のreasoningや複数の相互作用の問題を含むようになっている 連続的意思決定問題としては • 複数のモデル・複数のタスク・汎用的なエージェントの学習のため に,これまでと比べて格段に大きいデータセットを使うように なってきている CLIPやViTなどの事前学習モデルの利用によって 両者の境界がより曖昧になりつつある 6

7.

2.前提知識 • 連続的意思決定問題の定式化 • MDP • 模倣学習 • 強化学習 • プランニング・最適制御 • シナリオの例 7

8.

この先出てくるデータセットに関する表記 RL = {τ} • 1つもしくは複数の方策から生成された軌道からなるデータセット • 行動や報酬を含むインタラクティブな軌道 • (普通の)画像や言語のデータセット 𝒟 𝒟 𝒟 • 静的なデータセット(x ∼ ) 8

9.

𝒟 オフラインRLとの比較 オフラインRL • タスク固有のデータセット RL(タスク固有の状態・行動・報酬) からRLアルゴリズムを学習することに焦点をおく 意思決定のための基盤モデル • 多様なデータ(例:画像や言語領域のデータ)を使った 自己教師あり学習の後にタスク特有の適応 9

10.

シナリオの例① 人間のフィードバックを利用した対話エージェント • プロンプトや報酬ベースのfine-tuningを利用してより複雑な reasoningや対話タスクを徐々に学習していく • 10

11.

シナリオの例② インターネットを環境として利用 • インターネットは無制限の環境としてみなせる • 大量の情報があり,相互作用するコストが小さい 11

12.

シナリオの例③ 共通の方策としての動画生成 • 状態と行動の対応が環境によって異なるのが汎用的なロボットを学 習する際の問題になっている • 方策の学習をテキストで条件づけられた動画生成の問題と同じよう にみなすことができるはず 12

13.

3.条件付き生成モデルとしての基盤モデル • 生成モデルの定式化 • 潜在変数モデル • 自己回帰モデル • 拡散モデル • エネルギーベースモデル • エージェントの挙動に関する生成モデル • 世界に関する生成モデル 13

14.

エージェントの挙動に関する生成モデルとして利用 ① 基盤モデルをエージェントの挙動の事前知識として用いる場合 • (RL界隈の)skill,optionともいえる • 軌道に関連する何らかの情報で条件づけられる行動の最尤推定 • VAE・自己回帰モデル・transformer・拡散モデルなどが使える 14

15.

𝒟 𝒟 𝒟 エージェントの挙動に関する生成モデル ② 大量の挙動に関するデータセットを用いた汎用エージェントを 学習する場合 • 複数のタスク固有のデータセット RLを組み合わせて使う • 例)Gatoでは共通のtokenizationを使って統合 • 大量にあるインターネットスケールの を活用 • ただし,タスク固有のデータセット RLよりも行動のアノテーションが 少ない • 例)UniPiでは動画の予測モデルと,生成された動画から行動を予測す る逆モデルを学習 15

16.

𝒟 エージェントの挙動に関する生成モデル ③ 大規模なオンライン学習の利用 • シミュレータやゲーム環境は本来大規模なデータからエージェント を学習できるはず • しかし現時点でそこまで基盤モデルが活用されているわけではない ④探索やエージェントの自己改善に利用 • タスク固有のデータセット RLに探索行動が含まれていたら, 探索の挙動自体を獲得できるはず • 例)algorithm distillation 16

17.

① モデルベースのプランニングのための1ステップの報酬とダイナミクス の予測 • オフラインのデータτ ∼ RLが与えられたもとで,報酬関数ℛと遷移関数 を 生成モデルとして学習 • 自己回帰モデルとしては以下のようにかける • Trajectory Transformerは状態・行動・報酬の各次元を離散化してGPTstyleの自己回帰モデルを適用 • VQ-VAEやMAEを使って観測を離散化してtransformerや潜在空間上のダイ ナミクスモデルを適用する手法もある 𝒟 𝒯 世界に関する生成モデルとして利用 17

18.

世界に関する生成モデルとして利用 ② 長期的な生成モデルを使ってプランニングに利用 • 軌道τの同時分布を拡散モデルを使って直接モデル化 • この分布が得られていればプランニングは簡単になる • z(τ)に軌道レベルの実現したい性質を反映すれば良い • 例)ゴール,スキル,ダイナミクスの制約,テキストの説明 18

19.

4.表現学習器としての基盤モデル • Plug-and-Playな利用 • タスク指示に画像と言語の利用 • 連続的意思決定のための表現学習 19

20.

Plug-and-Playな利用 意思決定するエージェントの認識モジュールの前処理や初期値と してoff-the-shelfな基盤モデルを利用 • 例)動画キャプショニングモデルを用いてエージェントの観測を テキストに起こして情報を付加する • 例)CLIPなどのvision-languageモデルを利用して,エージェント の観測や報酬を処理するために画像と言語をalignする • ドメイン固有な行動空間を持つような設定には活用しにくい 20

21.

タスク指示に画像と言語を利用 テキストのコマンドや画像の入力を,エージェントのロバストで 汎用的でマルチタスクの方策の学習に利用する • Plug-and-Playな基盤モデルの利用法の一つ • 例)現在のロボットの状態のほかに,「ドアを閉める」というテキ ストの説明や,ドアが閉まっているゴールの画像を付加する • 21

22.

連続的意思決定問題のための表現学習として利用 • 順モデル・逆モデル・価値関数・好奇心の評価指標として利用 • 時間的な表現学習のために利用 • 例)時系列方向にcontrastive learning • 状態・行動・報酬・ダイナミクスの表現をMAEとして学習 • オフラインRLをpretrainingとして利用 • 22

23.

5.エージェントと環境としての基盤モデル 事前学習された基盤モデルがエージェントや環境として作用する ケース • 人間との相互作用する場合 • ツールと相互作用する場合 • 基盤モデルが環境になる場合 23

24.

𝒟𝒟 人間と相互作用する場合 対話エージェントの最適化をする場合 • 広範なデータ も対話のタスク特化のデータ RLも同じテキストの モダリティ • 自己教師あり学習を事前学習に使い,タスク特化のfine-tuningが できる問題設定 • 例)chat GPTで使われているRLHF(Reinforcement Learning with Human Feedback) • 最新の情報の取り込みやhullicinationに課題が残る 24

25.

ツールと相互作用する場合 Webブラウザのようなツールを相互作用できる環境とみなす • 大量でオンラインのシミュレータへのアクセスが必要な手法を実問 題に利用できるようになる • 例)MCTSを使ったプランニング • 25

26.

基盤モデルが環境になる場合 ある答えを引き出すために反復的にpromptingする場合, 基盤モデル自体が環境になっているとみなせる • 高次の行動を使ってpromptを生成する • 例)DECOMPOSE, RANK, DENOISE, PARAPHRAZE • 例)SUMMARISE, PRUNE, SEARCH • これらの行動によってより長いコンテクストが使えるようになる 26

27.

6.残る問題と課題 • データセットをいかに収集・活用するか • 環境とタスクをいかに構造化するか • 基盤モデル自体の改善 • 意思決定の改善 27

28.

𝒟 𝒟 𝒟𝒟 𝒟𝒟 データセットをいかに収集・活用するか 基盤モデルを意思決定問題に活用する際の最も大きい問題の一つ はデータセットのギャップ • Vision-languageの大規模なデータセット とタスク固有のインタ ラクティブなデータセット RLはモダリティやその構造が異なるこ とが多い • 後処理で を RLにすることもできる • 例)hindsight relabellingをする • RLを複数集めて • 例)Gato のように扱うこともできる 28

29.

𝒟 データセットをいかに収集・活用するか 存在するvision-languageのデータセット の例 29

30.

𝒟 データセットをいかに収集・活用するか 存在する意思決定のデータセット RLの例 30

31.

環境とタスクをいかに構造化するか 基盤モデルが画像やテキストをタスクのインターフェイスにしている のに対し,意思決定問題は個別の状態空間・行動空間を持つ • それぞれの意思決定問題間で知識を共有したり汎化するのが難しい 統一的なエンコーディング • 異なる環境の全ての状態・行動・報酬に統一のエンコーディングをして 時系列モデリングとして扱う 環境をテキストにしてしまう • 観測をキャプションモデルを使って書き起こす 動画を使って方策を表現する • 動画予測と行動予測を学習(ただし追加的な学習が必要) 31

32.

基盤モデル自体の改善 長いコンテクストへの対応と外部メモリの利用 • 効果的な意思決定のためには観測と行動の過去の長い歴史が必要なことがある • Promptingにより中間処理しる(ただしプロンプト依存) 複数の基盤モデルを組み合わせる • 言語を使って複数の基盤モデルを操作する • 言語はさまざまな基盤モデルの共通のインターフェイスになっている 世界に基盤モデルをグラウンドさせる • 例)シミュレータの中間生成物を行動生成のコンテクストに利用 • Mind's eyeなど • 例)シミュレータによる評価をフィードバックとして用いて最適化 32

33.

意思決定の改善 期待された挙動をいかに引き出すか? • Task-agnosticな基盤モデルをtask-specificな意思決定モデルに効 率的に適応させる必要がある • Instruction finetuning, CoTの利用などを使って欲しい挙動に近づけ る オフラインからオンラインにする • 事前学習された基盤モデルをRLなどで直接finetuningする • 大量のオンラインのデータが必要になる • これを実現するためのインフラ自体が必要 33

34.

7.まとめ 基盤モデルは汎用人工知能を実現するための道標になるだけでは なく,意思決定システムのさまざまな構成要素を特徴づける • エージェントの挙動と世界の生成モデル • 世界に関する知識の表現 • インタラクティブなエージェントと環境 しかし,基盤モデルを意思決定問題に用いるためには,データの モダリティの違いや環境やタスクの不明瞭さなどに課題がまだ残 っている 34

35.

感想 • 基盤モデルの概念のもとに,系列モデリング問題として,強化学 習・模倣学習の手法を整理すると最近のかなり多くの研究が この枠組みの中に入るのが面白い • 例)Decision Transformer, Trajectory Transformer, Diffuser, Gato, Diffusion Policy, EBMベース(implicit BC)… • この先ロボット学習がどういうアプローチをとっていくかを考える 上で有益なマップになりそう 35

36.

おしらせ(ぜひご投稿ください) ①「基盤モデルのロボット応用」に関するオーガナイズド セッションをRSJ2023で企画しています. • 東大JSKの河原塚先生と合同で企画 ②「基盤モデルのロボット応用」に関する特集号を 英文誌Advanced Roboticsで企画しています • 東大JSK河原塚先生に加えて,理研AIPの栗田さん, Google BrainのAndy Zeng,Meta AIのChris Paxton, 立命館大谷口先生,早大尾形先生 がEditor 詳細は https://sites.google.com/view/robotics-foundationmodels 36