【DL輪読会】Foundation Models for Decision Making: Problems, Methods, and Opportunities

486 Views

April 21, 23

#@deep learning jp #基盤モデル #意思決定 #大規模データ #生成モデル #連続的意思決定問題

スライド概要

2023/4/21
Deep Learning JP
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 85.7K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 59.5K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 55.3K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 40K

【拡散モデル勉強会】拡散モデルのサンプラーまとめ

Deep Learning JP 34K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 33.6K

各ページのテキスト

Foundation Models for Decision Making: Problems, Methods, and Opportunities 2023.4.21 Presenter: Tatsuya Matsushima @__tmats__ , Matsuo Lab 1

https://twitter.com/__tmats__

概要基盤モデルを意思決定問題に用いる研究に関するレビュー論文 • 大規模データで事前学習された基盤モデルは幅広い画像や言語タスクで高い性能を示している • 基盤モデルを実用的な連続意思決定問題に利用するためのアプローチを整理 2

書誌情報 Foundation Models for Decision Making: Problems, Methods, and Opportunities • Sherry Yang1,2, Ofir Nachum1, Yilun Du3, Jason Wei1, Pieter Abbeel2, Dale Schuurmans1,4 • 1Google Brain, 2UC Berkley, 3MIT, 4University of Alberta • https://arxiv.org/abs/2303.04129 • v1: 2023/3/7 • 本発表では，本論文で紹介されているそれぞれの研究よりも，本論文自体のまとめ方や構成を中心に話します • 紹介されている論文を読む会は別の機会にちゃんとやりたい ※特に出典が明記されていない図は当論文から引用 3

https://arxiv.org/abs/2303.04129

背景多様なデータセットで自己教師あり学習で事前学習された基盤モデルは多様な下流タスクで高い転移性能を示している • 画像やテキストの世界だけではなく，外部の要素やエージェントに接する応用への期待も高まる • 例）ロボットの制御・プランニング・・・etc 4

背景基盤モデルを外部の要素やエージェントと関わる対象に応用しようとすると新しい課題も生まれる • 外部の要素から与えられるフィードバックからどのように学習するか？ • 言語や画像などの大規模データセットに含まれない多様なモダリティにどのように適応するか？ • 例：ロボットの行動 • 長期のreasoningやplanningをいかに行うか？これらの課題は今まで連続意思決定問題として扱われてきた 5

基盤モデルと連続的な意思決定問題の関係の整理基盤モデルとしては • 単純なzero-shot/few-shotの画像・言語モデルだけではなく長期のreasoningや複数の相互作用の問題を含むようになっている連続的意思決定問題としては • 複数のモデル・複数のタスク・汎用的なエージェントの学習のために，これまでと比べて格段に大きいデータセットを使うようになってきている CLIPやViTなどの事前学習モデルの利用によって両者の境界がより曖昧になりつつある 6

2．前提知識 • 連続的意思決定問題の定式化 • MDP • 模倣学習 • 強化学習 • プランニング・最適制御 • シナリオの例 7

この先出てくるデータセットに関する表記 RL = {τ} • 1つもしくは複数の方策から生成された軌道からなるデータセット • 行動や報酬を含むインタラクティブな軌道 • （普通の）画像や言語のデータセット 𝒟 𝒟 𝒟 • 静的なデータセット（x ∼ ） 8

𝒟 オフラインRLとの比較オフラインRL • タスク固有のデータセット RL（タスク固有の状態・行動・報酬）からRLアルゴリズムを学習することに焦点をおく意思決定のための基盤モデル • 多様なデータ（例：画像や言語領域のデータ）を使った自己教師あり学習の後にタスク特有の適応 9

10.

シナリオの例① 人間のフィードバックを利用した対話エージェント • プロンプトや報酬ベースのfine-tuningを利用してより複雑な reasoningや対話タスクを徐々に学習していく • 10

11.

シナリオの例② インターネットを環境として利用 • インターネットは無制限の環境としてみなせる • 大量の情報があり，相互作用するコストが小さい 11

12.

シナリオの例③ 共通の方策としての動画生成 • 状態と行動の対応が環境によって異なるのが汎用的なロボットを学習する際の問題になっている • 方策の学習をテキストで条件づけられた動画生成の問題と同じようにみなすことができるはず 12

13.

3．条件付き生成モデルとしての基盤モデル • 生成モデルの定式化 • 潜在変数モデル • 自己回帰モデル • 拡散モデル • エネルギーベースモデル • エージェントの挙動に関する生成モデル • 世界に関する生成モデル 13

14.

エージェントの挙動に関する生成モデルとして利用 ① 基盤モデルをエージェントの挙動の事前知識として用いる場合 • （RL界隈の）skill，optionともいえる • 軌道に関連する何らかの情報で条件づけられる行動の最尤推定 • VAE・自己回帰モデル・transformer・拡散モデルなどが使える 14

15.

𝒟 𝒟 𝒟 エージェントの挙動に関する生成モデル ② 大量の挙動に関するデータセットを用いた汎用エージェントを学習する場合 • 複数のタスク固有のデータセット RLを組み合わせて使う • 例）Gatoでは共通のtokenizationを使って統合 • 大量にあるインターネットスケールのを活用 • ただし，タスク固有のデータセット RLよりも行動のアノテーションが少ない • 例）UniPiでは動画の予測モデルと，生成された動画から行動を予測する逆モデルを学習 15

16.

𝒟 エージェントの挙動に関する生成モデル ③ 大規模なオンライン学習の利用 • シミュレータやゲーム環境は本来大規模なデータからエージェントを学習できるはず • しかし現時点でそこまで基盤モデルが活用されているわけではない ④探索やエージェントの自己改善に利用 • タスク固有のデータセット RLに探索行動が含まれていたら，探索の挙動自体を獲得できるはず • 例）algorithm distillation 16

17.

① モデルベースのプランニングのための1ステップの報酬とダイナミクスの予測 • オフラインのデータτ ∼ RLが与えられたもとで，報酬関数ℛと遷移関数を生成モデルとして学習 • 自己回帰モデルとしては以下のようにかける • Trajectory Transformerは状態・行動・報酬の各次元を離散化してGPTstyleの自己回帰モデルを適用 • VQ-VAEやMAEを使って観測を離散化してtransformerや潜在空間上のダイナミクスモデルを適用する手法もある 𝒟 𝒯 世界に関する生成モデルとして利用 17

18.

世界に関する生成モデルとして利用 ② 長期的な生成モデルを使ってプランニングに利用 • 軌道τの同時分布を拡散モデルを使って直接モデル化 • この分布が得られていればプランニングは簡単になる • z(τ)に軌道レベルの実現したい性質を反映すれば良い • 例）ゴール，スキル，ダイナミクスの制約，テキストの説明 18

19.

4．表現学習器としての基盤モデル • Plug-and-Playな利用 • タスク指示に画像と言語の利用 • 連続的意思決定のための表現学習 19

20.

Plug-and-Playな利用意思決定するエージェントの認識モジュールの前処理や初期値としてoff-the-shelfな基盤モデルを利用 • 例）動画キャプショニングモデルを用いてエージェントの観測をテキストに起こして情報を付加する • 例）CLIPなどのvision-languageモデルを利用して，エージェントの観測や報酬を処理するために画像と言語をalignする • ドメイン固有な行動空間を持つような設定には活用しにくい 20

21.

タスク指示に画像と言語を利用テキストのコマンドや画像の入力を，エージェントのロバストで汎用的でマルチタスクの方策の学習に利用する • Plug-and-Playな基盤モデルの利用法の一つ • 例）現在のロボットの状態のほかに，「ドアを閉める」というテキストの説明や，ドアが閉まっているゴールの画像を付加する • 21

22.

連続的意思決定問題のための表現学習として利用 • 順モデル・逆モデル・価値関数・好奇心の評価指標として利用 • 時間的な表現学習のために利用 • 例）時系列方向にcontrastive learning • 状態・行動・報酬・ダイナミクスの表現をMAEとして学習 • オフラインRLをpretrainingとして利用 • 22

23.

5．エージェントと環境としての基盤モデル事前学習された基盤モデルがエージェントや環境として作用するケース • 人間との相互作用する場合 • ツールと相互作用する場合 • 基盤モデルが環境になる場合 23

24.

𝒟𝒟 人間と相互作用する場合対話エージェントの最適化をする場合 • 広範なデータも対話のタスク特化のデータ RLも同じテキストのモダリティ • 自己教師あり学習を事前学習に使い，タスク特化のfine-tuningができる問題設定 • 例）chat GPTで使われているRLHF（Reinforcement Learning with Human Feedback） • 最新の情報の取り込みやhullicinationに課題が残る 24

25.

ツールと相互作用する場合 Webブラウザのようなツールを相互作用できる環境とみなす • 大量でオンラインのシミュレータへのアクセスが必要な手法を実問題に利用できるようになる • 例）MCTSを使ったプランニング • 25

26.

基盤モデルが環境になる場合ある答えを引き出すために反復的にpromptingする場合，基盤モデル自体が環境になっているとみなせる • 高次の行動を使ってpromptを生成する • 例）DECOMPOSE, RANK, DENOISE, PARAPHRAZE • 例）SUMMARISE, PRUNE, SEARCH • これらの行動によってより長いコンテクストが使えるようになる 26

27.

6．残る問題と課題 • データセットをいかに収集・活用するか • 環境とタスクをいかに構造化するか • 基盤モデル自体の改善 • 意思決定の改善 27

28.

𝒟 𝒟 𝒟𝒟 𝒟𝒟 データセットをいかに収集・活用するか基盤モデルを意思決定問題に活用する際の最も大きい問題の一つはデータセットのギャップ • Vision-languageの大規模なデータセットとタスク固有のインタラクティブなデータセット RLはモダリティやその構造が異なることが多い • 後処理でを RLにすることもできる • 例）hindsight relabellingをする • RLを複数集めて • 例）Gato のように扱うこともできる 28

29.

𝒟 データセットをいかに収集・活用するか存在するvision-languageのデータセットの例 29

30.

𝒟 データセットをいかに収集・活用するか存在する意思決定のデータセット RLの例 30

31.

環境とタスクをいかに構造化するか基盤モデルが画像やテキストをタスクのインターフェイスにしているのに対し，意思決定問題は個別の状態空間・行動空間を持つ • それぞれの意思決定問題間で知識を共有したり汎化するのが難しい統一的なエンコーディング • 異なる環境の全ての状態・行動・報酬に統一のエンコーディングをして時系列モデリングとして扱う環境をテキストにしてしまう • 観測をキャプションモデルを使って書き起こす動画を使って方策を表現する • 動画予測と行動予測を学習（ただし追加的な学習が必要） 31

32.

基盤モデル自体の改善長いコンテクストへの対応と外部メモリの利用 • 効果的な意思決定のためには観測と行動の過去の長い歴史が必要なことがある • Promptingにより中間処理しる（ただしプロンプト依存）複数の基盤モデルを組み合わせる • 言語を使って複数の基盤モデルを操作する • 言語はさまざまな基盤モデルの共通のインターフェイスになっている世界に基盤モデルをグラウンドさせる • 例）シミュレータの中間生成物を行動生成のコンテクストに利用 • Mind's eyeなど • 例）シミュレータによる評価をフィードバックとして用いて最適化 32

33.

意思決定の改善期待された挙動をいかに引き出すか？ • Task-agnosticな基盤モデルをtask-specificな意思決定モデルに効率的に適応させる必要がある • Instruction finetuning, CoTの利用などを使って欲しい挙動に近づけるオフラインからオンラインにする • 事前学習された基盤モデルをRLなどで直接finetuningする • 大量のオンラインのデータが必要になる • これを実現するためのインフラ自体が必要 33

34.

7．まとめ基盤モデルは汎用人工知能を実現するための道標になるだけではなく，意思決定システムのさまざまな構成要素を特徴づける • エージェントの挙動と世界の生成モデル • 世界に関する知識の表現 • インタラクティブなエージェントと環境しかし，基盤モデルを意思決定問題に用いるためには，データのモダリティの違いや環境やタスクの不明瞭さなどに課題がまだ残っている 34

35.

感想 • 基盤モデルの概念のもとに，系列モデリング問題として，強化学習・模倣学習の手法を整理すると最近のかなり多くの研究がこの枠組みの中に入るのが面白い • 例）Decision Transformer, Trajectory Transformer, Diffuser, Gato, Diffusion Policy, EBMベース（implicit BC）… • この先ロボット学習がどういうアプローチをとっていくかを考える上で有益なマップになりそう 35

36.

おしらせ（ぜひご投稿ください） ①「基盤モデルのロボット応用」に関するオーガナイズドセッションをRSJ2023で企画しています． • 東大JSKの河原塚先生と合同で企画 ②「基盤モデルのロボット応用」に関する特集号を英文誌Advanced Roboticsで企画しています • 東大JSK河原塚先生に加えて，理研AIPの栗田さん， Google BrainのAndy Zeng，Meta AIのChris Paxton，立命館大谷口先生，早大尾形先生がEditor 詳細は https://sites.google.com/view/robotics-foundationmodels 36

https://sites.google.com/view/robotics-foundation-models

37.