[DL輪読会]Large-Scale Study of Curiosity-Driven Learning

236 Views

October 19, 18

#deep learning #Curiosity-Driven Learning #Intrinsic Reward #Reward Design #Prediction Error #Machine Learning

スライド概要

2018/10/19
Deep Learning JP:
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 87.4K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 60K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 58.7K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 41.5K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 38K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 37.6K

各ページのテキスト

Large-Scale Study of Curiosity-Driven Learning Yuma Kajihara, Ikegami Lab 1

アウトライン • • • • • 書誌情報背景/問題意識内的報酬各種実験議論 2

書誌情報 • • • • • • Title: “Large-Scale Study of Curiosity-Driven Learning” Authors: Yuri Burda, et al. (OpenAI，UC Berkeley，Univ. of Edinburgh) ArXivに2018 8/13投稿 ArXiv：https://arxiv.org/abs/1808.04355 デモ：https://pathak22.github.io/large-scale-curiosity/ 箇条書き要旨: - Curiosityという情報量の，報酬としての有効性を幅広いタスクで検証した． - Curiosityのみで学習できるタスクが意外と多く存在する． - 観測情報のEncodingがとても重要である． - 内的報酬は，問題の報酬設計を考える上で役に立つ． 3

背景/問題意識 • 報酬設計問題：どう報酬を定義すれば良いか． - 強化学習を考える上で避けて通れない． - タスク（環境）によっては，モデルを工夫するよりも，報酬設計の仕方次第でそのタスクの難易度が大きく変わることも多々ある．（Reward Hack） - 誤解を恐れずに言うと，超ヒューリスティック．（自動的に設計するのが難しい） Environment Action Reward How to Design???? Agent 4

背景/問題意識 • 報酬設計問題： - スパースな設計 - 連続的な設計 0 0 0 100 0.1 0.6 0.8 1 0 0 0 0 0.2 0.4 0.8 0.8 0 0 0 0 0.2 0.2 0.6 0.6 0 0 0 0 0.1 0.2 0.3 0.5 Current State 0 0 0 Current State 0.1 0.2 0.2 • 設計は簡単 • 設計するのが難しい． • 学習させるのが難しい場合が多い． • うまく定義できれば学習はうまくいく場合が多い． 5

背景/問題意識 • 良い報酬表現を自動的に獲得するには？ • 逆強化学習：エキスパート方策から報酬マップを復元する． • Ng et al.(2000)：線形計画法 • Zeibart et al.(2008)：Maximum Entropy IRL • 達人のデータが必要． • 内的報酬👈 6

内的報酬 • 内的報酬：環境に依存せずに定義され（Task-free），エージェント内部で生成される報酬（ Model-based）だと思ってください． • 具体的には：報酬を出力する関数を定義する．← How to define? Observation Environment Action Reward Generator Agent Extrinsic Reward Intrinsic Reward 7

内的報酬 • Curiosity：Prediction Errorをベースにした内的報酬 • つまり，とから次の観測量であるを予測するモデルを作成し，その誤差が高いほど，報酬が高くなるということである． • この論文では，その誤差を分散固定のガウス分布に従うMean Squared Errorとしている． • 関数Φは，観測情報をエンコードするためのものである．（ここにどういう変換を用いるかによって，パフォーマンスが変わってくる．） 8

内的報酬 • 先行研究：Intrinsic Curiosity Module (ICM) (Pathak et al. 2017) 9

10.

内的報酬 • 先行研究：State visitation counts（Bellemare et al. 2016） - Montezuma’s Revengeがかなり上手く解けたとして話題になったもの． - 似た状態に何回到達したかを疑似的にカウントし（Exploration Counting; EC），ECが少ない状態に進むように探索行動を促進する． - Pseudo Count： 10

11.

内的報酬 • 表現関数Φに何を使えばいいのか． • 期待されること • Compact：冗長ではない表現 • Sufficient：必要な情報を全て含んでいる． • Stable：学習/推論期間中，常に安定した表現． • ここでは，4通りの方法を試している． • Raw Pixels • Random Features CNN • VAEでEncodingしたベクトル • 先ほどのICM 11

12.

実験1：CuriosityだけでAtariやMarioを学習 • 筆者の主張：外的報酬の累計がちゃんと上がってる！！！（このExtrinsic Rewardは，学習では全く考慮していない．） • ゲームによって有効な特徴量が異なる．（Raw PixelsでCuriosityを測るのは基本的に厳しい） 12

13.

実験1：CuriosityだけでAtariやMarioを学習 • 成功したタスク DemonAttack Asterix Mario 13

14.

実験1：CuriosityだけでAtariやMarioを学習 • 失敗したタスク Venture Gopher Pitfall 14

15.

実験1：CuriosityだけでAtariやMarioを学習 15

16.

実験2：RoboSchoolのAnt • 入力にはAnt自身の画像を使用（自身の関節状態ではなく） • 歩行的な運動が生じた．（明示的報酬なしに） 16

17.

実験3：MultiAgentなPingPong • 両方とも，報酬として利用できるのは，相手の行動に対するCuriosityのみ • 時間が経つにつれ，ラリーが続くようになった． • いきなり背後のカラーを変えると，突然ラリーが続かなくなる．（当たり前のような気もするが．．．） 17

18.

実験4：レベルの汎化 • 内的報酬＝環境に依存せずに得られる量：外的報酬を用いたモデルより，同じゲームでの難易度に対する汎化がしやすいのではないか？ 18

19.

実験5：スパースな外的報酬の補助役としてのCuriosity • スパースな報酬設計＝学習が難しくなる大きな要因 • Curiosityを組み込むことで，探索範囲が広くなり，スパースな報酬系でも学習がうまくいくようになる． 19

20.

Curiosity (Prediction Error)の限界 • 壁によく変わる映像を投影すると，それに釣られて行動しなくなる． • 環境の確率変動が激しいと，指標としてほとんど意味をなさなくなってしまう． Without TV With TV 20

21.

議論 • Curiosity：観測量の予測誤差を情報理論的に定式化したもの． • Atariなど多くのゲームにおいて，ゲームデザイナーは，プレイヤー（人間）のゲームへの興味（好奇心）を妨げずにプレイ時間を長くするように，注意して地図やレベルを設計しているから？ • （もちろん）全てのゲームをこのCuriosityだけで解くことは不可能である．特に，環境の探索がそれほど重要ではないゲームでは，Prediction Errorを用いた指標はあまり役に立たない． • 実験5のように，スパースな外的報酬とペアで扱うのはとても有効に思える． • （より生物学的な観点から）より生存戦略に沿った内的報酬も考えていきたい． 21