193 Views
October 19, 18
スライド概要
2018/10/19
Deep Learning JP:
http://deeplearning.jp/seminar-2/
DL輪読会資料
Large-Scale Study of Curiosity-Driven Learning Yuma Kajihara, Ikegami Lab 1
アウトライン • • • • • 書誌情報 背景/問題意識 内的報酬 各種実験 議論 2
書誌情報 • • • • • • Title: “Large-Scale Study of Curiosity-Driven Learning” Authors: Yuri Burda, et al. (OpenAI,UC Berkeley,Univ. of Edinburgh) ArXivに2018 8/13投稿 ArXiv:https://arxiv.org/abs/1808.04355 デモ:https://pathak22.github.io/large-scale-curiosity/ 箇条書き要旨: - Curiosityという情報量の,報酬としての有効性を幅広いタスクで検証した. - Curiosityのみで学習できるタスクが意外と多く存在する. - 観測情報のEncodingがとても重要である. - 内的報酬は,問題の報酬設計を考える上で役に立つ. 3
背景/問題意識 • 報酬設計問題:どう報酬を定義すれば良いか. - 強化学習を考える上で避けて通れない. - タスク(環境)によっては,モデルを工夫するよりも,報酬設計の仕方次第でそのタスク の難易度が大きく変わることも多々ある.(Reward Hack) - 誤解を恐れずに言うと,超ヒューリスティック.(自動的に設計するのが難しい) Environment Action Reward How to Design???? Agent 4
背景/問題意識 • 報酬設計問題: - スパースな設計 - 連続的な設計 0 0 0 100 0.1 0.6 0.8 1 0 0 0 0 0.2 0.4 0.8 0.8 0 0 0 0 0.2 0.2 0.6 0.6 0 0 0 0 0.1 0.2 0.3 0.5 Current State 0 0 0 Current State 0.1 0.2 0.2 • 設計は簡単 • 設計するのが難しい. • 学習させるのが難しい場合が多い . • うまく定義できれば学習はうまく いく場合が多い. 5
背景/問題意識 • 良い報酬表現を自動的に獲得するには? • 逆強化学習:エキスパート方策から報酬マップを復元する. • Ng et al.(2000):線形計画法 • Zeibart et al.(2008):Maximum Entropy IRL • 達人のデータが必要. • 内的報酬👈 6
内的報酬 • 内的報酬:環境に依存せずに定義され(Task-free),エージェント内部で生成される報酬( Model-based)だと思ってください. • 具体的には:報酬を出力する関数を定義する.← How to define? Observation Environment Action Reward Generator Agent Extrinsic Reward Intrinsic Reward 7
内的報酬 • Curiosity:Prediction Errorをベースにした内的報酬 • つまり, と から次の観測量である を予測するモデルを作成し,その誤差が高いほ ど,報酬が高くなるということである. • この論文では,その誤差を分散固定のガウス分布に従うMean Squared Errorとしている. • 関数Φは,観測情報をエンコードするためのものである.(ここにどういう変換を用いるか によって,パフォーマンスが変わってくる.) 8
内的報酬 • 先行研究:Intrinsic Curiosity Module (ICM) (Pathak et al. 2017) 9
内的報酬 • 先行研究:State visitation counts(Bellemare et al. 2016) - Montezuma’s Revengeがかなり上手く解けたとして話題になったもの. - 似た状態に何回到達したかを疑似的にカウントし(Exploration Counting; EC),ECが少ない 状態に進むように探索行動を促進する. - Pseudo Count: 10
内的報酬 • 表現関数Φに何を使えばいいのか. • 期待されること • Compact:冗長ではない表現 • Sufficient:必要な情報を全て含んでいる. • Stable:学習/推論期間中,常に安定した表現. • ここでは,4通りの方法を試している. • Raw Pixels • Random Features CNN • VAEでEncodingしたベクトル • 先ほどのICM 11
実験1:CuriosityだけでAtariやMarioを学習 • 筆者の主張:外的報酬の累計がちゃんと上がってる!!!(このExtrinsic Rewardは,学習で は全く考慮していない.) • ゲームによって有効な特徴量が異なる.(Raw PixelsでCuriosityを測るのは基本的に厳しい) 12
実験1:CuriosityだけでAtariやMarioを学習 • 成功したタスク DemonAttack Asterix Mario 13
実験1:CuriosityだけでAtariやMarioを学習 • 失敗したタスク Venture Gopher Pitfall 14
実験1:CuriosityだけでAtariやMarioを学習 15
実験2:RoboSchoolのAnt • 入力にはAnt自身の画像を使用(自身の関節状態ではなく) • 歩行的な運動が生じた.(明示的報酬なしに) 16
実験3:MultiAgentなPingPong • 両方とも,報酬として利用できるのは,相手の行動に対するCuriosityのみ • 時間が経つにつれ,ラリーが続くようになった. • いきなり背後のカラーを変えると,突然ラリーが続かなくなる.(当たり前のような気もす るが...) 17
実験4:レベルの汎化 • 内的報酬=環境に依存せずに得られる量:外的報酬を用いたモデルより,同じゲームでの難 易度に対する汎化がしやすいのではないか? 18
実験5:スパースな外的報酬の補助役としてのCuriosity • スパースな報酬設計=学習が難しくなる大きな要因 • Curiosityを組み込むことで,探索範囲が広くなり,スパースな報酬系でも学習がうまくいく ようになる. 19
Curiosity (Prediction Error)の限界 • 壁によく変わる映像を投影すると,それに釣られて行動しなくなる. • 環境の確率変動が激しいと,指標としてほとんど意味をなさなくなってしまう. Without TV With TV 20
議論 • Curiosity:観測量の予測誤差を情報理論的に定式化したもの. • Atariなど多くのゲームにおいて,ゲームデザイナーは,プレイヤー(人間)のゲームへの興 味(好奇心)を妨げずにプレイ時間を長くするように,注意して地図やレベルを設計してい るから? • (もちろん)全てのゲームをこのCuriosityだけで解くことは不可能である.特に,環境の探 索がそれほど重要ではないゲームでは,Prediction Errorを用いた指標はあまり役に立たない. • 実験5のように,スパースな外的報酬とペアで扱うのはとても有効に思える. • (より生物学的な観点から)より生存戦略に沿った内的報酬も考えていきたい. 21