1.3K Views
November 18, 22
スライド概要
2022/11/4
Deep Learning JP
http://deeplearning.jp/seminar-2/
DL輪読会資料
DEEP LEARNING JP [DL Papers] “Contrastive Learning as Goal-Conditioned Reinforcement Learning”1 東京大学工学系研究科 稲富翔伍 http://deeplearning.jp/ 2022/11/4
書誌情報 2 論文名 Contrastive Learning as Goal-Conditioned Reinforcement Learning 著者 Benjamin Eysenbachα,β Tianjun Zhangγ Sergey Levineβ,γ Ruslan Salakhutdinovα αCMU βGoogle Research γUC Berkeley 投稿 arXiv 15th Jun 2022 概要 • • • • Project Page https://ben-eysenbach.github.io/contrastive_rl/ 2022/11/4 Goal-Conditioned RLを“対照学習“として再解釈・証明 表現学習のための追加の目的関数やデータ拡張を行わないアルゴリズム 著者らの先行研究C-learning の一般化など”contrastive RL 群”を提唱 画像ベースのタスクなどで性能を発揮
背景:強化学習における表現獲得の課題 3 表現学習を行いながら強化学習も同時に行うのは困難 強化学習のためには良い表現が必要 良い表現獲得には強化学習の力が必要 表現:画像が表す意味など ∵ “良い表現”は強化学習タスクに依存する 従来、RLの表現獲得において • Perception-specific loss functions • Auto-encoderによる再構成誤差項の導入など • Data augmentations • 入力画像のデータ拡張、状態へのノイズの追加など といった工夫がなされる。 モチベーション 追加の工夫なしで、良い表現学習を行うシンプルなRLアルゴリズムを設計できないか? 2022/11/4
著者らのアプローチ 4 正例 負例 “Contrastive Learning as Goal-Conditioned Reinforcement Learning” 表現学習をメインに据える。表現学習をやりながら副次的に強化学習も完了させる。 • 対照学習の枠組みを用いて、(状態s,行動a)のペアが将来のゴール状態に近づくように 学習させると、自ずと強化学習が完了していると考えられる。 • そのように(対照)強化学習を再解釈できる • 対照学習で獲得される“距離”と、強化学習の行動価値関数Q(s,a)は対応づけできる 2022/11/4
著者らのアプローチ 5 今回はRLのうちGoal-Conditioned RLに注目し、対照学習による表現学習と関連付ける。 =”Contrastive representation learning method” Goal conditioned RLとは • ゴール状態で条件づけた方策の学習を行う 𝜋 𝑎 𝑠, 𝑔) • 自己教師あり学習により、手動による報酬の設定が不要 正 元 負 対照学習とは(特に Noise Contrastive Estimation) • 元データに対して正例は似た表現となるように、負例は離れた 表現となるように学習する。 • 正例は元データの加工したものや、時系列的に近い データなどで作成される Contrastive representation learning method • Critic function f( ( 𝑢 = 𝜙(𝑠, 𝑎)と𝑣 = 𝜓(𝑔𝑜𝑎𝑙)の内積)がGoal-conditioned Q関数𝑄(𝑠, 𝑎, 𝑔𝑜𝑎𝑙)と同じになる ように学習される 2022/11/4
先行研究に対する強み • 先行研究では表現学習のために入力状態についての再構成誤差を用いたり、追 加で対照学習を行うなどの工夫が求められた • 本研究では表現学習にも強化学習にも共通した目的関数のみを使用。 • 報酬関数でなく行動価値関数を直接取得 • 報酬関数は用いないためTD学習は不要 • 状態の表現ではなく、状態に紐づいた行動の表現が得られるので、行動を最適化するため (𝑢 = 𝜙(𝑠, 𝑎)) の追加のRLも不要 2022/11/4 6
対照学習をRLアルゴリズムとして再解釈する –Criticの学習- 定理1 上式(critic functionの学習式)の最適解となるcritic function 𝑓 ∗は、報酬関数を としたときのQ関数とみなせる。 「 と は同じ意味」 Critic function 𝑓 ∗ (𝑠, 𝑎, 𝑠𝑓 ) はactionが𝑠𝑓 に近づくようなものであれば高い値となる。 つまり、critic functionはQ関数と同じ役割を果たす。 → Actor-critic アルゴリズムのcriticとして使える。 ※実際には次の式が成立 2022/11/4 7
対照学習をRLアルゴリズムとして再解釈する –Actorの学習- ゴール状態𝑆𝑔 が将来最も発生する可能性が高くなるような行動aを選択する方策を学習する。 提案手法のアルゴリズム 2022/11/4 8
実験 9 1. 他のGoal-conditioned RL手法との比較 提案手法の強化学習としての強み HER, GCBC, Model-based 2. 他の表現学習手法との比較 提案手法の表現学習としての強み DrQ, AE, CURL 3. 提案手法群の比較 Contrastive RL(NCE), Contrastive RL(CPC), C-learning, Contrastive RL(NCE+C-learning) 4. 学習された特徴量𝒖 = 𝝓(𝒔, 𝒂)の評価 5. 提案手法のOffline RLへの適用 ※実験1-3ではいずれもランダムな5つのSeed値で学習させたものを平均化 2022/11/4
実験-1(Goal-conditioned RL比較 ) ベースライン • HER (Hindsight Experience Replay) Hindsight relabelingを用いるActor-critic • 失敗した行動系列の最後の状態をゴールとして再解釈 報酬関数は用いない • GCBC(Goal-conditioned behavior cloning) ゴール状態に到達したtrajectoryの模倣学習を行う • モデルベース Discounted occupancy measure を近似 出力の次元が状態の次元に依存→画像ベースの高次元のタスクには不向きだろう Discounted state occupancy measure = 方策πによって、将来のどこかの時点で状態sが実現される確率 2022/11/4 10
実験-1(Goal-conditioned RL比較 )タスク Fetch reach アームの先端を赤点(ゴール地点)に移動させる。 Fetch push 黒い箱を赤点に移動させる Sawyer push 平円盤をゴール地点に移動させる Sawyer bin 別の箱に物体を移動させる Ant umaze 8自由度のアリ型ロボットを操作してゴールに到達させる。 uはマップがU字型という意味 Point spiral 11x11 点を移動させる11x11サイズの渦巻き型2D迷路 ※いずれも、目標物がゴールから一定距離内に入ると成功とみなす。 2022/11/4 11
実験-1(Goal-conditioned RL比較 )結果・考察 (a)状態を入力 比較的難しいSawyer_binでは提案手法が優れている。その他Pushタスクでも他手法を凌駕。 Ant_umazeではModel-basedが優れるが、それはゴール状態が低次元((x,y)座標)で表されるため (b)画像を入力 Sawyer_push, Sawyer_binはいずれも成功率が50%を下回るとはいえ、学習が進まない他手法を上回る。 2022/11/4 12
実験-2(表現学習手法比較)先行手法 13 • DrQ • Data augmentation手法 • 4つのAugmented画像を用いてQ関数を平均化 • AE • Auto-encoder の再構成誤差項を目的関数に追加 正例負例 Aug.画像 • CURL[1] • DataAugを用いた対照学習の目的関数 CURL[1] これらの手法をActor-Criticアルゴリズムの TD3 + HER(実験-1でも使用)に付与する [1]Contrastive Unsupervised 2022/11/4 Representations for Reinforcement Learning
実験-2(表現学習手法比較)結果 • TD3+HERに対して、追加の目的関数やデータ拡張を行ったものは確かに性能が向上する。 • しかし、提案手法の方がそれらの工夫を上回る。 • RLに対して後付的に表現学習の機構を取り付けるよりも、RLのアルゴリズムそのものを対照 学習に近いものにした方がより大きな効果を得られる。 2022/11/4 14
実験-3(提案手法群比較) • C- learning[2] • 著者らのGoal-conditioned RLの先行研究。Goal-conditioned確率密度を直接推定せず、将 来状態かランダム状態かを判別する分類機を学習 • Contrastive RL (NCE) • Noise Contrastive Estimation • 正例と負例で対照学習(冒頭で説明済み) • Contrastive RL (CPC)[3] • Contrastive Predictive Coding • 時刻t-1までをエンコードした情報と時刻tとの相互情報量 [2]C-LEARNING: LEARNING TO ACHIEVE GOALS VIA RECURSIVE CLASSIFICATION(図 https://papertalk.org/papertalks/28998) [3]Representation Learning with Contrastive Predictive Coding 2022/11/4 15
実験-3(提案手法群比較) • C-learningは3つのタスクでContrastive RL (NCE)を上回ったが、他のタスクでは最低性能だった。 • Contrastive RL (NCE+C-learning)は安定して高い性能を発揮した。 2022/11/4 16
実験-4(学習特徴量評価) 目的 学習された特徴量𝑢 = 𝜙(𝑠, 𝑎)にタスクに関係ある情 報が含まれているかを確認。 • ゴールまでの最短距離に対応する情報 内容 画像ベースのPoint Nine Rooms タスクにおいて Linear probe 試験を実施。 ランダムに配置されるAgentとGoal位置の距離(壁に よる阻害も考慮)を推定・回帰させる試験 比較 • 提案手法の特徴量 • ベースライン(TD3+HER)の特徴量 • ランダムなCNNの特徴量 提案手法はエラー最小であった。 2022/11/4 17
実験-5(Offline RLへの適用) 18 目的 提案手法がOffline環境で性能を発揮するのか検証 設定 • • • • Ant Mazeタスク 方策の目的関数を次のように変更 𝜆 = 0.05に設定 2or5個のCriticを学習しActorの学習にはその最小値を使用 結果 • 難しいLarge系のタスクにおいてIQLに対して7~9%程度向上 • TD学習より、capacity(Criticの数)が性能向上に寄与する可能性 2022/11/4 𝜆 = 0:実験1-4の提案手法と同じ 𝜆 = 1:GCBC(模倣学習)と同じ
まとめ 19 結論 • 対照学習をGoal-conditioned RLの文脈に落とし込んだ • RL手法が対照学習を行っているという再解釈 • シンプルな構造 / 性能が高いRL手法を含むcontrastive RL 群の提案 • “表現学習のようにに見えるRLアルゴリズム”の優位性 • Limitation • Goal-conditioned RL以外の任意のRLに対しての考察 • 対照学習の考え方を用いた寄りよりRLアルゴリズムの考案 輪読者の感想 • 表現学習を根幹においてRLタスクを解かせる発想は新鮮(RLの枠組みが大きく変わりそうだ) • Ant_umaze 画像での提案手法とモデルベース手法の比較は? 2022/11/4