[DL輪読会]Social Influence as Intrinsic Motivation for Multi-Agent Deep Reinforcement Learning

>100 Views

July 01, 19

スライド概要

2019/06/28
Deep Learning JP:
http://deeplearning.jp/seminar-2/

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

(ダウンロード不可)

関連スライド

各ページのテキスト
1.

DEEP LEARNING JP [DL Papers] Social Influence as Intrinsic Motivation for Multi-Agent Deep Reinforcement Learning Toru Fujino, SCSLab http://deeplearning.jp/ 1

2.

書誌情報 • ”Social Influence as Intrinsic Motivation for Multi-Agent Deep Reinforcement Learning” • Deep Mind • ICML 2019 (Honourable mention for best paper) • 概要 • Multi-Agentの強化学習において, agent間の行動の影響度合い (causal influence) を報酬として設定するモデルを提案 • 環境の報酬への依存度が下がるので, 単一のモデルを複数の環境で動か すことなどが将来的には考えられる. よりgeneral • 断りがない限り, スライド中の図・画像は著者の論文および発 表資料からの引用

3.

関連リンク • ICMLでの発表スライド: https://docs.google.com/presentation/d/1xmynjZpnymt7ALBOax3zL8 JcBrdKlEerqQze9UmsR6o/edit#slide=id.g36d5a1cafb_0_977 • 別のワークショップでの同内容の発表動画: https://youtu.be/Vx5Daxa0Yts?list=PL8xSEJPW_T357zKeK3i4UYQfMR MvcaDHR&t=2482 (41:22頃から) • 学習済みモデルの動画 (著者のYouTubeチャンネル): https://www.youtube.com/channel/UC86PeCToS5yrXOftBh4ye7A • 論文中で使われるゲームのgithubレポジトリ: https://github.com/eugenevinitsky/sequential_social_dilemma_game s

4.

目次 • 背景 • Sequential Social Dilemma • モデルI + 実験 • モデルII + 実験 • モデルIII + 実験 • まとめ

5.

強化学習ではagentは環境からの報酬によ り学習をおこなう • Breakout: ブロックを崩したら1点 • Pong: 相手の裏にボールを通したら1点 Breakout Pong • 当然ながら別のゲームなら別のネットワーク (重み) が必要 • 同一のネットワークで複数の環境で動くとより一般的なモデル と言える. なので嬉しい OpenAI Gym: https://gym.openai.com/

6.

環境に依存しない報酬とは • Intrinsic Motivation: 内因的な動機にしたがって学習を進める • 例) 好奇心: 未知の部分に対する興味 • 報酬が環境にあまり依存しない • 報酬がスパースになりにくい 強化学習における好奇心: https://speakerdeck.com/learn_learning3/qiang-hua-xue-xi-niokeruhao-qi-xin

7.

他のagentとの相互作用を元に学習する (Social Learning) • これも環境に依存しない • 例) • 他の人の行動を真似る • 他の人に大きな影響を与えるような行動を学習する ”Why is social learning important?”: https://lalandlab.st-andrews.ac.uk/why-is-social-learning-important/

8.

Multi-Agent Reinforcement Learning (MARL) • 一つの環境に複数の自律的なagentが存在 • 単独/協力行動によって全体で高い報酬を獲得することが目的 (のことが多い) • どうやって協力させるか • Centralisedな学習scheme • 全agentを全体の報酬を最大化するように最適化する • 報酬は高くなるがagent間の報酬が不均衡になってしまう • 自律的なagentに対しては適用しづらい • Decentralisedな学習scheme • 各agentは各々の報酬を最大化するように最適化 • タスクによっては協力を促す必要 (e.g. 囚人のジレンマ, 共有地の悲劇) • 現実の問題により適用しやすい

9.

協力が必要な状況: 共有地の悲劇 • りんごを獲得する (裏切り) と報酬は得られるが, 一方でりんご を収穫しすぎると新しいりんごが実ってこない (協力).

10.

Social learningにより協力を創発させる • 他のagentに影響を与えることにincentiveを与える • Decentralisedな学習が可能になる • 具体的には, 自分の行動がどれだけ他のagentの行動に影響を与 えたか • Counterfactuals (実際には取らなかった行動) を用いた推論に よって自分の行動の影響度を測る • 「もし別の行動 (counterfactual) を取っていたら他のagentの行動はどう なっていただろう?」

11.

他のエージェントとの相互作用を報酬に 組み込む • 具体的には, 自分の行動がどれだけ他のagentの行動に影響を与 えたか • Counterfactuals (実際には取らなかった行動) を用いた推論に よって自分の行動の影響度 (causal influence) を測る • 「もし別の行動 (counterfactual) を取っていたら他のagentの行動はどう なっていただろう?」

12.

Counterfactualによるcausal influenceの計算 • 例) Agentがkとjの2人だけの場合 • • • • 𝑠: 時刻tの状態 𝑎 𝑘 : 時刻tでkが実際に撮った行動 𝑎෤ 𝑘 : 時刻tでkが実際には取らなかった行動 𝑎 𝑗 : 時刻tでjが実際に撮った行動 • 実際の取った行動に条件づけたときの相手の行動 𝑝(𝑎 𝑗 |𝑎 𝑘 , 𝑠)と実際に は取らなかった行動に条件づけたときの相手の行動 𝑝 𝑎 𝑗 𝑎෤ 𝑘 , 𝑠 の差

13.

3つのモデルを提案 • モデルI: Basic Social Influence • 各agentの方策 からcausal influenceを計算 • 多少centralisedなモデル • モデル II: Influential Communication • agent間にcommunication channelを設ける • Decentralisedなモデル • モデル III: Modeling Other Agentsモデル • 各agentが他の全agentの行動を予測するモデルをそれぞれ独自に持ち, 各timestepで自分の行動の影響度合い (causal influence) を独自に計算

14.

目次 • 背景 • Sequential Social Dilemma • モデルI + 実験 • モデルII + 実験 • モデルIII + 実験 • まとめ

15.

Sequential Social Dilemmas • 囚人のジレンマ・共有地の悲劇等でみられる問題に時間軸を追 加したゲーム • 囚人のジレンマ A\B Cooperate Betray Cooperate (-1, -1) (-3, 0) Betray (0, -3) (-2, -2) • 短期的には裏切り, 長期的には協力が利益につながる Leibo et al., “Multi-agent Reinforcement Learning in Sequential Social Dilemmas”, AAMAS 2017 Prisoner’s dilemma: https://en.wikipedia.org/wiki/Prisoner%27s_dilemma

16.

Sequential Social Dilemma: Cleanup • 囚人のジレンマに時間軸を追加 • りんごを収穫する (裏切り) と報酬を得られるが, 一方で土地を 綺麗にしないと新しいりんごは実ってこない (協力).

17.

Sequential Social Dilemma: Harvest • 共有地の悲劇に時間軸を追加 • りんごを獲得する (裏切り) と報酬は得られるが, 一方でりんご を収穫しすぎると新しいりんごが実ってこない (協力).

18.

Cooperation is hard • agentにとってはほぼ常に裏切りが最適な行動 • ただ協力する人数が多くなるに連れて報酬は増えていく

19.

目次 • 背景 • Sequential Social Dilemma • モデルI + 実験 • モデルII + 実験 • モデルIII + 実験 • まとめ

20.

報酬: 環境 + 他のagentへの影響度合い • 各agentは自身の報酬を最大化する方策を学習 • 報酬関数 • e: 環境からの報酬 • c: 他のagentへの影響の度合い

21.

他のagentの方策からcausal influenceを計 算 • 実際に取った行動a^kに対する他のagentの方策と取らなかった 場合の方策の差を計算 • この計算はcentralisedに行われる • KL距離以外にもJSD距離等でも実験

22.

実験設定 • Social influence rewardの重みは学習を進めながら大きくしてい く (カリキュラム学習) • agentの方策はA3Cで学習 • CNN -> FC -> LSTM • 影響を受けるだけのagent (Influencee) も同時に学習させる

23.

Social Influenceを考慮することにより全体 での獲得報酬が増加 • Visible actions baseline: 環境からの報酬のみで学習する

24.

Influencer only traverses the map when it is pursuing an apple • 紫: Social influence rewardで学習されたagent • りんごが近くにあるときのみ動く • りんごがあることのシグナルとなるため, 他のagentの行動に影響を与 える

25.

Box Trapped • 自由に動けるagent (紫)と罠に 捕まっているagent (水色) • 紫のagentはりんご (緑) を独占 することができる • 特別な行動をとることで水色 のagentを罠から開放すること もできる

26.

Causal influenceで学習させるとうまくい く 通常のA3C agent Causal influenceで学習させたagent

27.

Causal influenceを考慮したagentは88%の 確率で水色のagentを救出 • 通常のRLエージェント (A3C) では0% • ゲームの早い段階 (t=2) で救出する場合が多い 救出したtimestep • 協力行動の双発 Social influence reward

28.

目次 • 背景 • Sequential Social Dilemma • モデルI + 実験 • モデルII + 実験 • モデルIII + 実験 • まとめ

29.

モデル II: Influential communication • エージェントの行動で影響力を計算する代わりに, 離散的なシ ンボルmを送り合う • 影響を与え合うメッセージ

30.

communicationをする方策と行動する方策 は別々に学習 • 𝜋𝑒 (行動の方策): 環境からの報酬を元に学習 • 𝜋𝑚 (comの方策): 環境 + causal influenceの報酬を元に学習

31.

Communication channelを利用することに より学習が早くなる • Comm baseline: 環境からの報酬のみで学習

32.

Speaker consistency • Speaker consistency in [0, 1): agentの行動が送られたmessageとど れだけ1対1に対応しているかを測る指標

33.

Communication analysis • Influencerのmessageとinfluenceeの次stepでの行動の相互情報量

34.

影響を大きく受けるエージェントの報酬 が高くなる • 影響を大きく受ける ≒ communication channelからのmessageに 行動が大きく依存している

35.

目次 • 背景 • Sequential Social Dilemma • モデルI + 実験 • モデルII + 実験 • モデルIII + 実験 • まとめ

36.

モデル III: Model of Other Agents (MOAs) • 他のエージェントの行動を予測するネットワーク • 報酬の計算自体はそのまま • エージェントが見える範囲にいるときのみ報酬を計算

37.

Agents that are the most influenced achieve higher individual reward • MOA baseline: 影響の報酬を計算しないモデル

38.

Centralisedな学習をした場合 • 学習はdecentralisedな場合よりも早く進む • ただエージェント間の報酬が不均衡になる Centralisedな学習 Decentralisedな学習

39.

目次 • 背景 • Sequential Social Dilemma • モデルI + 実験 • モデルII + 実験 • モデルIII + 実験 • まとめ

40.

まとめ • 周りのエージェントへの影響度を考慮したSocial learningにより Multi-Agent RLにおいて協力行動を実現 • 協力行動により高い報酬を達成 • 同一のモデルで複数の環境での検証をする必要がある • 環境によらない報酬を設定した目的の一つ • 環境の報酬にもまだ依存している • 学習の初期段階では環境からの報酬に依存 (カリキュラム学習)

41.

付録

42.

Speaker consistency • agentの行動aがmessage mとどれだけ一貫しているか • [0, 1). 1に近いほど一貫している (特定の行動とメッセージが1対1に対応 している) • 第一項が大きい (1に近い) ほどmからaが予測しやすい • 第二項が大きい (1に近い) ほどaからmが予測しやすい

43.

Cheap talk between self-interested agents doesn’t work • 行動ではないので, 協力的に機能するとは限らない. • 自分だけに利するようにメッセージを送ることもできる • 送られてきたメッセージが役に立たない場合, 受け取ったエー ジェントがメッセージを無視することも考えられる • 行動に対する方策\pi_eは環境からの報酬で学習するので, メッ セージmはその報酬に直接つながる情報と考えられる