world-model-final

3.8K Views

November 02, 23

スライド概要

近年, 強化学習手法を用いてマルチエージェント経路計画を行う研究が発展している. この問題に取り組む上で, 各エージェントが自身の報酬に動機づけられることで, エージェント同士が協調する行動を学習することが難しいという課題がある. 本研究では, 周囲の動きを予測する世界モデルを用いて自己の利益と他者の利益を併せて考慮することで, エージェントの動作に与える影響を調べた. エージェントの公平性を考慮することは, エージェント間の獲得報酬に生じる偏りを是正する有力な解決策となり, 最終的には混雑した環境での動作など実環境で利用する上で十分な性能を獲得することが期待される.

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

JSAI 2023 OS-21 世界モデルと知能 世界モデルベースマルチエージェント強化学習における エージェント間の公平性を考慮した経路計画手法の提案 青木 瑞穂 (名古屋大学) 藤重 天真(東京工業大学) 〇塚本 慧(東京大学) 藤本 昌也(大阪大学) 鈴木 雅大(東京大学) 松尾 豊(東京大学)

2.

マルチエージェント経路計画問題とは ■ 複数のロボットが衝突を避けながら, 与えられた複数の目標地点への到着を目指すタスク グリッドワールドにおける経路計画の例 ロボットを用いた工場の自動化を想定したモデル [1] [1] G. Sartoretti et al., "PRIMAL: Pathfinding via Reinforcement and Imitation Multi-Agent Learning," in IEEE Robotics and Automation Letters, vol. 4, no. 3, pp. 2378-2385, July 2019, doi: 10.1109/LRA.2019.2903261. 2

3.

マルチエージェント経路計画における公平性 ■ 公平性が重要となるマルチエージェント経路計画問題の事例 : デリバリー, 救助・探索活動 公平性 : 低 公平性 : 高 タスク(目標地点にいずれかのエージェントが到達すること) 達成タイミングについて 公平性を考慮したマルチエージェント経路計画手法を提案することを目指す 3

4.

従来研究に対する位置づけ 従来アプローチ[2] 進行先 の干渉 ② 局所的な場面で譲り合いを促進 → 間接的に公平性向上 従来の動作から定量化した 各エージェントの「辛抱強さ」を比較 ① ① 提案アプローチ ② < より「辛抱強い」方を優遇 Wait ② ① ② Go 大局的な状況を共有し不公平に罰則 → 直接的に公平性向上 現時点における各エージェントの より「目標達成度の低い」方を優遇 目標達成度(目指すゴールまでの距離)を比較 ② ① ① あと5m < ② あと3m Go ① [2] Hikaru Asano, Ryo Yonetani, Mai Nishimura, and Tadashi Kozuno. 2023. Counterfactual Fairness Filter for Fair-Delay Multi-Robot Navigation. In Proceedings of the 2023 International Conference on Autonomous Agents and Multiagent Systems (AAMAS '23). International Foundation for Autonomous Agents and Multiagent Systems, Richland, SC, 887 –895. Wait 4

5.

問題設定 ■ タスク : エージェントは与えられた複数の目標地点への到着を目指す ■ 制約 : エージェント同士が衝突してはならない ( = 同じターゲットを共有できない) ■ 公平性の定義 : すべてのエージェントが同時にターゲットへ到着すること 5

6.

世界モデルを用いた効率的なマルチエージェント強化学習 6

7.

従来手法(MAMBPO) ◼ 世界モデルを用いたモデルベース方策 最適化(MBPO)を行う ⚫ 世界モデルを使うことでサンプル効率の良い シミュレーションが可能 ⚫ 全エージェントの観測と行動から次の観測と報酬を予想 するモデル Multi-Agent Model Based Policy Optimization (MAMBPO) Model Based Policy Optimization (MBPO) 7

8.

従来手法(MAMBPO) ◼ 一番近いターゲットとの距離と他エージェント との衝突にペナルティを与える設計 8

9.

提案手法 MAMBPOの場合 ◼ ◼ MAMBPOのペナルティ設計 ⚫ 目標までの距離 ⚫ 衝突 問題点 ⚫ 本研究の場合 公平性を担保することが難しく、上述した環境下(p.3)でマルチエージェントを実用化す ることができない。もしくは問題設定下で目標が達成することが難しい ◼ 本研究では公平な状態を「全エージェントが同時にゴールすること」 と定義し、公平性を担保することを目指す ◼ 提案手法のペナルティ設計 ⚫ 目標までの距離 ⚫ 衝突 ⚫ 全エージェントのゴールまでの分散 →距離の分散を考慮することで「全エージェントが同時にゴールすること」という公平性を 学習させる 9

10.

実験結果 ◼ 公平性を考慮する場合としない場合でエージェントの経路が変化 公平性考慮なし 公平性考慮あり 10

11.

実験結果 各ステップにおける距離の分散 従来手法 (MAMBPO) 総ステップの分散の合計 5.42 19%減少 提案手法 4.41 11

12.

具体的なシーンに注目した解説 迂回して衝突を 避けつつ移動 最短で移動 最短で移動 公平性考慮なし 迂回しつつ移動 公平性考慮あり 12

13.

課題と今後の展望 報酬の推移 従来手法 (MAMBPO) ◼ 従来手法と比べて, 提案手法は学習効率 がやや落ち, 学習曲線が乱高下する. カリキュラムラーニングによる 改善を試みる ◼ 公平性を意識するがあまり, 不必要な 不利益を得る挙動が見られる. 提案手法 (FA-MAMBPO) 報酬設計に改良の余地がある 13

14.

まとめ ◼ 世界モデルベースのマルチエージェント強化学習を用いて公平性を 考慮した経路計画の報酬設計を提案した ◼ 公平性を考慮した挙動を実現できた ⚫ アイデア : ゴール地点までの距離のばらつきにペナルティを与える ◼ 課題 ⚫ 従来手法に対して, 学習がやや不安定となる. ⚫ 公平性を意識するがあまり生じる, 不必要な不利益行動の除去が必要. 14

15.

Appendix 15

16.

Algorithm (MAMBPO) 𝛽𝑚𝑜𝑑𝑒𝑙 Add transitions Train Act Multiagent Next State , Reward 𝑝Ƹ𝜃 World model Train Add transition 𝛽𝑒𝑛𝑣 Rollout 16