world-model-final

4.9K Views

November 02, 23

#マルチエージェント経路計画 #強化学習 #公平性 #世界モデル #経路最適化

スライド概要

近年, 強化学習手法を用いてマルチエージェント経路計画を行う研究が発展している. この問題に取り組む上で, 各エージェントが自身の報酬に動機づけられることで, エージェント同士が協調する行動を学習することが難しいという課題がある. 本研究では, 周囲の動きを予測する世界モデルを用いて自己の利益と他者の利益を併せて考慮することで, エージェントの動作に与える影響を調べた. エージェントの公平性を考慮することは, エージェント間の獲得報酬に生じる偏りを是正する有力な解決策となり, 最終的には混雑した環境での動作など実環境で利用する上で十分な性能を獲得することが期待される.

weblab

@weblab

スライド一覧

weblab

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

iwasawa_SLTH_slide

weblab 14.6K

yamatsuta_jsai_slide

weblab 8.7K

nakano_intrinsic_slide

weblab 7.8K

takashiro_daikibo_slide

weblab 7.4K

KoheiHiraki_Transformer_slide_JSAI2023

weblab 6.7K

jsai2023_taniguchi_slide

weblab 6.4K

各ページのテキスト

JSAI 2023 OS-21 世界モデルと知能世界モデルベースマルチエージェント強化学習におけるエージェント間の公平性を考慮した経路計画手法の提案青木瑞穂 (名古屋大学) 藤重天真(東京工業大学) 〇塚本慧(東京大学) 藤本昌也(大阪大学) 鈴木雅大(東京大学) 松尾豊(東京大学)

マルチエージェント経路計画問題とは ■ 複数のロボットが衝突を避けながら, 与えられた複数の目標地点への到着を目指すタスクグリッドワールドにおける経路計画の例ロボットを用いた工場の自動化を想定したモデル [1] [1] G. Sartoretti et al., "PRIMAL: Pathfinding via Reinforcement and Imitation Multi-Agent Learning," in IEEE Robotics and Automation Letters, vol. 4, no. 3, pp. 2378-2385, July 2019, doi: 10.1109/LRA.2019.2903261. 2

マルチエージェント経路計画における公平性 ■ 公平性が重要となるマルチエージェント経路計画問題の事例 : デリバリー, 救助・探索活動公平性 : 低公平性 : 高タスク(目標地点にいずれかのエージェントが到達すること) 達成タイミングについて公平性を考慮したマルチエージェント経路計画手法を提案することを目指す 3

従来研究に対する位置づけ従来アプローチ[2] 進行先の干渉 ② 局所的な場面で譲り合いを促進 → 間接的に公平性向上従来の動作から定量化した各エージェントの「辛抱強さ」を比較 ① ① 提案アプローチ ② < より「辛抱強い」方を優遇 Wait ② ① ② Go 大局的な状況を共有し不公平に罰則 → 直接的に公平性向上現時点における各エージェントのより「目標達成度の低い」方を優遇目標達成度(目指すゴールまでの距離)を比較 ② ① ① あと5m < ② あと3m Go ① [2] Hikaru Asano, Ryo Yonetani, Mai Nishimura, and Tadashi Kozuno. 2023. Counterfactual Fairness Filter for Fair-Delay Multi-Robot Navigation. In Proceedings of the 2023 International Conference on Autonomous Agents and Multiagent Systems (AAMAS '23). International Foundation for Autonomous Agents and Multiagent Systems, Richland, SC, 887 –895. Wait 4

問題設定 ■ タスク : エージェントは与えられた複数の目標地点への到着を目指す ■ 制約 : エージェント同士が衝突してはならない ( = 同じターゲットを共有できない) ■ 公平性の定義 : すべてのエージェントが同時にターゲットへ到着すること 5

世界モデルを用いた効率的なマルチエージェント強化学習 6

従来手法(MAMBPO) ◼ 世界モデルを用いたモデルベース方策最適化(MBPO)を行う ⚫ 世界モデルを使うことでサンプル効率の良いシミュレーションが可能 ⚫ 全エージェントの観測と行動から次の観測と報酬を予想するモデル Multi-Agent Model Based Policy Optimization (MAMBPO) Model Based Policy Optimization (MBPO) 7

従来手法(MAMBPO) ◼ 一番近いターゲットとの距離と他エージェントとの衝突にペナルティを与える設計 8

提案手法 MAMBPOの場合 ◼ ◼ MAMBPOのペナルティ設計 ⚫ 目標までの距離 ⚫ 衝突問題点 ⚫ 本研究の場合公平性を担保することが難しく、上述した環境下(p.3)でマルチエージェントを実用化することができない。もしくは問題設定下で目標が達成することが難しい ◼ 本研究では公平な状態を「全エージェントが同時にゴールすること」と定義し、公平性を担保することを目指す ◼ 提案手法のペナルティ設計 ⚫ 目標までの距離 ⚫ 衝突 ⚫ 全エージェントのゴールまでの分散 →距離の分散を考慮することで「全エージェントが同時にゴールすること」という公平性を学習させる 9

10.

実験結果 ◼ 公平性を考慮する場合としない場合でエージェントの経路が変化公平性考慮なし公平性考慮あり 10

11.

実験結果各ステップにおける距離の分散従来手法 (MAMBPO) 総ステップの分散の合計 5.42 19%減少提案手法 4.41 11

12.

具体的なシーンに注目した解説迂回して衝突を避けつつ移動最短で移動最短で移動公平性考慮なし迂回しつつ移動公平性考慮あり 12

13.

課題と今後の展望報酬の推移従来手法 (MAMBPO) ◼ 従来手法と比べて, 提案手法は学習効率がやや落ち, 学習曲線が乱高下する. カリキュラムラーニングによる改善を試みる ◼ 公平性を意識するがあまり, 不必要な不利益を得る挙動が見られる. 提案手法 (FA-MAMBPO) 報酬設計に改良の余地がある 13

14.

まとめ ◼ 世界モデルベースのマルチエージェント強化学習を用いて公平性を考慮した経路計画の報酬設計を提案した ◼ 公平性を考慮した挙動を実現できた ⚫ アイデア : ゴール地点までの距離のばらつきにペナルティを与える ◼ 課題 ⚫ 従来手法に対して, 学習がやや不安定となる. ⚫ 公平性を意識するがあまり生じる, 不必要な不利益行動の除去が必要. 14

15.

Appendix 15

16.

Algorithm (MAMBPO) 𝛽𝑚𝑜𝑑𝑒𝑙 Add transitions Train Act Multiagent Next State , Reward 𝑝Ƹ𝜃 World model Train Add transition 𝛽𝑒𝑛𝑣 Rollout 16