【DL輪読会】“From Motor Control to Team Play in Simulated Humanoid Football”

276 Views

October 01, 21

#deep learning #Deep Learning #Humanoid Robot #Reinforcement Learning #Football Simulation #Team Play

スライド概要

2021/10/01
Deep Learning JP:
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 90.7K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 67.4K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 61.1K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 49.4K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 47.1K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 46.9K

各ページのテキスト

DEEP LEARNING JP [DL Papers] “From Motor Control to Team Play in Simulated Humanoid Football” Presenter: Takahiro Maeda D1 (Toyota Technological Institute, Intelligent Information Media Lab) http://deeplearning.jp/

http://deeplearning.jp/

目次 1. 2. 3. 4. 5. 6. 書誌情報概要研究背景提案手法実験結果考察・所感 2

1. 書誌情報紹介論文タイトル: From Motor Control to Team Play in Simulated Humanoid Football 出典: Arxiv 著者: Siqi Liu, Guy Lever, Zhe Wang, …, Nicolas Heess. 計24名所属: DeepMind 選書理由細かい身体制御から複数人の協調までを同時に行う強化学習に驚いたから ※引用は最後にまとめてあります．特に明示が無い場合は，紹介論文から引用 3

結果 4

2. 概要 • 人型エージェントを用いて，2対2のサッカーを行う強化学習手法を提案した． • ①モーションキャプチャデータの模倣による関節制御の学習 ②ボールやゴールの位置に応じたドリブルやシュートの個別タスクの学習 ③試合を通したself-playによるチームプレイの学習という3段階の強化学習で実現 • ③では徐々にチームプレイ戦略を獲得していることを実験的に示した． • ミリ秒単位の関節制御から数十秒単位のチームプレイまでを同時に実 5

3. 研究背景 • 実人間の行動には様々なレベルがある • 個別のレベルでの従来研究が存在 Unity3D ML-agent toolkit[4] slime volleyball[1] ハイレベル協力，対戦個別のタスク，動作 DeepMimic[3] bipedal walker[2] cartpole[2] ローレベル関節制御 6

3. 研究背景 • 抽象化なしにローレベルからハイレベルまでを同時に達成したいハイレベル協力，対戦個別のタスク，動作ローレベル関節制御 7

4. 提案手法：前提 • 人型エージェント – 自由度56の剛体関節物体 – 状態s: 内部状態（関節角度，角速度，腰部関節の世界座標角度）外部状態（他プレーヤー，ボール，ゴールポストの相対座標，相対速度）タスク情報（後述，②個別タスクの学習でのみ使用） – 行動a: 目標関節角度 → 比例制御器により関節トルクに変換 • 強化学習アルゴリズム: MPO with PBT – MPO ( Maximum a-posteriori Policy Optimization ) by DeepMind • KL正則項の重み(TRPO)やパラメータ更新幅制約 (PPO)の調整が，報酬値スケールに応じて必要 • KL項をハードな制約に置き換え別個に解くことで，報酬値スケールに依存しない最適化を 8 達成

4. 提案手法：3段階の学習 ①模倣による関節制御の学習 ②個別タスクの学習 ③チームプレイの学習 9

10.

4. 提案手法：①模倣による関節制御の学習 • モーキャプデータの模倣によりLow-Level Controllerを作成 – 内部状態 (proprio)と動作意図（𝑧𝑡 )を入力に，行動(目標関節角度）を出力 – 細かな関節制御を動作意図（𝑧𝑡 )で抽象化して扱うことができる – この段階の𝑧𝑡 は，模倣動作の特徴量 – 報酬従来法からの採用関節角度重心位置角速度端点位置エージェント模倣動作関節角度 – 閾値𝜏以上の関節角度誤差でエピソード終了 10

11.

4. 提案手法：②個別タスクの学習 • 個別タスクを達成する4つのExpert Policyを作成 – 内部状態(proprio)，タスク情報(drill)，外部状態(context)から動作意図(𝑧𝑡 )を出力 – 各タスク情報（drill) 目標軌跡目標軌跡目標座標なし – しかし，後段の試合形式ではタスク情報が無いため，このExpert Policyは使えない → distillation 11

12.

4. 提案手法：②個別タスクの学習 • タスク情報から独立した4つのDrill Prior作成 – 内部状態(proprio)，外部状態(context)から動作意図(𝑧𝑡 )を出力 – Expert Policyの出力と一致するように𝑧𝑡 間のKL誤差を最適化 12

13.

4. 提案手法：③チームプレイの学習 • Drill Priorを用いて試合形式でチームプレイを学習 – 場面に応じてdrill priorを切り替えるように学習 drill priorに動作意図(𝑧𝑡 )が一致するよう正則化動作意図のKL正則化 – reward shaping • スコア：得点時 +1.0 失点時 -1.0 • ボールへの速度：ボールに近い方のプレーヤーへボールへ向かう速さに応じて報酬 • ゴールへのボール速度 13

14.

5. 実験結果: Ablation study • 学習中のvalidationとして，別途学習したエージェントとの試合結果を評価 – 初見の相手との試合を評価することで妥当性担保勝敗レーティング提案手法提案手法 + チームレベル報酬 • チームレベルの報酬 • 蹴ったボールのチームメイトへの速度 • チームメイト同士の距離 drill priorなし sparse rewardのみ 14

15.

5. 実験結果：高度なプレイの段階的獲得 • 個人技からチームプレイへの段階的獲得が観測された – 個人技：起き上がり，走る速度 – チームプレイ：パスの頻度，長さ，パス待ち位置の高度化片方のプレーヤーのみがボールを保有している割合＝パス待ちができているか Off-ball scoring opportunity ( OBSO ) パス待ちの位置取り評価尺度 15

16.

5. 実験結果：試合の一部 16

17.

5. 実験結果：観測されたエージェント行動切り返しロングパス体全体でブロック膝でのパスキャッチプッシュボールの囲い込み 17

18.

考察・所感 • 細かい身体制御しながら高度なチームプレイを行えるのはすごいモーキャプデータの模倣による関節制御の抽象化が1つの鍵将来的には，将棋のようにシミュレータで新しい戦術開発を行えるかも • しかし，現実とは大きな隔たりがある – 計算コストの都合上，11人 vs 11人は難しい（googleの計算リソースをもってしても） – ボール，敵，味方の観測が完全なことを仮定 – 神経伝達の遅延無 – 疲れがない – 簡略化されたルール（ハンド，ファールがないなど） • dense reward shapingと個別タスクの設計次第で， 18

19.

おまけ • ボクシング，フェンシングでの事例 – タイトル: Control Strategies for Physically Simulated Characters Performing Two-player Competitive Sports – 出典: SIGGRAPH 2021 – 著者: JUNGDAM WON, DEEPAK GOPINATH, JESSICA HODGINS. – 所属: Facebook AI Research 19

20.

引用 [1] SlimeVolley Gymhttps://github.com/hardmaru/slimevolleygym [2] OpenAI Gym https://gym.openai.com/ [3] DeepMimic https://xbpeng.github.io/projects/DeepMimic/index.html [4] Unity3D ML-agent https://blog.unity.com/technology/trainingintelligent-adversaries-using-self-play-with-ml-agents 20