jsai2023_kawamura

5.5K Views

October 30, 23

#強化学習 #世界モデル #グラフニューラルネットワーク #事前知識 #方策学習

スライド概要

本論文では、グラフで表される環境において事前知識を有効に活用して最適な方策を求めるための世界モデルに基づく強化学習手法を紹介する。ゲームや交通ネットワーク、知識グラフ、社会ネットワーク、通信ネットワークなど、仮想世界や現実世界においてグラフで表される環境は多い。これらの環境で最適な方策を求めるための手法はいくつかあるが、既存の研究においては、類似した環境下で獲得した事前知識を新たな方策を学習する際に活用できていない。そこで、本研究ではグラフで表される環境に対する事前知識を獲得した状態でより良い方策を学習する手法を提案する。また、グラフで表される迷路ゲームをシミュレーションし、提案手法が事前知識を用いない単純な強化学習モデルよりも性能が良いことを示す。

weblab

@weblab

スライド一覧

weblab

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

iwasawa_SLTH_slide

weblab 15.8K

yamatsuta_jsai_slide

weblab 9.6K

nakano_intrinsic_slide

weblab 8.6K

takashiro_daikibo_slide

weblab 8.1K

oshima_iterative

weblab 7.7K

KoheiHiraki_Transformer_slide_JSAI2023

weblab 7.7K

各ページのテキスト

類似グラフ環境における事前知識を活用した方策学習のための世界モデル河村和紀1、池之内颯都3、石川峻弥2、村上綾菜4、河野慎1、松尾豊1 (1. 東京大学、2. 電気通信大学、3. 愛媛大学、4. お茶の水女子大学)

グラフ環境における方策を学習する世界モデルの構築背景グラフで表される環境は多く、それらのグラフ環境は特徴的な性質を持つことが多い課題グラフ環境化で最適な方策を求める手法はいくつかあるが，類似した環境下で体験した事前知識（グラフの性質）を新たな方策を学習する際に活用できていない手法グラフで表される環境に対する世界モデルを構築し，類似の環境に対する知識を獲得した状態でより良い方策を学習する評価グラフで表される迷路ゲームをシミュレーションし，グラフに対する世界モデルが事前知識を用いない単純な強化学習モデルよりも良い性能であることを示す 2

背景｜グラフで表される環境ランダムに作られたグラフとは異なり何らかの特徴を持つことが多いゲーム（迷路やグリッドワールド）タスク例：迷路を最短時間で抜ける経路の探索特徴例：連結性、均一性交通ネットワークタスク例：最適なルートの探索（旅行時間、交通量、燃料消費）特徴例：スケールフリー性、クラスタリングソーシャルネットワークウェブグラフタスク例：情報の伝播や影響力の最大特徴例：スモールワールド性、クラスタリングタスク例：特定のウェブページへの最短のクリック経路や、特定の情報の最も効率的な検索経路特徴例：スケールフリー性 3

関連研究｜グラフで表される環境化での方策の学習 Learning to Solve Combinatorial Optimization Problems on RealWorld Graphs in Linear Time [Drori+, 2020] グラフ上の可能な探索パスを列挙し，グラフ特徴を元に最適なパスを選択する元のグラフ構造グラフの探索可能パス完全にランダムに生成される単発のグラフに対して最適な方策を決定するのであればこれでも良い一方，現実の多くのグラフ構造には既に経験したことのあるような事前知識が含まれていることが多く，そのような知識をうまく利用することでより効率的に方策の学習ができる可能性がある 4

手法｜Graph-WM：グラフ環境に対応した世界モデル環境行動観測 (グラフの一部) VGAE (V) 制御器 (C) 観測の変化 MDN-RNN (M) 行動グラフ環境に対応した世界モデル 5

手法｜Graph-WM：グラフ環境に対応した世界モデル VAE（V）モデル：観測の潜在表現を獲得 Variational Graph Auto-Encoders [NeurIPS’16 BDL] 通常のVAEと同様事後分布に正規分布を仮定 Multil-Layer GCN 𝑧 Inner Product Decoder Input Graph Output Graph 特徴行列隣接行列予測隣接行列 𝐗 ෩ 𝐀 𝐀 𝐿𝑜𝑠𝑠 = 𝐸𝑞(𝐙∣𝐗,𝐀)[log 𝑝(𝐀 ∣ 𝐙)] − 𝐾𝐿[𝑞(𝐙 ∣ 𝐗, 𝐀) ∥ 𝑝(𝐙)] 6

手法｜Graph-WM （グラフ環境に対する世界モデル） MDN-RNN（M）モデル：将来の潜在表現を予測 𝑧𝑡 𝑎𝑡 , 𝑧𝑡 ℎ𝑡+1 RNN 𝑎𝑡−1 , 𝑧𝑡−1 ℎ𝑡 RNN RNN ℎ𝑡−1 𝑧𝑡+2 𝑧𝑡+1 𝑎𝑡+1 , 𝑧𝑡+1 ℎ𝑡+2 7

実験｜Graph-WMを用いた迷路ゲームの攻略環境行動観測 (グラフの一部) VGAE (V) 制御器 (C) MDN-RNN (M) 行動グラフ環境に対応した世界モデル 8

実験｜Graph-WMを用いた迷路ゲームの攻略エージェントは今いるノードの一つ先までを観測できる設定エージェントの現在位置エージェントが ①へ移動エージェントの現在位置エージェントの 1時刻前の位置エージェントの現在位置エージェントが ②へ移動エージェントの 1時刻前の位置 G 9

10.

実験｜Graph-WMを用いた迷路ゲームの攻略環境行動観測 (グラフの一部) VGAE (V) 制御器 (C) 観測の変化 MDN-RNN (M) 行動グラフ環境に対応した世界モデル 10

11.

データ（迷路）生成スタートとゴールの位置を固定し、隣接するノードをエッジで結んだグラフを生成 S 1 2 3 4 5 6 7 G 迷路サイズ：3 • スタートノード，ゴールノードの位置は統一 • ノードにはどちらの方向にエッジが繋がっているかの特徴が含まれる • ゴールノードはy=1，他はy=0 11

12.

実験｜比較手法グラフ環境のエンベッドやエンベッド空間上での未来予測をせず，単純にグラフ特徴のみから直接アクションを出力する強化学習モデル（DQN）エージェントが次にどこに動くか environment グラフ構造で表された迷路（エージェントは自分のいる場所のN個先のノードしか観測できない状況とする）モデル baseline-RL • ２層のDNN（中間層50） • • • 学習率 0.01 割引率 0.99 バッチサイズ 32 ハイパーパラメータ 12

13.

実験詳細 1. データ • 事前学習用にはランダムに4×4の10000個の迷路を生成 • コントローラの学習・評価用には上記と異なる1000個の迷路を生成 2. Vモデル • GVAE • 潜在変数次元：32 3. Mモデル • LSTM • 系列長：32 • 隠れ状態次元：256 4. コントローラ • 1層のNN 学習は全てAdam（初期パラメータ）でバッチサイズ32で実行 13

14.

実験結果環境全体が観測できる状態環境の一部が観測できる状態 200トライアル後の結果手法平均ステップ数 500トライアル後の結果手法平均ステップ数 DQN 12.5 ± 1.6 DQN 32.6 ± 5.9 提案手法 9.3 ± 1.5 提案手法 24.9 ± 4.8 14

15.

今後の展望 • より多様なグラフでの提案手法の検証 • より細かな報酬が与えられた場合の課題が解けるか？ • 異種グラフの課題が解けるか？ • エージェントがインタラクションするような課題が解けるか？ • VGAEの改良が有効かの検証 • VGAEの改良版であるARVGA [Pan+, IJCAI ‘18] や GraphSage [Bacciu+, GraphVAE [Simonovsky+, ICANN+ ‘18] へ変更した場合の性能の変化 ICML ‘18] ， 15

16.