[DLHacks]Classical Planning in Deep Latent Space: Bridging the Subsymbolic-Symbolic Boundary

470 Views

June 12, 18

#deep learning #Deep Learning #Graph Theory #LatPlan #Artificial Intelligence #Planning

スライド概要

2018/06/12
Deep Learning JP:
http://deeplearning.jp/hacks/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 92.4K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 71.7K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 61.6K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 55.2K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 52.2K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 50.2K

各ページのテキスト

Classical Planning in Deep Latent Space: Bridging the Subsymbolic-Symbolic Boundary PSI B3 近藤生也 1

書誌情報 ● Classical Planning in Deep Latent Space: Bridging the Subsymbolic-Symbolic Boundary ○ ● Asai, M.; Fukunaga, A ○ ● Accepted in AAAI-2018 ○ ● ポイント ○ 「深層学習手法 ×グラフ理論」で環境内で実行可能な Actionを自ら見つけ出し、かつ長期的なプランニングを可能とするモデル『 LatPlan』を提案 ○ ● 選定理由 ○ 1/22にあったJSAIの基調講演で興味を持った（けどそのときは理解できなかった）から 2

アジェンダ ● ● ● ● ● ● ● LatPlanとは古典的プランニングの欠点深層学習手法とプランニング LatPlanの仕組み実装解説実験結果所感 3

LatPlanとは（8パズル）初期状態目標状態 4

LatPlanとは（8パズル）初期状態目標状態 5

LatPlanとは（ハノイの塔、Lights-Out） 6

LatPlanの特長 ● 必要なのは画像だけ ○ ○ 3x3のパズルそのものの画像 ×数万データ 3x3のパズルに対して、「何かしらのアクション」を行った時の前と後の画像のペア×数万データ ○ ● 世界を人間がモデル化する必要がない ○ ○ ○ ● 8puzzle.pyみたいなのは不要。実世界の8puzzleの写真を使うことを想定。前後見たことがないActionがあってもプランニング可能。見たことがないActionを生み出すことも可能。 7

古典的プランニング https://ja.wikipedia.org/wiki/自動計画 8

https://ja.wikipedia.org/wiki/自動計画

古典的プランニング ● アクション a ∈A a = <param, pre, e+, e-, c> （パラメータ, 前提条件, 追加効果, 削除効果） True/False のバイナリデータ https://ja.wikipedia.org/wiki/自動計画 9

https://ja.wikipedia.org/wiki/自動計画

10.

[beta]

古典的プランニング
;; ロボットアームでテーブルの上に載っているブロック?x
a = <param, pre, e+, e-, c> を掴むアクション.
(:action pick-up
の例
:parameters (?x)
;; 前提条件の一覧.
:precondition (and (clear ?x)
(ontable ?x) (handempty))
;; アクション実行後に生成する述語.
:effect (and (not (ontable ?x))
(not (clear ?x)) (not (handempty))
(holding ?x)))
http://d.hatena.ne.jp/hanecci/20100220/1266681999 10

http://d.hatena.ne.jp/hanecci/20100220/1266681999

11.

古典的プランニング ● ● 初期状態とゴール状態をバイナリデータに変換すべての行動を01の変化で記述 ○ ○ ● a a 遷移図を書いて総当りなりA*なり、あるいはグラフ理論の賢い方法を使ってプランニングここをNNでやってしまおうここも一部NNでやってしまおう 11

12.

LatPlanとは ● AMA1 ○ ● SAE + Fast Downward（古典的ソルバの SOTA） AMA2 ○ SAE + AAE + AD + A* 12

13.

アーキテクチャ 13

14.

AMA1 SAE（State AutoEncoder） ● ● エンコード先のZをバイナリデータにしたVAE。ただ単にencoderの出力に if (z>0.5) { z=1 } else { z=0 } のようにすると誤差逆伝播ができないので、Gumbel-Softmaxという活性化関数を使う 14

15.

Gumbel-Softmax ● Gumbel-SoftMax [2017] z= ○ ● 右のように変える ○ ● ● 普通のAEの出力をπ log(π)のsoftmax（結局ほとんどπに戻る）に、ノイズgを足す π= ただし http://musyoku.github.io/2016/11/12/Categorical-Repar ameterization-with-Gumbel-Softmax/ 15

http://musyoku.github.io/2016/11/12/Categorical-Reparameterization-with-Gumbel-Softmax/

16.

Gumbel-Softmax ● ● ● τは温度 τ==1→100 τが小さいとバイナリに近くなり,τが大きいとのっぺらぼうになる z= π= ただし http://musyoku.github.io/2016/11/12/Categorical-Repar ameterization-with-Gumbel-Softmax/ 16

http://musyoku.github.io/2016/11/12/Categorical-Reparameterization-with-Gumbel-Softmax/

17.

Gumbel-Softmax ● Gumbel-SoftMax [2017] π= ● ● もともとの分布がしっかり01に近くないと結構ぶれてしまう。 →もとの分布がしっかり狙ったところが 1になるように学習が進む。 z= ○ http://musyoku.github.io/2016/11/12/Categorical-Repar ameterization-with-Gumbel-Softmax/ 17

http://musyoku.github.io/2016/11/12/Categorical-Reparameterization-with-Gumbel-Softmax/

18.

VAE ● Zが正規分布に従うという仮定をおき、 Encoderは平均と分散を出力 ○ ● Encoderが出した平均と出力をもとに空間 Zから一点をサンプリング ○ ● 密な潜在空間を生成できるので、表現力が高まる。 https://qiita.com/kenmatsu4/items/b029d697e9995d93aa24 18

https://qiita.com/kenmatsu4/items/b029d697e9995d93aa24

19.

Fast Downward Fast Downward [Helmert, 2006] https://arxiv.org/abs/1109.6051 ● ● 入力：すべての状態、すべての行動、初期状態、目標状態出力：最短の行動プラン（今回調査しきれませんでした…） 19

https://arxiv.org/abs/1109.6051

20.

精度 ● ● 100%（ノイズなし。ノイズありは書いてなかった） 8パズルで最も長い解をもつインスタンスでも問題なかった 20

21.

AMA2 ● SAE + AAE（Action AutoEncoder）+ AD（Action Discriminator） ○ ● AAEでとりあえず遷移させた状態を作って、ありえないものはADで消してもらう 21

22.

Action AutoEncoder ● ● ● ● データ：ある遷移前のz∈Zとある遷移後のz∈Zのセット（s,tと置く）入力：s, t 出力：t 中間：7bitの配列 ○ （アクション記号が 128個あると大きめに見積もってある） 22

23.

Action AutoEncoder ● 中間：128次元の01データこれをアクションラベルとみなすポイント ● すべての層にsをconcatする ○ ● もとがsであることを自明にする。デコーダーを使うと、aとsからtを予測できる。 23

24.

Action AutoEncoder ● ● 結局、128通りのactionを学習する。当然ありえないactionが含まれているのでDiscriminateする必要がある。 24

25.

Action Discriminator ● ● 入力：遷移前のz, AAEで生成した遷移後のz 出力：0or1（可能な遷移か否か） ○ ● ● 可能な遷移は観測できるが、不可能な遷移は観測できない。 →PU Learning 25

26.

Action Discriminator PU Learning：観測された正例データから、未観測データを正例負例に分類。まず観測済みか否かで分類→未観測を複製して重み付け→正例と負例に分類 https://colab.research.google.com/drive/1spUTt9ckhVLu4lh7krsmALKbvoPzu_81 26

https://colab.research.google.com/drive/1spUTt9ckhVLu4lh7krsmALKbvoPzu_81

27.

Action Discriminator PU Learning ● ● ● ↓正例と負例 ↓未観測が灰色負例データを見たことがない状態で分類すると左下のように全部同じクラスになる。未観測データが与えられたらまず未観測か否かで分類し、下のように重み付け正しく分類が行えた ↑ 27

28.

A* ● ● ● ● ● ● グラフ探索アルゴリズムの一つ。最良優先探索を拡張したZ*に、「現時点までの距離」gと「ゴールまでの推定値」hの和を採用したもの。 h はヒューリスティック関数と呼ばれる。 https://ja.wikipedia.org/wiki/A* 28

https://ja.wikipedia.org/wiki/A*

29.

A* ● ● ● ● ● 各マス目にスコアを設ける。スコア＝実コストg＋推定コストh（小さい方が良い） g：スタートからの距離 h：ゴールまでの距離（障害物は考えない）ここではどちらもマンハッタン距離を考える。スコアの低いマスから順に周りのマス目を計算対象にしていく（ Openにする）。周りにOpenできるマスがなくなったら Closedにする。 https://qiita.com/2dgames_jp/items/f29e915357c1decbc4b7 29

https://qiita.com/2dgames_jp/items/f29e915357c1decbc4b7

30.

A* ● ● 距離←SAEでエンコードした時のゴールと異なるbit数 Fast Downwardと違って最適解が得られる保証はない https://qiita.com/2dgames_jp/items/f29e915357c1decbc4b7 30

https://qiita.com/2dgames_jp/items/f29e915357c1decbc4b7

31.

精度 ● ADが正しく負例と識別した遷移。 type2の!error A:7回ランダム操作, B:14回ランダム操作 ○ ● std:ノイズなし, G:ガウス, s/p:ごま塩 ○ ● ● AD.type1:AAEで生成された正しい遷移のうち、ADが間違えて否定した割合 AD.type2:本当に可能な遷移を除いて遷移の負例データを大量に作る。そのうちADが間違えて正例と判定した割合 AAE ←type2のerror 本当に可能な遷移（type2の対象外） 31

32.

精度 ADが正しく負例と識別した遷移。 type2の!error ● AAE ←type2のerror 本当に可能な遷移（type2の対象外） 32

33.

実装 https://github.com/guicho271828/latplan GumbelSoftmax ● Kerasのレイヤーとして定義されている 33

https://github.com/guicho271828/latplan

34.

実装 https://github.com/guicho271828/latplan SAE ● Denoisingしている 34

https://github.com/guicho271828/latplan

35.

実装 https://github.com/guicho271828/latplan ActionAE（36+36 => 128） ● 基本的に全結合だけでいける 35

https://github.com/guicho271828/latplan

36.

実装 https://github.com/guicho271828/latplan ActionAE（36+36 => 128） 36

https://github.com/guicho271828/latplan

37.

実装 https://github.com/guicho271828/latplan ActionAE（128 => 36） 37

https://github.com/guicho271828/latplan

38.

実装 https://github.com/guicho271828/latplan ActionAE（128 => 36） 38

https://github.com/guicho271828/latplan

39.

実装 https://github.com/guicho271828/latplan AD 39

https://github.com/guicho271828/latplan

40.

結果 ● Z(6x6) SAE（ランダムなZ） 40

41.

結果 ● SAE（上がうまく行ってて下が失敗） 41

42.

所感 ● ● ● パズルってもともと状態が離散的だからグラフにしやすい連続的な環境をうまく離散化して01に落とし込めたら他のプランニングにも広く使えるただ長期のプランニングはやはり難しいそう（行けそうな気がしたけど…） ○ ● カーナビと同じ要領なんじゃないのかな … SAEでエンコードしたものが近いからと言ってaction的に近いわけではない説 42