360 Views
May 10, 19
スライド概要
2019/04/19
Deep Learning JP:
http://deeplearning.jp/seminar-2/
DL輪読会資料
機械学習におけるカオス現象について 冨山 翔司
今日発表する論文 • PIPPS: Flexible Model-Based Policy Search Robust to the Curse of Chaos – ICML2018 • 著者:Paavo Parmas, Carl Edward Rasmussen, Jan Peters, Kenji Doya – OIST • 選定理由 – 著者から直接発表を聞き、面白いと思ったから • プラス、A RECURRENT NEURAL NETWORK WITHOUT CHAOS[2]を少し説 明します。 – ICLR 2017 • (普段興味ある分野と少し違うので、違和感あったらご指摘を) 2
カオス現象 • 非線型変換を含む動的システムが、初期値のわずかな摂動に対し、一定時間後 に大きな挙動の差を生み出す – カオス振り子 • https://www.youtube.com/watch?v=2bGAKPxQkDk 3
機械学習で非線型変換を繰り返し用いるシーン • 結構ある – RNN – Model-based RL – World models系 • 勾配爆発に関しては議論されているが、カオスな振る舞いによる弊害はあまり 議論されていない気がする – わずかな摂動で未来の状態が大きく変わるようなモデルをちゃんと最適化できるの か? 4
A RECURRENT NEURAL NETWORK WITHOUT CHAOS • LSTMやGRUがカオス現象によって長期の依存を捉えられないことを実験的に 示し、より単純なモデルでLSTM並みの精度を出せることを示した – 軽くまとめたものなので、カオス現象が機械学習に悪影響を与える一例としてみても らえると。 5
LSTMのカオスな振る舞い • LSTMのℎ0と𝑐0をサンプリングし、そこに摂動([-10^-7, 10^-7])を加えて100,000 個の初期状態を作り、入力を与えずに同一の再帰パラメータで200タイムステップ 進めた時の、最終状態のマップ(左)と、摂動を与えない時の状態と摂動を与えた 時の状態との差(右) – aでは、わずかな摂動が200タイムステップ後に大きな状態の差になることがわかる – bでは、途中から摂動を与えない時の状態と与えた時の状態で大きく差が生まれることがわ かる 6
LSTMのカオスな振る舞い 訓練させたLSTMの場合 • Penn Treebankで訓練させたLSTMの振る舞い • 左図は、入力を一切与えない時の、ある隠れ状態に摂動を与えた時と与えない時の 振る舞い – 途中から両者の状態に差が生まれ、またどちらも収束しない • 右図は、大きく異なる二つの隠れ状態初期値から、同一の入力を与えた時の軌道 – 途中から両者の状態はほぼ同一になる • つまり、動的システムはほぼ入力情報に支配されており、隠れ状態は長期依存を捕捉できていない 7
Chaos-Free Network • GRUのℎ 𝑡 を求めないバージョン • これを使うと、入力が何もない時に隠れ状態は0に向かっていき、カオス現象 を抑えることができる 8
Chaos-Free Network • Penn Treebankでt=1000で入力を辞めた時のCFNの状態の振る舞い – ゼロに向かって減衰する – 二層目の方が減衰が遅い=層を重ねることで長期記憶を獲得できる? • LSTMなどのゲートを使うよりもこのほうがいいのかもしれない? 9
実験結果 • LSTMと同等かやや劣る – より長期依存が必要なタスクだったら勝てたかも(筆者談) 10
PIPPS: Flexible Model-Based Policy Search Robust to the Curse of Chaos • Model-based RLにおいて、モデルを繰り返し適用することによってカオス現 象が起こることを実験的に示した。 • この時、リパラをつかって勾配を求めると勾配の分散が爆発し、まともな最適 化ができないことを示した。 • カオスにロバストな形で、確率的なモデルに対して粒子ベースで方策を学習で きるフレームワークを提案 11
PILCO • Probabilistic Inference for Learning Control – モデルベース強化学習手法の一つ – 初期状態をガウス分布として表現し、モデルにガウス過程を用い、次状態の分布を モーメントマッチングによって解析的にガウス分布に近似する • 利点 – モデルが不確実性を考慮できる • 欠点 – モーメントマッチングは使える状況が限られる • e.g. モデルにNNを用いることができない 12
Particle samplingによるPILCO • 状態を分布として表すと、使えるダイナミクスのモデルが限られる(=次状態 を解析的に求められる必要がある)ので、分布から粒子をサンプリングして、 そいつらの遷移を追っていっていけばよいのでは? – 確率的な部分はreparameterization trickを用いれば良さそう • しかしこれはうまくいかないことが過去の研究から実験的に知られている! • なぜ?????? 13
カオスな振る舞いによる、勾配の分散の爆発 • 図(a):Cart-poleで、1,000の粒子 (初期状態)を発生させ、ダイナミ クスモデルから軌道を生成し、その 時の報酬値を記録。方策のパラメー タをある方向に変えていった時の報 酬値をプロット。 • 図(d):図(a)のとき、リパラして求 めた各粒子の勾配の95%信頼区間と、 真の勾配 • あるパラメータ領域で勾配の分散が 爆発する – こういった領域では、粒子サンプリン グではまずまともな勾配が手に入らな い 14
カオスによって引き起こされる初期状態と得られる報酬の不安定性 • 初期状態ごとに、最終的に得られる報酬をプロット – それぞれの状態ごとに4つの粒子(それぞれ異なるリパラ時のノイズ)を発生させ、その報 酬の平均値に従って色付け • 勾配の分散が爆発している時(右図)、近傍の初期状態で報酬が鋭敏に変化してい る • 一方、勾配の分散が爆発していない時(左図)は、近傍の初期状態で同じような報 酬を得られている。 15
Likelihood ratioとreparametarization RP: 𝜕𝑉 𝜕𝜃 = 𝜕𝑥 𝑑𝜃 𝜕𝑉 𝑑𝑥 LR: 𝜕𝑉 𝜕𝜃 =𝑉 𝑑log 𝑝(𝑥) 𝑑𝜃 • Likelihood Ratio(LR)のほうが、リパラよりも勾配の分散が小さい! – 勾配計算時、リパラは報酬の微分を用いるが、Likelihood ratioは報酬の値を用いるか らだと推測される • とはいえ、カオスがなければリパラの方が勾配の分散は小さいはずじゃない? (e.g. VAE) – うまくLRとリパラを組み合わせられないか? 16
A classical result • 二つの独立の推定器がある時、両者の推定器の分散の逆数で足し合わせる時、 最適な推定ができる。 𝜇 = 𝜇𝐿𝑅 𝑘𝐿𝑅 + 𝜇𝑅𝑃 𝑘𝑅𝑃 −2 𝜎𝐿𝑅 𝑘𝐿𝑅 = −2 −2 , 𝑘𝑅𝑃 = 1 − 𝑘𝐿𝑅 𝜎𝐿𝑅 + 𝜎𝑅𝑃 17
Total Propagation Algorithm • バックワード時、それぞれの粒子につい て、各タイムステップにおけるLRとRP の勾配とその分散を求め、両者を足し合 わせていく – 短いパス(=カオスな振る舞いが起こらな い)におけるRPの勾配をうまく用いること ができる! 18
LRとRPとTotal propagation • 先と同様の実験。TPが最も勾配の分散が小さい 19
LRとRPとTotal propagation • TPが一番分散が小さい • (b)では、リパラの分散は発散しているため、図から消えている – 発散しているにも関わらず、短いパスの勾配推定結果(=発散していない勾配)を組 み込めるTotal Propagationは、ベースラインに比べて改善を見せている 20
実験:実際に学習させてみる • PILCOを、粒子ベース版PILCOと比較 – 方策はRBFネットワーク – モデルはGP • サンプリング時、𝑦 = 𝑓 𝑥 + 𝜖 where 𝜖~𝑁(0,𝜎𝑓2 𝑥 + 𝜎𝑛2 )によっておこなう。 𝜎𝑓2 𝑥 は学習され た分散で、 𝜎𝑛2 はその他の要因によるノイズ(e.g. 観測ノイズ) • Cart-poleとUnicycleで、シミュレーションを用いて実験 – コストとして、Angle costとTip costを二パターンを検証 • Tip costはどっちまわりで上がっても平気で、Angle costは片方の回り方だけ • 示したいことは、粒子サンプリングによるPILCOが、カオス現象による勾配爆 発を抑えることでちゃんと機能する、ということ 21
定量評価:Cart-pole • PILCOは外乱ノイズが乗るとうまくいかない – モーメントマッチング時の近似誤差が蓄積されていくから – 粒子ベースの手法は問題ない • RPはうまくいかない • 粒子ベースの場合ノイズは程よくあった方が良い – うまくばらけた方が良い勾配を見つけられるということ? • Tip Costのときは、PILCOとGR(Gaussian Resampling)が良い – 本来bi-modalの問題を、uni-modalに無理やりするので問題が簡単になる? 22
定量評価:Cart-pole, unicycle balancing • PILCOとTPはどちらも同じくらいの 試行回数で収束 • Unicycle balancingでPILCOと大体同 じくらい 23
感想 • カオス現象は学習に悪影響を与えることがあるんだなぁ • PIPPSはモデルベースRLのみを考えているが、他のケースにも色々応用できそ う • RNNの先は暗そう・・・ 24