【DL輪読会】Gradient Estimation with Discrete Stein Operators

232 Views

January 23, 25

スライド概要

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

DEEP LEARNING JP Gradient Estimation with Discrete Stein Operators [DL Papers] Presenter: Manato Yaguchi, Matsuo-Iwasawa lab, M1 http://deeplearning.jp/

2.

書誌情報 紹介論文  タイトル: Gradient Estimation with Discrete Stein Operators 出典: NeurIPS Proceedings (2022, outstanding paper) 著者: Jiaxin Shi, Yuhao Zhou, Jessica Hwang, Michalis K. Titsias, Lester Mackey 概要  離散分布の勾配推定において、Stein operatorsをCVとして用いることで分散を削減  2値の変分autoencoderのタスクで、提案した勾配推定手法が小さな分散を達成したことを、 実験的に確認 ※画像は出典記載のないものは、本論文から引用 2

3.

はじめに 出典: https://lilianweng.github.io/posts/2018-10-13-flow-models/ 出典: https://arxiv.org/pdf/1912.01603 3

4.

問題設定 4

5.

勾配の計算 (Reinforce) Reparametrization Trickと呼 ばれる手法もある 5

6.

Baselineを引くことの正当性 6

7.

Reinforceの派生系 7

8.

Baselineがサンプリング点xに依存する場合 8

9.

Double CV estimator 9

10.

Stein operatorとは 10

11.

Stein operator の例 11

12.

離散分布での差分演算 12

13.

マルコフ連鎖による構成例 13

14.

定常分布の定義と説明 14

15.

証明 15

16.

証明 (前のページの続き) 16

17.

離散版Stein operatorの構築例  複数の先行研究において、(Ah)(x)を明示的に与えることで、勾配の分散を小さくしている  提案手法は、勾配の分散を小さくする,最適な関数hを学習により獲得 17

18.

ここから本題

19.

Stein Operator (離散) 19

20.

(P-I)hの期待値が0の証明 20

21.

関数hの決め方(1/2) 21

22.

関数hの決め方(2/2) 22

23.

RODEO:提案手法 23

24.

RODEOの学習フロー  γは ニューラルネットH, H*のパラメータ  目的関数に対する勾配による更新と、勾配アルゴリズムRODEOの更新を交互に行う 24

25.

実験:MNIST, VAE (1/2)  2値のMNIST datasetで、VAEを訓練  勾配の分散, ELBOを、各訓練stepごとに、勾配推定アルゴリズム間で比較  関数H, H*の計算分だけ推論コストが増えるが、それを加味しても良い結果 25

26.

実験:FMNIST, 4層VAE (2/2)  2値のFashion-MNIST datasetで、4層のVAEを訓練 (学習がちょっと難しくなる, 分散大, 不安定)  勾配の分散, ELBOを、各訓練stepごとに、勾配推定アルゴリズム間で比較  他の2つのアルゴリズムと比較して,RODEOの結果が良い 26

27.

まとめ・考察 まとめ  離散分布に対応するStein operatorをcontrol variatesとして、Double CVに組み込ん だ  Stein operator をCVとして扱う際、ニューラルネットワークにより学習可能にした  2値VAEを用いた複数のタスクで、分散が小さくなること、最適化が改善されることを、実験的 に確かめた 考察・感想  遷移行列Pの近似の影響が気になった  連続分布への転用が気になった  Reinforceだけでなく、RPや、融合手法に対するStein operatorのCVとしての、組み込み が気になった 27