[DL輪読会]相互情報量最大化による表現学習

1K Views

September 13, 19

スライド概要

2019/09/13
Deep Learning JP:
http://deeplearning.jp/seminar-2/

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

(ダウンロード不可)

関連スライド

各ページのテキスト
1.

DEEP LEARNING JP 相互情報量最大化による表現学習 [DL Papers] Yusuke Iwasawa, Matsuo Lab http://deeplearning.jp/

2.

相互情報量関連論文(前々回の輪読で話したやつ) • “Learning deep representations by mutual information estimation and maximization” (ICLR2019) メインで話す • “Mutual Information Neural Estimates” (ICML2018) • “Representation Learning with Contrastive Predictive Coding” (NIPS2018) • “On variational lower bounds of mutual information” (NIPS2018, workshop) 少しだけ触れる • “Emergence of Invariance and Disentanglement in Deep Representations ” (JMLR) • “Deep Variational Information Bottleneck” (ICLR2017) • ” Variational Discriminator Bottleneck: Improving Imitation Learning, Inverse RL, and GANs by Constraining Information Flow” (ICLR2019, poster) • “Fixing a Broken ELBO” (ICML2018) • “MAE: Mutual Posterior-Divergence Regularization for Variational AutoEncoders” (ICLR2019, poster) • “EnGAN: Latent Space MCMC and Maximum Entropy Generators for Energybased Models” (ICLR2019, reject) • “Deep Graph Info Max” (ICLR2019, poster) 2 • “Formal Limitations on the Measurement of Mutual Information” (ICLR2019

3.

相互情報量最大化による表現学習系の最近の文献 • “Learning Representations by Maximizing Mutual Information”, NIPS2019 • “On Variational Bounds of Mutual Infromation”, ICML2019 • “Greedy InforMax for Biologically Plausible Self-Supervised Representation Learning”, NIPS2019 • “On Mutual Information Maximization for Representation Learning” • “Region Mutual Information Loss for Semantic Segmentation”, NIPS2019 • (あとで追加) 3

4.

Outline • 背景:表現学習、相互情報量、対照推定 • 論文1:“Learning Representations by Maximizing Mutual Information”, NIPS2019 • 論文2:“Greedy InfoMax for Biologically Plausible SelfSupervised Representation Learning” (NIPS2019) • 論文3:“On Mutual Information Maximization for Representation Learning” 4

5.

表現学習(Representation Learning) Bengio先生のスライドより抜粋 5

6.

教師なし表現学習 • 教師あり表現学習 – 興味のあるタスクラベルが事前にわかっている – 例:Image Netでは – こういう問題設定では、すでに人間を超える精度 • 教師なし表現学習 – 興味のあるタスクラベルは事前にわかっていない – 再利用可能な表現を観測からどう見つけるか 6

7.

(深層)生成モデルによる教師なし表現学習 2013 ~ • 右のような生成過程を考える • log 𝑝 𝑥 = ‫𝑧𝑑 𝑧 𝑥 𝑝 ׬‬ 𝑧 • 良い生成を与えるような表現を学習する • VAE系やGAN系など多数 𝑥 – [Kingma+ 14] VAE – [Donahue+ 17] bidirectional GAN – [Dumoulin+ 17] adversarial learned inference 7

8.

Large Scale Adversarial Representation Learning, NIPS2019 Jeff Donahue, Karen Simonyan, DeepMind • 左上:提案手法 • 左下:Image Net、教師なし でSoTA • 右上:生成画像もきれい (Unconditional) 8

9.

相互情報量最大化による表現学習 • 相互情報量の定義 𝐼 𝑋, 𝑍 = 𝑝(𝑥, 𝑧) ඵ 𝑝 𝑥, 𝑧 log 𝑑𝑥 𝑑𝑧 𝑝 𝑥 𝑝(𝑧) 𝑥,𝑧∈𝒳,𝒵 • 解釈:確率変数XがYについての情報をどれくらい持つか • 性質 – (1) 𝐼 𝑋, 𝑍 ≥ 0 – (2) 𝐼 𝑋, 𝑍 = 𝐻 𝑍 − 𝐻 𝑍 𝑋 = 𝐻 𝑋 − 𝐻 𝑋 𝑍 = 𝐼(𝑍, 𝑋) – (3) 𝐼 𝑋, 𝑍 = 0 𝑖𝑓𝑓. 𝑋 𝑖𝑛𝑑𝑒𝑝𝑒𝑛𝑑𝑒𝑛𝑡 𝑡𝑜 𝑍 • 問題:どうやって計算するのか(Xは観測、Zは特徴量で高次限) 9

10.

相互情報量最大化と再構築誤差 𝐼 𝑋, 𝑍 = 𝔼𝑝 = 𝔼𝑝 = 𝔼𝑝 𝑥,𝑧 𝑥,𝑧 𝑥,𝑧 ≥ 𝔼𝑝 𝑥,𝑧 𝑝 𝑥|𝑧 𝑝(𝑧) log 𝑝 𝑥 𝑝 𝑧 𝑝 𝑥 𝑧 𝑞(𝑥|𝑧) log 𝑝 𝑥 𝑞 𝑥|𝑧 𝑞(𝑥|𝑧) log + 𝐾𝐿(𝑝(𝑥|𝑧)||𝑞 𝑥 𝑧 ) 𝑝 𝑥 log 𝑞 𝑥 𝑧 + ℎ(𝑋) 負の再構築誤差 (Distortion) • 詳しくは[Poole+18] “On Variational Bounds of MI”, [Alemi+17] “Fixing Broken Elbo” • q(x|z)がtractableなら良い(が高次限の出力に難? • 例:動画の生成 10

11.

q(x|z)によらない近似:p(z)を近似分布r(z)に置き換え る 𝐼 𝑋, 𝑍 = 𝑝(𝑥, 𝑧) 𝑑𝑥 𝑑𝑧 ඵ 𝑝 𝑥, 𝑧 log 𝑝 𝑥 𝑝(𝑧) 𝑥,𝑧∈𝒳,𝒵 𝑝 𝑧 𝑥 𝑝(𝑥) 𝑑𝑥 𝑑𝑧 ඵ 𝑝 𝑧|𝑥 𝑝(𝑥) log 𝑝 𝑥 𝑝(𝑧) = 𝑥,𝑧∈𝒳,𝒵 ≤ 𝑝 𝑧𝑥 𝑑𝑥 𝑑𝑧 ඵ 𝑝 𝑧|𝑥 𝑝(𝑥) log 𝑟(𝑧) 𝑥,𝑧∈𝒳,𝒵 • 利用例:Variational Information Bottoleneck(I(X,Z)を制 限) • 問題:上界なので最大化しても意味がない(下界がほしい) 11

12.

MIの下界を抑える研究郡 • [Poole+18] “On Variational Bounds of MI”より抜粋 • いろいろな推定方法とその問題点がまとまっている (どの下界が良いのかは今回は話しません) 12

13.

MIを最大化する手法の基本的な考え方:対照推定 • 求めたいのは𝐼 𝑋, 𝑍 = 𝔼𝑝 𝑥,𝑧 log 𝑝 𝑥|𝑧 𝑝(𝑧) 𝑝 𝑥 𝑝 𝑧 – 同時分布𝑝 𝑥, 𝑧 と、周辺分布の積𝑝 𝑥 𝑝 𝑧 が区別できれば良い • 同時分布から得られたペア{x,z}と適当なp(z)からサンプルし たz’とxのペア{x,z’}が区別できれば良い – p(x)p(z)とp(x,z)を対照推定 • 適当な𝑓𝜃 (𝑥, 𝑧)を用意して、{x,z}と{x, z’}の差が大きくなるよ うに𝑓𝜃 (𝑥, 𝑧)自身とエンコーダ: X->Zを学習 13

14.

具体例 (“On Variational Bounds of MI”より抜粋) • ZではなくYで表されているが基本的には同じ • f(x, y)の置き方によっていろいろな亜種が導ける 14

15.

具体例:Contrastive Predictive Coding [Oord+18] 音声 手法:時刻Tまでの系列の埋め込みcから、未来の 潜在表現zを予測(zとcの相互情報量を最大化) 系列は一貫した情報を表しているはずというprior を使っている テキスト 15

16.

具体例:Contrastive Predictive Coding [Oord+18] 画像データの場合 手法:重なりありでパッチに切って系列っぽく扱う 16

17.

具体例:DeepInfoMax [Hjelm+19] 手法:画像全体の特徴量yとロー カルな特徴量を対照推定 (画像のローカルな特徴はグ ローバルな特徴と一致してほし いと言うpriorを使ってる) 17

18.

実験:CIFAR10、SVMで分類 バク上がり、他にもたくさん実験あるが割愛 18

19.

ここまでまとめ • 教師なし表現学習は未解決問題 • デコーダを使わない手法として、対照推定に基づく手法が 近年登場 => 精度大幅な改善 • 具体例:対照推定のときに使っているpriorが異なる – CPC [Oord+18] – Deep InfoMax [Hjelm+19] – など 19

20.

Outline • 背景:表現学習、相互情報量、対照推定 • 論文1:“Learning Representations by Maximizing Mutual Information”, NIPS2019 • 論文2:“Greedy InfoMax for Biologically Plausible SelfSupervised Representation Learning” (NIPS2019) • 論文3:“On Mutual Information Maximization for Representation Learning” 20

21.

書誌情報 • 基本的には巨大なDeep InfoMax + 細かい工夫 • Image Netで教師なし学習+線形分類で68.1% – Top1正解率のベースラインを7%改善 • 実装が公開されている( https://github.com/Philip-Bachman/amdim- 21

22.

工夫1:巨大なエンコーダ 22

23.

余談:Tesla V100×8は人権 “We train our models using 4-8 standard Tesla V100 GPUs per model. Other recent, strong self-supervised models are nonreproducible on standard hardware.” 23

24.

工夫2:DIM across Views 1. 異なるデータ拡張で画像Xから X1とX2を得る 2. X1からはSummary Vector cを得 る 3. X2からはLocal Vector z_i,jを得る 4. 異なる画像X’と適当なデータ拡張 で得たz’_i,jと対照推定 24

25.

工夫3:Multiscale Mutual Information 固定化した層を使って予測するの ではなく、複数の層間で予測 実験では {1, 5}{1, 7}{5, 5}間で予 測 (数字は受容野の大きさ) 25

26.

工夫4:Mixture-Based Representations • 各層の特徴量𝑓𝑖 を適当な関数𝑚𝑘 に通して混合特徴ベクトル 𝑓𝑖1 , 𝑓𝑖2 , … 𝑓𝑖𝑘 = 𝑚𝑘 (𝑓𝑖 )を得る • これを各層でやって、NCE誤差(MIの下界)を重み付けする (重みが下の式) • 気持ちとしては、NCEが大きい特徴を選択するようになる • (ただそれだとGreedyになるからとH(q)を足してたりよく わからない 26

27.

実験:ImageNet, Places205 27

28.

実験:CIFAR 28

29.

まとめ • Local DIMを拡張 – 巨大なエンコーダ – Data Augmentation Prior – Multiscale Predictions – Mixture-based representations • Image Netで教師なしSoTA • (結局どれが効いているのかはよくわからない) 29

30.

Outline • 背景:表現学習、相互情報量、対照推定 • 論文1:“Learning Representations by Maximizing Mutual Information”, NIPS2019 • 論文2:“Greedy InfoMax for Biologically Plausible SelfSupervised Representation Learning” (NIPS2019) • 論文3:“On Mutual Information Maximization for Representation Learning” 30

31.

書誌情報 • MI最大化に従って、各層を独立に訓練 • 独立に訓練することで、独立に学習可能、メモリ効率がよくなる、勾配 消失が原理的に起こらないなどの潜在的な利点がある 31

32.

提案手法:Greedy InfoMax • 基本は各モジュールごとに勾配を止めるだけ • 各モジュールは接続された下位モジュールの出力でCPC 32

33.

実験結果(STL10) CPCやSupervisedより高精度 ※ Greedy Supervisedの手続きがよくわからない(適宜固定?) 33

34.

実験結果(LibriSpeech) CPCや教師ありよりはやや悪いがまぁまぁ良い 34

35.

まとめ • 層ごとの学習にMIの最大化を利用するGreedy InfoMaxを提 案 – CPCベース • 音声や画像タスクでCPCや全教師ありとComparable • 特にNCE系の損失はメモリ効率が悪いことが多いので、実用 的にも使える場面はあるかもしれない (学習遅くなる気がするが) 35

36.

Outline • 背景:表現学習、相互情報量、対照推定 • 論文1:“Learning Representations by Maximizing Mutual Information”, NIPS2019 • 論文2:“Greedy InfoMax for Biologically Plausible SelfSupervised Representation Learning” (NIPS2019) • 論文3:“On Mutual Information Maximization for Representation Learning” 36

37.

書誌情報 • 最近のMI系の手法が、本当にMIを最大化しているから良いの か?と言うことに疑問を投げかける実験論文 • まだ採録されたわけではない(と思う) 37

38.

実験1:可逆なエンコーダを利用したMI最大化 • Flow Basedな手法(例えばRealNVP[Dinh+16])はInvertible (可逆) • 可逆変換fをかませたz = f(x)を考えると、MI(X;Z)は常に最大 • 可逆変換なfをMI最大化で学習させるとどうなるか? (MI最大化系の研究が本当に単にMIの最大化なら、精度は変 わらないはず 38

39.

実験1の結果 • (a)MIの推定はほぼコンスタント、(b)一方精度は改善 • 単にMIの最大化という観点だけでは説明できない? 39

40.

実験2:異なるf(x,y)の形による分類精度とMI • (左)分類精度はBilinearかSeparableがよい • (右)MIの値はMLPが良い • MIが高い表現ほど悪い??? 40

41.

実験3:ネットワーク構造の重要性 • (左)NCEを使った場合、(右)NWJを使った場合の精度比較 • どちらの損失を使うかより、ネットワーク構造の選び方が支配的 41

42.

まとめ • 最近の精度向上が本当にMIの最大化と言う観点から説明でき るのか?についての実験的な検証 • ネットワーク構造が支配的に重要というのは自分が実験した ときもそうだったので多分そう • MIを本当に最大化しているのかというより、MI最大化の上 で良いPriorをどう入れるかが重要? 42

43.

全体まとめ • 相互情報量最大化による教師なし表現学習の最近の話題につ いてまとめた – 2018年:MI(X,Z)の下界について – 2019年:どういうネットワーク構造を使うか、どう言うpriorを入 れるか • ImageNet・教師なしで大きな進展 • 感想:MI最大化自体はきれいだが、それ自体というよりは 構造的なpriorをどう入れ込むかが重要 – Global特徴の選び方、対照方法など 43