[DL輪読会]相互情報量最大化による表現学習

DEEP LEARNING JP 相互情報量最大化による表現学習 [DL Papers] Yusuke Iwasawa, Matsuo Lab http://deeplearning.jp/

http://deeplearning.jp/

相互情報量関連論文（前々回の輪読で話したやつ） • “Learning deep representations by mutual information estimation and maximization” (ICLR2019) メインで話す • “Mutual Information Neural Estimates” (ICML2018) • “Representation Learning with Contrastive Predictive Coding” (NIPS2018) • “On variational lower bounds of mutual information” (NIPS2018, workshop) 少しだけ触れる • “Emergence of Invariance and Disentanglement in Deep Representations ” (JMLR) • “Deep Variational Information Bottleneck” (ICLR2017) • ” Variational Discriminator Bottleneck: Improving Imitation Learning, Inverse RL, and GANs by Constraining Information Flow” (ICLR2019, poster) • “Fixing a Broken ELBO” (ICML2018) • “MAE: Mutual Posterior-Divergence Regularization for Variational AutoEncoders” (ICLR2019, poster) • “EnGAN: Latent Space MCMC and Maximum Entropy Generators for Energybased Models” (ICLR2019, reject) • “Deep Graph Info Max” (ICLR2019, poster) 2 • “Formal Limitations on the Measurement of Mutual Information” (ICLR2019

3.

相互情報量最大化による表現学習系の最近の文献 • “Learning Representations by Maximizing Mutual Information”, NIPS2019 • “On Variational Bounds of Mutual Infromation”, ICML2019 • “Greedy InforMax for Biologically Plausible Self-Supervised Representation Learning”, NIPS2019 • “On Mutual Information Maximization for Representation Learning” • “Region Mutual Information Loss for Semantic Segmentation”, NIPS2019 • （あとで追加） 3

4.

Outline • 背景：表現学習、相互情報量、対照推定 • 論文１：“Learning Representations by Maximizing Mutual Information”, NIPS2019 • 論文２：“Greedy InfoMax for Biologically Plausible SelfSupervised Representation Learning” (NIPS2019) • 論文３：“On Mutual Information Maximization for Representation Learning” 4

5.

表現学習（Representation Learning） Bengio先生のスライドより抜粋 5

6.

教師なし表現学習 • 教師あり表現学習 – 興味のあるタスクラベルが事前にわかっている – 例：Image Netでは – こういう問題設定では、すでに人間を超える精度 • 教師なし表現学習 – 興味のあるタスクラベルは事前にわかっていない – 再利用可能な表現を観測からどう見つけるか 6

7.

（深層）生成モデルによる教師なし表現学習 2013 ~ • 右のような生成過程を考える • log 𝑝 𝑥 = ‫𝑧𝑑 𝑧 𝑥 𝑝 ׬‬ 𝑧 • 良い生成を与えるような表現を学習する • VAE系やGAN系など多数 𝑥 – [Kingma+ 14] VAE – [Donahue+ 17] bidirectional GAN – [Dumoulin+ 17] adversarial learned inference 7

8.

Large Scale Adversarial Representation Learning, NIPS2019 Jeff Donahue, Karen Simonyan, DeepMind • 左上：提案手法 • 左下：Image Net、教師なしでSoTA • 右上：生成画像もきれい（Unconditional） 8

9.

相互情報量最大化による表現学習 • 相互情報量の定義 𝐼 𝑋, 𝑍 = 𝑝(𝑥, 𝑧) ඵ 𝑝 𝑥, 𝑧 log 𝑑𝑥 𝑑𝑧 𝑝 𝑥 𝑝(𝑧) 𝑥,𝑧∈𝒳,𝒵 • 解釈：確率変数XがYについての情報をどれくらい持つか • 性質 – (1) 𝐼 𝑋, 𝑍 ≥ 0 – (2) 𝐼 𝑋, 𝑍 = 𝐻 𝑍 − 𝐻 𝑍 𝑋 = 𝐻 𝑋 − 𝐻 𝑋 𝑍 = 𝐼(𝑍, 𝑋) – (3) 𝐼 𝑋, 𝑍 = 0 𝑖𝑓𝑓. 𝑋 𝑖𝑛𝑑𝑒𝑝𝑒𝑛𝑑𝑒𝑛𝑡 𝑡𝑜 𝑍 • 問題：どうやって計算するのか（Xは観測、Zは特徴量で高次限） 9

10.

相互情報量最大化と再構築誤差 𝐼 𝑋, 𝑍 = 𝔼𝑝 = 𝔼𝑝 = 𝔼𝑝 𝑥,𝑧 𝑥,𝑧 𝑥,𝑧 ≥ 𝔼𝑝 𝑥,𝑧 𝑝 𝑥|𝑧 𝑝(𝑧) log 𝑝 𝑥 𝑝 𝑧 𝑝 𝑥 𝑧 𝑞(𝑥|𝑧) log 𝑝 𝑥 𝑞 𝑥|𝑧 𝑞(𝑥|𝑧) log + 𝐾𝐿(𝑝(𝑥|𝑧)||𝑞 𝑥 𝑧 ) 𝑝 𝑥 log 𝑞 𝑥 𝑧 + ℎ(𝑋) 負の再構築誤差 (Distortion) • 詳しくは[Poole+18] “On Variational Bounds of MI”, [Alemi+17] “Fixing Broken Elbo” • q(x|z)がtractableなら良い（が高次限の出力に難？ • 例：動画の生成 10

11.

q(x|z)によらない近似：p(z)を近似分布r(z)に置き換える 𝐼 𝑋, 𝑍 = 𝑝(𝑥, 𝑧) 𝑑𝑥 𝑑𝑧 ඵ 𝑝 𝑥, 𝑧 log 𝑝 𝑥 𝑝(𝑧) 𝑥,𝑧∈𝒳,𝒵 𝑝 𝑧 𝑥 𝑝(𝑥) 𝑑𝑥 𝑑𝑧 ඵ 𝑝 𝑧|𝑥 𝑝(𝑥) log 𝑝 𝑥 𝑝(𝑧) = 𝑥,𝑧∈𝒳,𝒵 ≤ 𝑝 𝑧𝑥 𝑑𝑥 𝑑𝑧 ඵ 𝑝 𝑧|𝑥 𝑝(𝑥) log 𝑟(𝑧) 𝑥,𝑧∈𝒳,𝒵 • 利用例：Variational Information Bottoleneck（I(X,Z)を制限） • 問題：上界なので最大化しても意味がない（下界がほしい） 11

12.

MIの下界を抑える研究郡 • [Poole+18] “On Variational Bounds of MI”より抜粋 • いろいろな推定方法とその問題点がまとまっている（どの下界が良いのかは今回は話しません） 12

13.

MIを最大化する手法の基本的な考え方：対照推定 • 求めたいのは𝐼 𝑋, 𝑍 = 𝔼𝑝 𝑥,𝑧 log 𝑝 𝑥|𝑧 𝑝(𝑧) 𝑝 𝑥 𝑝 𝑧 – 同時分布𝑝 𝑥, 𝑧 と、周辺分布の積𝑝 𝑥 𝑝 𝑧 が区別できれば良い • 同時分布から得られたペア{x,z}と適当なp(z)からサンプルしたz’とxのペア{x,z’}が区別できれば良い – p(x)p(z)とp(x,z)を対照推定 • 適当な𝑓𝜃 (𝑥, 𝑧)を用意して、{x,z}と{x, z’}の差が大きくなるように𝑓𝜃 (𝑥, 𝑧)自身とエンコーダ: X->Zを学習 13

14.

具体例 (“On Variational Bounds of MI”より抜粋） • ZではなくYで表されているが基本的には同じ • f(x, y)の置き方によっていろいろな亜種が導ける 14

15.

具体例：Contrastive Predictive Coding [Oord+18] 音声手法：時刻Tまでの系列の埋め込みcから、未来の潜在表現zを予測（zとcの相互情報量を最大化）系列は一貫した情報を表しているはずというprior を使っているテキスト 15

16.

具体例：Contrastive Predictive Coding [Oord+18] 画像データの場合手法：重なりありでパッチに切って系列っぽく扱う 16

17.

具体例：DeepInfoMax [Hjelm+19] 手法：画像全体の特徴量yとローカルな特徴量を対照推定（画像のローカルな特徴はグローバルな特徴と一致してほしいと言うpriorを使ってる） 17

18.

実験：CIFAR10、SVMで分類バク上がり、他にもたくさん実験あるが割愛 18

19.

ここまでまとめ • 教師なし表現学習は未解決問題 • デコーダを使わない手法として、対照推定に基づく手法が近年登場 => 精度大幅な改善 • 具体例：対照推定のときに使っているpriorが異なる – CPC [Oord+18] – Deep InfoMax [Hjelm+19] – など 19

20.

Outline • 背景：表現学習、相互情報量、対照推定 • 論文１：“Learning Representations by Maximizing Mutual Information”, NIPS2019 • 論文２：“Greedy InfoMax for Biologically Plausible SelfSupervised Representation Learning” (NIPS2019) • 論文３：“On Mutual Information Maximization for Representation Learning” 20

21.

書誌情報 • 基本的には巨大なDeep InfoMax + 細かい工夫 • Image Netで教師なし学習＋線形分類で68.1% – Top1正解率のベースラインを7%改善 • 実装が公開されている（ https://github.com/Philip-Bachman/amdim- 21

https://github.com/Philip-Bachman/amdim-public

22.

工夫１：巨大なエンコーダ 22

23.

余談：Tesla V100×8は人権 “We train our models using 4-8 standard Tesla V100 GPUs per model. Other recent, strong self-supervised models are nonreproducible on standard hardware.” 23

24.

工夫２：DIM across Views 1. 異なるデータ拡張で画像Xから X1とX2を得る 2. X1からはSummary Vector cを得る 3. X2からはLocal Vector z_i,jを得る 4. 異なる画像X’と適当なデータ拡張で得たz’_i,jと対照推定 24

25.

工夫３：Multiscale Mutual Information 固定化した層を使って予測するのではなく、複数の層間で予測実験では {1, 5}{1, 7}{5, 5}間で予測（数字は受容野の大きさ） 25

26.

工夫４：Mixture-Based Representations • 各層の特徴量𝑓𝑖 を適当な関数𝑚𝑘 に通して混合特徴ベクトル 𝑓𝑖1 , 𝑓𝑖2 , … 𝑓𝑖𝑘 = 𝑚𝑘 (𝑓𝑖 )を得る • これを各層でやって、NCE誤差（MIの下界）を重み付けする（重みが下の式） • 気持ちとしては、NCEが大きい特徴を選択するようになる • （ただそれだとGreedyになるからとH(q)を足してたりよくわからない 26

27.

実験：ImageNet, Places205 27

28.

実験：CIFAR 28

29.

まとめ • Local DIMを拡張 – 巨大なエンコーダ – Data Augmentation Prior – Multiscale Predictions – Mixture-based representations • Image Netで教師なしSoTA • （結局どれが効いているのかはよくわからない） 29

30.

Outline • 背景：表現学習、相互情報量、対照推定 • 論文１：“Learning Representations by Maximizing Mutual Information”, NIPS2019 • 論文２：“Greedy InfoMax for Biologically Plausible SelfSupervised Representation Learning” (NIPS2019) • 論文３：“On Mutual Information Maximization for Representation Learning” 30

31.

書誌情報 • MI最大化に従って、各層を独立に訓練 • 独立に訓練することで、独立に学習可能、メモリ効率がよくなる、勾配消失が原理的に起こらないなどの潜在的な利点がある 31

32.

提案手法：Greedy InfoMax • 基本は各モジュールごとに勾配を止めるだけ • 各モジュールは接続された下位モジュールの出力でCPC 32

33.

実験結果（STL10） CPCやSupervisedより高精度 ※ Greedy Supervisedの手続きがよくわからない（適宜固定？） 33

34.

実験結果（LibriSpeech) CPCや教師ありよりはやや悪いがまぁまぁ良い 34

35.

まとめ • 層ごとの学習にMIの最大化を利用するGreedy InfoMaxを提案 – CPCベース • 音声や画像タスクでCPCや全教師ありとComparable • 特にNCE系の損失はメモリ効率が悪いことが多いので、実用的にも使える場面はあるかもしれない（学習遅くなる気がするが） 35

36.

Outline • 背景：表現学習、相互情報量、対照推定 • 論文１：“Learning Representations by Maximizing Mutual Information”, NIPS2019 • 論文２：“Greedy InfoMax for Biologically Plausible SelfSupervised Representation Learning” (NIPS2019) • 論文３：“On Mutual Information Maximization for Representation Learning” 36

37.

書誌情報 • 最近のMI系の手法が、本当にMIを最大化しているから良いのか？と言うことに疑問を投げかける実験論文 • まだ採録されたわけではない（と思う） 37

38.

実験１：可逆なエンコーダを利用したMI最大化 • Flow Basedな手法（例えばRealNVP[Dinh+16]）はInvertible （可逆） • 可逆変換fをかませたz = f(x)を考えると、MI(X;Z)は常に最大 • 可逆変換なfをMI最大化で学習させるとどうなるか？（MI最大化系の研究が本当に単にMIの最大化なら、精度は変わらないはず 38

39.

実験１の結果 • (a)MIの推定はほぼコンスタント、(b)一方精度は改善 • 単にMIの最大化という観点だけでは説明できない？ 39

40.

実験２：異なるf(x,y)の形による分類精度とMI • (左)分類精度はBilinearかSeparableがよい • (右)MIの値はMLPが良い • MIが高い表現ほど悪い？？？ 40

41.

実験３：ネットワーク構造の重要性 • (左)NCEを使った場合、（右）NWJを使った場合の精度比較 • どちらの損失を使うかより、ネットワーク構造の選び方が支配的 41

42.

まとめ • 最近の精度向上が本当にMIの最大化と言う観点から説明できるのか？についての実験的な検証 • ネットワーク構造が支配的に重要というのは自分が実験したときもそうだったので多分そう • MIを本当に最大化しているのかというより、MI最大化の上で良いPriorをどう入れるかが重要？ 42

43.

全体まとめ • 相互情報量最大化による教師なし表現学習の最近の話題についてまとめた – 2018年：MI(X,Z)の下界について – 2019年：どういうネットワーク構造を使うか、どう言うpriorを入れるか • ImageNet・教師なしで大きな進展 • 感想：MI最大化自体はきれいだが、それ自体というよりは構造的なpriorをどう入れ込むかが重要 – Global特徴の選び方、対照方法など 43

[DL輪読会]相互情報量最大化による表現学習

Deep Learning JP

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

【拡散モデル勉強会】拡散モデルの数理

【拡散モデル勉強会】Introduction to Diffusion Models

【DL輪読会】Conditional Flow Matching

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

各ページのテキスト