4.4K Views
October 23, 23
スライド概要
マルチモーダル変分オートエンコーダーは、推論モデルを学習することで、全てのモダリティからの情報を統合した潜在表現(共有表現)を獲得できる。しかし、任意のモダリティから共有表現を得たい場合、他のモダリティの入力が欠損してしまい、適切な表現推論が行えない。本研究では、欠損モダリティ問題を、任意のモダリティからの償却推論とマルチモーダルELBOの償却ギャップの一部として捉え直し、反復償却推論を用いて単一のモダリティ入力から共有表現を適切に得る方法を提案する。しかし、反復償却推論の過程では、マルチモーダルELBOを評価する必要があるため、欠損モダリティも必要となる。そこで、単一のモダリティのみを入力とする推論モデルを用意し、教師として反復償却推論を、生徒として新たに用意した推論モデルを蒸留し、単一モダリティから共有表現を獲得できる推論モデルが得られることを検証する。
反復償却推論による マルチモーダル情報統合の改 善 東京大学工学系研究科 技術経営戦略学専攻 大島佑太 鈴木雅大 松尾豊 1
背景:マルチモーダル情報処理 ● マルチモーダル情報処理は,異なる形式(モダリティ)の情報を扱う分野. ● 近年ではDALL-E2などの画像とテキストの組を扱うマルチモーダルモデルが 有名. TEXT DESCRIPTION “a teddy bear on a skateboard in times square” [Ramesh+ 2022] 2
背景:VAE ● 変分オートエンコーダー(VAE)は, 入力xを推論モデルqφ(z|x)に入力して潜在変数zを獲得(推論と呼ぶ)し, 潜在変数zから生成モデルpθ(x|z)を用いて入力の再構成x’を生成. ● 推論モデル,生成モデルはニューラルネットでモデル化されたもの. [Kingma+ 2013] 入力 x 潜在変数 推論モデル qφ(z|x) Z 生成 生成モデル pθ(x|z) x’ 3
背景:マルチモーダルVAE ● マルチモーダルVAEは,VAEの入出力をマルチモーダルに拡張したもの. ● 一つ目のモダリティの入力x1と二つ目のモダリティの入力x2から, 推論モデルqφ(z|x1,x2)を用いて潜在変数zを推論し, 生成モデルpθ(x1,x2|z)を用いて各モダリティの再構成x1’,x2’を生成. [Suzuki+ 2022] x1’ x1 推論モデル qφ (z|x1,x2) x2 Z 生成モデル pθ(x1,x2|z) x2’ 4
背景:マルチモーダルVAE ● しかし, マルチモーダルVAEでは, 用いたいモダリティがすべて存在している下で学習された推論モデルを使う ため,欠損したモダリティがある場合に,潜在変数zの推論精度が下がる. これを欠損モダリティ問題と呼ぶ. x1 ❌ 推論モデル qφ (z|x1,x2) x2 [Suzuki+ 2022] x1’ Z 生成モデル pθ(x1,x2|z) x2’ 5
背景:償却ギャップ ● 一方,VAE では,推論をニューラルネットで近似(モデル化)しているため, 理想的な推論に比べて推論精度が劣る,償却ギャップという問題が知られる [Cremer+ 2018]. 理想的な推論 q*(z|x) 推論精度 推論モデル qφ (z|x) 償却ギャップ 6
目的:欠損モダリティ問題の捉え直しによる解決 ● 欠損モダリティ問題もまた,推論をニューラルネットでモデル化(近似)した ために起きた弊害だった. ● 本研究では,欠損モダリティ問題を償却ギャップの一部として捉え直し,償却 ギャップを改善する為の方法を用いて,欠損モダリティ問題の解決を目指す. x1 ❌ 推論モデル qφ (z|x1,x2) x2 x1’ Z 生成モデル pθ(x1,x2|z) x2’ 7
関連研究:JMVAE ● 単一モダリティからの推論モデルを別に⽤意し,推論結果を近づけるように学 習することで,モダリティが欠損時に推論可能とすることを目指した. x1 qφ 1(z|x1) [Suzuki+ 2016] Z x1’ x1 qφ (z|x1,x2) x2 Z pθ(x1,x2|z) x2’ 8
関連研究:MoPoE VAE ● 各モダリティからの推論器を用意し,MoPoEで潜在変数を混合. ● 最新のモデルだが,モダリティ欠損時に理論的限界が存在 [Daunhawer+ 2021]. [Sutter+ 2021] x1 qφ 1(z1|x1) x1’ Z1 MoPoE x2 qφ 2(z2|x2) Z2 Z pθ(x1,x2|z) x2’ 9
関連研究:反復償却推論 ● VAE では,推論をニューラルネットでモデル化(近似)しているため,理想 的な推論に比べて推論精度が劣る,償却ギャップという問題が知られる. ● この問題を解決する方法として,生成誤差等の勾配を用いて反復的に推論精度 を更新する反復償却推論が提案されている. ① x’を生成し 生成誤差を計算 x qφ(z|x) Z pθ(x|z) x’ 10
関連研究:反復償却推論 ● VAE では,推論をニューラルネットでモデル化(近似)しているため,理想 的な推論に比べて推論精度が劣る,償却ギャップという問題が知られる. ● この問題を解決する方法として,生成誤差等の勾配を用いて反復的に推論精度 を更新する反復償却推論が提案されている. ② 生成誤差等の 勾配を計算 x qφ(z|x) Z pθ(x|z) x’ 11
関連研究:反復償却推論 ● VAE では,推論をニューラルネットでモデル化(近似)しているため,理想 的な推論に比べて推論精度が劣る,償却ギャップという問題が知られる. ● この問題を解決する方法として,生成誤差等の勾配を用いて反復的に推論精度 を更新する反復償却推論が提案されている. ③ zの勾配を用いて 推論を更新 x qφ(z|x) Z pθ(x|z) x’ 12
関連研究:反復償却推論 ● VAE では,推論をニューラルネットでモデル化(近似)しているため,理想 的な推論に比べて推論精度が劣る,償却ギャップという問題が知られる. ● この問題を解決する方法として,反復償却推論が提案されている. 理想的な推論 q*(z|x) 推論精度 償却ギャップ 推論モデル qφ (z|x) 13
関連研究:反復償却推論 ● VAE では,推論をニューラルネットでモデル化(近似)しているため,理想 的な推論に比べて推論精度が劣る,償却ギャップという問題が知られる. ● この問題を解決する方法として,反復償却推論が提案されている. q*(z|x) 推論精度 qφ (z|x) 償却ギャップ 反復償却推論 qφ (z|x) 14
目的:欠損モダリティ問題の捉え直しによる解決(再掲) ● 欠損モダリティ問題もまた,推論をニューラルネットでモデル化(近似)した ために起きた弊害だった. ● 本研究では,欠損モダリティ問題を償却ギャップの一部として捉え直し,償却 ギャップを改善する為の方法を用いて,欠損モダリティ問題の解決を目指す. x1 ❌ 推論モデル qφ (z|x1,x2) x2 x1’ Z 生成モデル pθ(x1,x2|z) x2’ 15
目的:反復償却推論による欠損モダリティ問題の改善 ● 具体的には,マルチモーダルVAEに反復償却推論を適用する. ● 反復償却推論は生成誤差等の勾配を用いて反復的に推論精度を更新する手法. ① x1’,x2’を生成 し 生成誤差を計算 x1’ x1 推論モデル qφ (z|x1) Z 生成モデル pθ(x1,x2|z) x2’ 16
目的:反復償却推論による欠損モダリティ問題の改善 ● 具体的には,マルチモーダルVAEに反復償却推論を適用する. ● 反復償却推論は生成誤差等の勾配を用いて反復的に推論精度を更新する手法. ② 生成誤差等の 勾配を計算 x1 推論モデル qφ (z|x1) Z x1’ 生成モデル pθ(x1,x2|z) x2’ 17
目的:反復償却推論による欠損モダリティ問題の改善 ● 具体的には,マルチモーダルVAEに反復償却推論を適用する. ● 反復償却推論は生成誤差等の勾配を用いて反復的に推論精度を更新する手法. ③ zの勾配を用いて 推論を更新 x1 推論モデル qφ (z|x1) Z x1’ 生成モデル pθ(x1,x2|z) x2’ 18
目的:反復償却推論による欠損モダリティ問題の改善 ● 反復償却推論の過程で生成誤差を計算する必要があるため,このままでは欠 損モダリティ問題の解決に,欠損モダリティが必要となってしまう. ① x1’,x2’を生成 し 生成誤差を計算 x1’ x1 推論モデル qφ (z|x1) Z 生成モデル pθ(x1,x2|z) x2’ 19
目的:反復償却推論による欠損モダリティ問題の改善 ● そこで,真に単一モダリティのみを推論に用いる推論モデルを別に用意し, 推論結果を近づける様に学習する. x1 qφ 1(z1|x1) Z x1’ x1 推論モデル qφ (z|x1) Z 生成モデル pθ(x1,x2|z) x2’ 20
目的:反復償却推論による欠損モダリティ問題の改善 ● 本手法では,欠損モダリティ問題を償却ギャップの一部として捉え直し, 反復償却推論を用いて推論精度を改善する. 理想的な推論 q*(z|x1,x2) 推論精度 推論モデル 償却ギャップ qφ (z|x1,x2) モダリティ欠損時の 推論モデル qφ (z|x1) 欠損モダリティ問題 21
目的:反復償却推論による欠損モダリティ問題の改善 ● 本手法では,欠損モダリティ問題を償却ギャップの一部として捉え直し, 反復償却推論を用いて推論精度を改善する. 理想的な推論 q*(z|x1,x2) 推論精度 推論モデル qφ (z|x1,x2) 償却ギャップ モダリティ欠損時の 推論モデル qφ (z|x1) 22
目的:反復償却推論による欠損モダリティ問題の改善 ● 本手法では,欠損モダリティ問題を償却ギャップの一部として捉え直し, 反復償却推論を用いて推論精度を改善する. q*(z|x1,x2) 推論精度 qφ (z|x1,x2) 償却ギャップ qφ (z|x1) 23
目的:反復償却推論による欠損モダリティ問題の改善 ● 本手法では,欠損モダリティ問題を償却ギャップの一部として捉え直し, 反復償却推論を用いて推論精度を改善する. q*(z|x1,x2) qφ (z|x1) 償却ギャップ 推論精度 反復償却推論 qφ (z|x1) 24
目的:反復償却推論による欠損モダリティ問題の改善 ● 反復償却推論の過程で生成誤差を計算する必要があるため,このままでは欠損 モダリティ問題の解決に,欠損モダリティが必要となってしまう. q*(z|x1,x2) qφ (z|x1) 償却ギャップ 推論精度 反復償却推論 qφ (z|x1) 25
目的:反復償却推論による欠損モダリティ問題の改善 ● そこで,真に単一モダリティのみを推論に用いる推論モデルを別に用意し, 推論結果を近づける様に学習する. ● 新たに用意したモデルを蒸留推論器と呼ぶこととする. q*(z|x1,x2) qφ (z|x1) 償却ギャップ 推論精度 推論結果を近づける 蒸留推論器 qφ1(z|x1) 26
目的:反復償却推論による欠損モダリティ問題の改善 ● そこで,真に単一モダリティのみを推論に用いる推論モデルを別に用意し, 推論結果を近づける様に学習する. ● 新たに用意したモデルを蒸留推論器と呼ぶこととする. q*(z|x1,x2) 推論精度 qφ (z|x1) qφ1(z|x1) 償却ギャップ 蒸留推論器 qφ1(z|x1) 27
関連研究:JMVAE(再掲) ● 単一モダリティからの推論モデルを別に⽤意し,推論結果を近づけるように学 習することで,モダリティが欠損時に推論可能とすることを目指した. x1 qφ 1(z|x1) [Suzuki+ 2016] Z x1’ x1 qφ (z|x1,x2) x2 Z pθ(x1,x2|z) x2’ 28
関連研究:JMVAE ● JMVAEを推論精度の観点で見ると,以下の様になる. ● qφ(z|x1,x2)の償却ギャップを埋めることができない. 理想的な推論 q*(z|x1,x2) 推論精度 推論モデル 償却ギャップ qφ (z|x1,x2) 新たに用意した 推論モデル 欠損モダリティ問題 qφ1(z|x1) 29
関連研究:JMVAE ● JMVAEを推論精度の観点で見ると,以下の様になる. ● qφ(z|x1,x2)の償却ギャップを埋めることができない. q*(z|x1,x2) 推論精度 qφ (z|x1,x2) 償却ギャップ 近づける 欠損モダリティ問題 qφ1(z|x1) 30
関連研究:JMVAE ● JMVAEを推論精度の観点で見ると,以下の様になる. ● qφ(z|x1,x2)の償却ギャップを埋めることができない. q*(z|x1,x2) 推論精度 qφ (z|x1,x2) 償却ギャップ qφ1(z|x1) 31
目的:反復償却推論による欠損モダリティ問題の改善 ● JMVAEでは,qφ(z|x1,x2)の償却ギャップを埋めることができない. ● その為,反復償却推論を用いたマルチモーダルVAEの推論精度は,JMVAEを 上回る可能性がある. JMVAE 反復償却推論 32
実験 ● 反復償却推論を用いたマルチモーダルVAEについて,以下の仮説を検証する. ● 仮説1 ○ 反復償却推論を用いることで, 単一モダリティ入力から共有表現を適切に獲得可能. ● 仮説2 ○ 反復償却推論を用いたマルチモーダルVAEは qφ(z|x1,x2)の償却ギャップを埋められる為,JMVAEより推論能力が高い. 33
実験 ● マルチモーダルVAEでは,潜在変数が適切に推論できているかは, クロスモーダル生成性能や潜在変数の性能で評価されることが多い. ● 仮説を検証するために,以下のモデルを比較する. ○ MoPoE ○ JMVAE ○ 反復償却推論を用いたマルチモーダルVAEの蒸留推論器 34
実験 ● 使用するデータセットはMNIST-SVHN-Text,CUBの二種類. MNIST-SVHN-Text CUB Dataset 35
実験:MNIST-SVHN-Text ● クロスモーダル生成の可視化 MNIST-> SVHN Text -> SVHN GT MoPoE JMVAE stu. Iterative stu. 36
実験:MNIST-SVHN-Text ● クロスモーダル生成のFID↓ ○ FIDはデータ分布と生成の分布の「距離」を表す. SVHN -> MNIST Text-> MNIST MNIST-> SVHN Text -> SVHN MoPoE 194.49 199.69 246.64 246.85 JMVAE stu. 59.468 48.680 65.407 63.345 Iterative stu. 49.957 38.691 60.328 58.674 37
実験:MNIST-SVHN-Text ● 各モダリティの推論器により推論される潜在変数の線型分類性能↑ ○ 潜在変数の性能を評価. MNIST SVHN Text MoPoE 0.9787 0.7969 0.9992 JMVAE stu. 0.9743 0.7540 0.9981 Iterative stu. 0.9811 0.7937 0.9999 38
実験:CUB ● クロスモーダル生成の可視化 Text -> Image 1. a small white bird with a black cheek patch and grey nape . GT 1. a medium sized bird with a smooth white head and body , gray wings and black tail feathers . MoPoE 1. small bird with large head compared to body size and small beak . 1. a light brown bird with gray wings , silver eyerings , and a dark yellow bill . 1. this bird has wings that are brown and has a long bill . JMVAE stu. Iterative stu. 39
実験:CUB ● 定量評価 FID↓ Text -> Image MoPoE 311.319 JMVAE stu. 195.425 Iterative stu. 191.425 コサイン類似度↑ MoPoE -4.795e-3 JMVAE stu. 3.665e-3 Iterative stu. 7.960e-3 40
実験:考察 ● MoPoEとの比較により,以下のことが示唆される. ○ 反復償却推論を用いることで,潜在変数に他のモダリティの情報や, モダリティ間に共通の情報を含めることが可能(仮説1). ● JMVAEとの比較により,以下のことが示唆される. ○ 反復償却推論を用いることで,マルチモーダルな設定においても, 本来の償却ギャップを減らすことができる(仮説2). 41
結論 ● 本研究の範囲内では,以下のことが示唆された. ○ 欠損モダリティ問題を償却ギャップの一部として捉え直し,反復償却推 論を用いることで,単一モダリティ入力から共有表現を適切に獲得可能 である. ● 本研究の範囲内で未検証な内容は以下. ○ 教師モデルと生徒モデルを近づけるためのより良い蒸留方法. ○ 多様なデータセットへの応用. ○ 反復償却推論の反復回数のチューニング. 42
参考文献 ● ● ● ● ● ● ● ● ● [Kingma+ 2013] Kingma, D. P., & Welling, M. (2019). An introduction to variational autoencoders. Foundations and Trends® in Machine Learning, 12(4), 307-392. [Ramesh+ 2022] Ramesh, A., Dhariwal, P., Nichol, A., Chu, C., & Chen, M. (2022). Hierarchical textconditional image generation with clip latents. arXiv preprint arXiv:2204.06125. [Suzuki+ 2022] Suzuki,M. & Matsuo,Y. (2022). A survey of multimodal deep generative models, Advanced Robotics,36:5-6,261-278,DOI: 10.1080/01691864.2022.2035253 [Wo+ 2018] Wu, M., & Goodman, N. (2018). Multimodal generative models for scalable weaklysupervised learning. Advances in neural information processing systems, 31. [Sutter+ 2021] Sutter TM, Daunhawer I, Vogt JE. (2021). Generalized multimodal ELBO. International Conference on Learning Representations; Vienna, Austria. [Daunhawer+ 2021] Daunhawer, I., Sutter, T. M., Chin-Cheong, K., Palumbo, E., & Vogt, J. E. (2021). On the limitations of multimodal vaes. arXiv preprint arXiv:2110.04121. [Suzuki+ 2016] Suzuki,M.,Nakayama,K., & Matsuo,Y. (2016). Joint multimodal learning with deep generative models. arXiv preprint arXiv:1611.01891. [Cremer+ 2018] Cremer, C., Li, X., & Duvenaud, D. (2018, July). Inference suboptimality in variational autoencoders. In International Conference on Machine Learning (pp. 1078-1086). PMLR. [Marino+ 2018]Marino,J.,Yue,Y.,& Mandt,S. (2018,July). Iterative amortized inference. In International Conference on Machine Learning (pp. 3403-3412). PMLR. 43
補遺:MNIST-SVHN-Text ● クロスモーダル生成の可視化(mean) MNIST-> SVHN Text -> SVHN GT MoPoE JMVAE stu. Iterative stu. 44
補遺:MNIST-SVHN-Text ● クロスモーダル生成の可視化 SVHN -> MNIST Text -> MNIST GT MoPoE JMVAE stu. Iterative stu. 45
補遺:MNIST-SVHN-Text ● クロスモーダル生成の可視化 MNIST-> Text SVHN -> Text GT MoPoE MVTCAE Proposed 46
実験:MNIST-SVHN-Text ● クロスモーダル生成の可視化 MNIST-> SVHN Text -> SVHN GT MoPoE MVTCAE Proposed 47
補遺:MNIST-SVHN-Text ● クロスモーダル生成の可視化 SVHN -> MNIST Text -> MNIST GT MoPoE MVTCAE Proposed 48
補遺:MNIST-SVHN-Text ● クロスモーダル生成の可視化 MNIST-> Text SVHN -> Text GT MoPoE MVTCAE stu. Iterative stu. 49
実験:MNIST-SVHN-Text ● クロスモーダル生成の可視化 Text -> Image GT MoPoE MVTCAE Proposed 50
実験:MNIST-SVHN-Text ● クロスモーダル生成の可視化 Text -> Image (Bimodal CelebA) GT T=1 T=2 T=10 51
Image -> Text (Bimodal CelebA) GT T=1 T=2 T=10 52
SVHN -> MNIST (MNIST-SVHN-Text) GT T=1 T=2 T=4 T=16
Text -> MNIST (MNIST-SVHN-Text) GT T=1 T=2 T=4 T=16
MNIST -> SVHN (MNIST-SVHN-Text) GT T=1 T=2 T=4 T=16
Text -> SVHN (MNIST-SVHN-Text) GT T=1 T=2 T=4 T=16
MNIST -> Text (MNIST-SVHN-Text) GT T=1 T=2 T=4 T=16
SVHN -> Text (MNIST-SVHN-Text) GT T=1 T=2 T=4 T=16
● クロスモーダル生成の可視化 実験:MNIST-SVHN-Text Image -> Text GT MoPoE MVTCAE Proposed 59
補遺:CUB ● クロスモーダル生成の可視化 Image -> Text GT ● a small white bird with a black cheek patch and grey nape . MoPoE ● crown wing feet and wingbars are <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> JMVAE stu. ● this bird of tan on its black and has with grey round belly . Iterative stu. ● this bird as different and dark speckled , secondaries with small yellow and brown coverts . 60
補遺:PoEを取った場合の性能比較 ● クロスモーダル生成の定性的比較. SVHN,Text -> MNIST GT MoPoE JMVAE stu. Iterative stu. 61
補遺:PoEを取った場合の性能比較 ● クロスモーダル生成の定性的比較. MNIST,Text -> SVHN GT MoPoE JMVAE stu. Iterative stu. 62
補遺:PoEを取った場合の性能比較 ● クロスモーダル生成の定性的比較. MNIST,SVHN -> Text GT MoPoE JMVAE stu. Iterative stu. 63
補遺:PoEを取った場合の性能比較 ● クロスモーダル生成のFID↓ ○ FIDはデータ分布と生成の分布の「距離」を表す. SVHN, Text -> MNIST Text, MNIST -> SVHN MoPoE 196.98 252.50 JMVAE stu. 44.281 75.465 Iterative stu. 44.026 72.782 64
補遺:PoEを取った場合の性能比較 ● 各モダリティの推論器により推論される潜在変数の線型分類性能↑ ○ 潜在変数の性能を評価. MNIST,SVHN SVHN, Text Text, MNIST MoPoE 0.9813 0.9679 0.9961 JMVAE stu. 0.9827 0.9900 0.9974 Iterative stu. 0.9857 0.9926 0.9980 65
補遺:反復償却推論による欠損モダリティ問題の改善 ● 反復償却推論を用いたマルチモーダルVAEの方が,JMVAEよりも, 推論器同士を近づけるのが容易である可能性がある. ● JMVAE(左)は明示的に複数モダリティを入力としているが,反復償却推論 を用いたマルチモーダルVAE(右)は単一モダリティからの推論の改善. 66
補遺:実験2 ● 仮説2を検証する. ○ 反復償却推論を用いたマルチモーダルVAEの方が,JVAEよりも, 単一モダリティを入力とする推論器での蒸留が容易. ● 仮説を検証するために,以下の間のKLダイバージェンスを比較する. ○ JMVAEにおける,JVAEと蒸留推論器. ○ 反復償却推論を用いたマルチモーダルVAEとその蒸留推論器. 67
補遺:実験2:結果 ● 蒸留における教師モデルと生徒モデルのKLダイバージェンス↓ MNIST-SVHN-Text CUB MNIST SVHN Text JMVAE 46.434 56.883 74.996 Iterative 44.022 51.836 71.108 Image Text JMVAE 104.542 247.034 Iterative 140.878 608.291 68
補遺:実験2:考察 ● 結果は,必ずしも仮説を支持するものとはならなかった. ○ MNIST-SVHN-Textでは,JVAEよりも反復償却推論を用いたVAEの方が 近づけやすいことが示された. ○ 一方,CUBでは,反復償却推論を用いたVAEよりもJVAEの方が近づけ やすいことが示された. ● 本研究で用いた蒸留方法では,他のモダリティが持つ情報が,使用するモダ リティから離れている場合に,うまく蒸留できないことが示唆された. 69
z z distillation Multimodal ELBO L(x1, x2 ; θ, φ) Iterative Inference x1 x1 87
x1 ❌ Inference qφ (z|x1,x2) x2 x1’ Z Generation pθ(x1,x2|z) x2’ 88
MNIST-> SVHN Text -> SVHN GT MoPoE JMVAE stu. Iterative stu. 89
MNIST SVHN Text MoPoE 0.9787 0.7969 0.9992 JMVAE stu. 0.9743 0.7540 0.9981 Iterative stu. 0.9811 0.7937 0.9999 90
MNIST SVHN Text MoPoE 0.9787 0.7969 0.9992 JMVAE stu. 0.9743 0.7540 0.9981 Iterative stu. 0.9811 0.7937 0.9999 91