[DL輪読会]Disentangling Disentanglement

184 Views

April 12, 19

スライド概要

2019/04/05
Deep Learning JP:
http://deeplearning.jp/seminar-2/

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

(ダウンロード不可)

関連スライド

各ページのテキスト
1.

DEEP LEARNING JP [DL Papers] Disentangling Disentanglement Hiroshi Sekiguchi, Morikawa Lab http://deeplearning.jp/ 1

2.

書誌情報 • “Disentangling Disentanglement” (Third workshop on Bayesian Deep Learning (NeurIPS 2018)) • Author: Emile Mathieu Tom Rainforth N. Siddharth Yee Whye The University of Oxford • 概要: – Disentanglement: 「からまっている物事を解きほぐすこと」、「解きほぐし」 → Disentangling Disentanglement: 「”解きほぐし”のからまりを解きほぐす」 – 既存のVAE生成モデル( VAE、βーVAE):解釈可能な潜在表現を求める解法は、設定問題 に依存していて、一般化するのは難しかった。 → 本研究は、これを一般化するスキームを提案する Generalization of Disentanglement : 「Decomposition(分解)」という言葉を提唱! • 関連プレゼン https://deeplearning.jp/recent-advances-in-autoencoder-basedrepresentation-learning-2/ by 松嶋さん 2

3.

アジェンダ • • • • 既存VAE(VAE、βーVAEなど)の問題点 一般化の導入 実験結果 まとめ 3

4.

既存VAE(VAE、βーVAEなど)の問題点(1) • VAEの研究の動機:観測データを生成する潜在変数の直感的な解釈! (例)顔画像の独立な特徴要素:髪の色、顔の向き、拡大縮小 • 既存VAEの方法:観測データから、互いに独立な潜在変数を求めること に注力。これが、Disentanglement「ほぐし」と呼ばれて、優先されてき た。 • 目的関数:以下の𝐿を最大化する – VAEの場合: 𝐿(𝑥) = 𝐸𝑞Φ (𝑧|𝑥) [log 𝑝θ (𝑥|𝑧)] − 𝐾𝐿(𝑞Φ (𝑧|𝑥)||𝑝θ 𝑧 ) – β-VAEの場合: 𝐿β (𝑥) = 𝐸𝑞Φ (𝑧|𝑥) [log 𝑝θ (𝑥|𝑧)] − β 𝐾𝐿(𝑞Φ (𝑧|𝑥)||𝑝θ 𝑧 ) 4

5.

既存VAE(VAE、βーVAEなど)の問題点(2) • 問題点 – 「新設定問題→ほぐしの新尺度の新提案→新目的関数→ほぐしの新手法」の無 限ループ 問題設定ごとにアドホック。一般化ができない。 – 複雑な観測データの潜在空間は同様に複雑で、潜在変数以上の数の特徴要素で できているだろう。潜在変数には、複数の特徴要素を掛け持ちしなければなら ない。潜在変数には、互いに独立でないものもたくさんあるはず。→ 独立な 潜在変数と独立ではない潜在変数両方を合わせた𝑝(𝑧)を正しく抽出しなければ ならない。 • 本来やりたいことは、(1) 独立な潜在変数を抽出して直感的解釈に使 うことだが、同時に、(2) 潜在空間zがどのようになっているのかを正 しく抽出したい。 – VAEやβーVAEは、(1)のみに注力していて、(2)ができていない。 5

6.

一般化の導入(1) • そこで、以下の2つを同時に満たす手法が必要。 (a) 潜在空間内の重なり(Overlap)が丁度良いこと(大きすぎず小さすぎず): 多くの𝑥に対し、エンコーダ𝑞Φ (𝑧|𝑥)が潜在空間に写像する複数の𝑧の密度分布間の 重なり(Overlap)が丁度良いこと:これが満たせれれば、意味のあるエンコーダ。 重なりが大きすぎ:観測データ𝑥と潜在変数𝑧の間の写像がボケ過ぎて写像ではなくなる 重なりが小さすぎ:𝑥と𝑧の関係が決定論的になり、本来の確率生成モデルの趣旨からはずれる (b) 周辺化事後確率𝑞Φ 𝑧 = 𝐸𝑝𝐴(𝑥) [𝑞Φ 𝑧 𝑥 ]が事前確率𝑝(𝑧)に近づくこと: ここで、𝑝𝐴(𝑥) は観測データの母体の確率密度分布: これで、𝑞Φ (𝑧)は𝑝(𝑧)と同じ分布になることが担保される。 6

7.

一般化の導入(2) • 目的関数: – 新提案の場合: 𝐿α,β (𝑥) = 𝐿β (𝑥) − α 𝐷(𝑞Φ 𝑧 , 𝑝 𝑧 ) = 𝐸𝑞Φ 𝑧 𝑥 [log 𝑝θ (𝑥|𝑧)] − 𝛽 𝐾𝐿(𝑞Φ (𝑧|𝑥)||𝑝θ 𝑧 ) − α 𝐷(𝑞Φ 𝑧 , 𝑝 𝑧 ) (b)に対応する項目を追加 𝐷 𝑞Φ 𝑧 , 𝑝 𝑧 ≜ 𝐾𝐿(𝑝 𝑧 ||𝑞Φ 𝑧 ) = 𝐸𝑝 ≈ σ𝐵𝑗=1 log 𝑝(𝑧𝑗 ) − log 𝑧 [log 𝑝 𝑧 σ𝑛𝑖=1 𝑞Φ (𝑧𝑗 |𝑥𝑖 − log(𝐸𝑝𝐴(𝑥) [𝑞Φ 𝑧 𝑥 ])] • Disentanglement「ほぐし」の尺度:以下のネットワークでの正解率 Disentanglement by Factorizing(Factor VAE)より 7

8.

既存手法βーVAEの特性 • βを変化させることは、(a)の重なり(Overlap)を変化させていることで ある。(b)に対する効果は全くない。(証明はここでは省略) → βが大きい:重なりが大きいということ βが小さい:重なり小さいということ → βが大きすぎたり、小さすぎると、エンコーダが機能しなくなる。 → disentanglement scoreは下がる。(実験結果(1)) • ΒーVAEでは、事前確率をガウシアンにすると、潜在変数はすべて互い に独立になる。→ しかし、実社会の観測データは、もっと複雑なた め、潜在変数が全て独立であることは、ほとんどなく、非現実。 → 事前確率を等方性ガウシアンにすると、潜在空間で回転の操作は、 正しく抽出できない。(実験結果(1)) 8

9.

実験結果(1) • 実験1)事前確率の違いによるdisentanglement scoreの変化 – 手法: α=0すなわちβーVAEの場合 – 事前確率 数字:β値 • 等方性ガウシアン:潜在空間での回転操作が認識不可 • 非等方性ガウシアン: • Student-t分布: – データセット • 2D Shape: 二値画像 64x64画素 737,280個の画像 形:3種類、拡大縮小:6種類、回転:40種類 平行移動:x方向:32種類、y方向:32種類 数字:自由度 – エンコーダとデコーダ:CNN+FC – 結果 • Disentanglement Scoreは、事前確率を 変えただけで、良くなる。 • Βが大きい→Disentanglement Scoreは 悪くなる。 9

10.

実験結果(2) • 実験2)新提案による周辺化事後分布𝑞Φ 𝑧 = 𝐸𝑝𝐴(𝑥) [𝑞Φ 𝑧 𝑥 ]が事前 分布𝑝(𝑧)を表現する例 – 手法: 新手法:αとβを変化 – 事前確率:4等重み付けガウシアン – データセット: 事前確率 • Pinwheel: 400データ – エンコーダとデコーダ:全結合(FC) – 結果 • αを固定して、βを変化させる。βが大きく なると、周辺化事後確率𝑞Φ (𝑧)は、4ガウシアンから 2ガウシアンへの事前確率から離脱してしまう。 • βを固定してαを変化せても、周辺化事後確率𝑞Φ 𝑧 は 4ガウシアンのまま事前確率と合同を維持できる。 → 新提案は有用! 10

11.

まとめ • βーVAEの目的関数に、周辺化事後確率𝑞Φ 𝑧 = 𝐸𝑝𝐴(𝑥) [𝑞Φ 𝑧 𝑥 ]と、事前 確率𝑝(𝑧)の差異を少なくする正則化を追加して、実世界の事前確率を学 習する手法を提案した。 11

12.

END 12