[DL輪読会]Collective dynamics of repeated inference in variational autoencoder rapidly find cluster structure

>100 Views

November 17, 20

スライド概要

2020/11/13
Deep Learning JP:
http://deeplearning.jp/seminar-2/

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

(ダウンロード不可)

関連スライド

各ページのテキスト
1.

Collective dynamics of repeated inference in DEEP LEARNING JP variational autoencoder rapidly find cluster structure [DL Papers] Hiroshi Sekiguchi, Morikawa Lab http://deeplearning.jp/ 1

2.

書誌情報 • “Collective dynamics of repeated inference in variational autoencoder rapidly find cluster structure”, – Nagano, Y., Karakida, R. & Okada, M., The University of Tokyo – Sci Rep 10, 16001 (2020). https://doi.org/10.1038/s41598-020-72593-4 • 概要: – クラスタ-構造を持つ画像群で教師なし学習したVariational Autoencoder(VAE)を用 いて,ノイジーな画像をテストデータとして入力し、認識(Encode)と生成 (Decode)を複数回繰り返し(反復推論)て得た再構成画像はノイズ除去される. この時の,反復推論時の潜在変数の活動パターン時間軌跡は,クラスターの代表 点に接近するダイナミクスになっていることを定量的に示す • 動機: – 教師なし学習で、観測データから,低次の潜在空間での知識(メモリパターン) を構築するモデルに興味がある 2

3.

アジェンダ • • • • • 背景・目的 先行研究 提案手法 評価 まとめ 図表は、論文から抜粋した 3

4.

背景・目的 • <背景> – Variational Autoencoder:ラベル無のデータに内在する重要な特徴を抽出可能 – 視覚のAssociative memory model:クラスター*構造を持つ視覚情報を教師なし学習し、 各クラスターに反応するニューロン群を生成し,クラスターに属する視覚情報を引き 出す(認識する)機構をモデル化したもの. *クラスター=分類のカテゴリ 同一クラスターに属するメンバーは相関が高い • <目的>クラスター構造の画像群で学習したVariational Autoencoderに,ノイ ジーな画像で,認識(Encode)と生成(Decode)を複数回反復推論して得た再 構成画像はノイズ低減されており、その際の潜在空間上の活動パターン軌跡 は,連想メモリモデル(Associative memory model)と類似のダイナミクスを持 つことを定量的に示す • 4

5.

先行研究 Neuronal Mechanisms Encoding Global-to-Fine Information in Inferior-Temporal Cortex*, N.Matsumoto, M.Okada, Y. Sugase and S. Yamane, Journal of Computational Neuroscience 18, 85–103, 2005 • • • 目的:視覚の下側頭皮質(inferior-temporal cortex)に存在する、物体 形状に反応するニューロンの推論時のダイナミクスをassociative memory modelを用いて解明する 動機:顔の形状に反応するニューロンのダイナミクスを調査 視覚のAssociative memory modelを以下で構築 – モデル:Excitatory cellとInhibitory cellで構成 – 入力:クラスタ構造のUltrametric画像 𝛏𝛍,𝛎 : クラスターμ ∈ [1, 𝑝]のメン μ,ν バーν∈ [1, 𝑠]番目のパターンを入力、ここで ξ𝑖 , 𝑖 ∈ [1, 𝑁]番目の要素 μ μ 𝑝𝑟𝑜𝑏 ξ𝑖 = 1 = 1 − 𝑝𝑟𝑜𝑏[ ξ𝑖 = 0 = 𝑓 ←クラスターセンタ値は与えない μ μ,ν μ 𝑃𝑟𝑜𝑏 ξμ,ν 𝑖 = 0 ξ𝑖 = 1 = 1 − 𝑃𝑟𝑜𝑏 ξ𝑖 = 1 ξ𝑖 = 1 = 𝐹 μ μ,ν μ 𝑃𝑟𝑜𝑏 ξμ,ν 𝑖 = 1 ξ𝑖 = 0 = 1 − 𝑃𝑟𝑜𝑏 ξ𝑖 = 0 ξ𝑖 = 0 = 𝐺 – Hebb則:Neuron𝑖から𝑗へのシノプス係数、𝐽𝑖𝑗 = る(各ニューロンの強度の乗算) • 1 σ𝑝 σ𝑠 𝝃𝝁,𝝂 𝝃𝝁,𝝂 𝒋 とす 𝑓𝑁 μ=1 ν=1 𝒊 推論時 – 微分方程式に従う→初期値が入力画像 t=0~∞とした時ニューロン集 団𝑉 𝑒𝑥𝑡 (𝑡)の軌跡 – 入力画像にノイズを付加する a=0(ノイズゼロ)→1(ノイズ最大) • 結果 – ノイズ追加の場合、集団軌跡は、まず、入力したUltrametricに近づいた後、ク ラスタのセンター値η1に近づく:クラスターセンタ値をmodelが創出している 同一クラス ノメンバー は相関あり 図は論文*から抜粋 5

6.

提案手法 • 学習:標準の VAEを使用: – Network: Full Connection – 入力:クリーンな画像(MNIST or Fashion-MNIST) • 学習データ:50000 • Testデータ:10000(再構成エラー計算 用) – Loss関数:ELBO – 最適化:Adam – Epoch: 1500 • 繰り返し推論: – Network:学習済VAE – 入力:ノイズ不可の画像(MNIST or Fashion-MNIST) tステッ – 認識(Enc)と生成(Dec)をtステッププ繰り 繰り返して潜在変数z(t)を得る 返す x t + 1 = 𝐸𝑝θ (𝑥|𝑧 𝑡 ) 𝑥 𝑧 𝑡 = 𝐸𝑞Φ 𝑧 𝑥 𝑡 [𝑧]:活動パターン 𝑔𝑖𝑣𝑒𝑛 𝑥 𝑞Φ 𝑧 𝑥 𝐸𝑞Φ 𝑧 𝑥 𝑡 [𝑧] 𝑧(𝑡) 𝑔𝑖𝑣𝑒𝑛 𝑧 𝒛(𝒕) 𝐸𝑝θ (𝑥|𝑧 𝑡 𝑝θ (𝑥|𝑧) ) 𝑥 𝑥(𝑡 + 1) 𝑥(𝑡) 6

7.

評価したいこと • • • • • • • • 再構成画像𝒙(𝒕)の品質 活動パターンZ(t)のクラスタ化と活動パターン軌跡 活動パターンZ(t)軌跡はクラスターセンターに近づく ノイズと階層クラスターの関係 ノイズとラベル推定精度 活動パターンのクラスタセンターへ接近することの意味 潜在空間次元数の表現能力 潜在空間次元数、直行性、汎化性との関係 7

8.

再構成画像𝒙(𝒕)の品質 • 成功例(右上段) ① ② ③ 時間経過純 – 再構成画像X(t):数ステップ でノイズが除去されている – ノイズのレベルp=0.2 (28x28=784pixのpの割合の画 像の強度をswap) – 正しい数字が再現されている • 失敗例(右下段) – – – – 似た形の数字を誤っている “2”→”8” “5”→”3” “7”→”9” 成功例 失敗例 8

9.

活動パターンZ(t)のクラスタ化と活動パターン軌跡 • z(t)のクラスタ化の可視化 – z(t)の主成分分析で第1,第2固有ベクト ルで二次元にプロット→時間経過とともに クラスタが出現 – 初期画像=種々の“1”の画像+種々のノイズ • t=10以降でクラスターが2つに分かれる – 下は、正しく”1”のクラスターに到達してい る画像、上は誤って異なる数字のクラス ターに到達している画像 • 活動パターン軌跡: 初期画像𝑥0 の時間 𝑡における潜在変数𝑧(𝑡)を𝑡 = 0~∞でプ ロットしたもの • 潜在空間の低次元部分空間でクラスタ 化が起こる→低次元で表現可能 “1”以外の誤ったクラ スターに近づく “1”の正しいク ラスターに近 9 づく

10.

活動パターンZ(t)軌跡はクラスターセンターに近づく • 以降は、1ラベルに1クラスタが存在すると仮定す る(ラベル∈[0,9]) • 潜在空間で、活動パターン軌跡が引き込まれるポイ ントが複数ある (𝑖) – ラベルnumに属する𝑖番目の学習データ𝑥𝑛𝑢𝑚に対応す る活動パターン: (𝑖) (𝑖) ξ𝑛𝑢𝑚 = 𝐸𝑞Φ 𝑧 𝑥𝑛𝑢𝑚 [𝑧]:メモリベクトル とク のラ 距ス 離タ セ ン タ ー 短い – ラベルnumに属する全学習データに対応する活動パ と メ 短い のモ ターン群のセンター(平均):ξҧ 𝑛𝑢𝑚 = 距リ 1 𝑁𝑛𝑢𝑚 (𝑖) σ ξ𝑛𝑢𝑚:クラスターセンターあるいはコンセ 離 パ タ 𝑁𝑛𝑢𝑚 𝑖 ー プトベクトル ン • 活動パターン軌跡と上記のポイントの最小距離 (𝑖) を計算: min 𝑧 𝑡 − ξ 、ξ= ξ𝑛𝑢𝑚 or ξҧ 𝑛𝑢𝑚 𝑡 – 活動パターンは、直ぐにメモリベクトル近づき、その あとは、クラスターセンターに近づく – 先行研究Associative memory modelの結果と合致 実線:平均、シェード:±1xSTD Dev. 試行回数300回、ノイズp=0.2 10

11.

ノイズと階層クラスターの関係 • さらに、人工的に全クラスターセンターのセンターを作 る (𝑖) (𝑖) – ξ𝑛𝑢𝑚 = 𝐸𝑞Φ 𝑧 𝑥𝑛𝑢𝑚 [𝑧]:メモリ 1 𝑁 (𝑖) σ𝑖 𝑛𝑢𝑚 ξ𝑛𝑢𝑚:クラスターセンターあるいはコ – ξҧ 𝑛𝑢𝑚 = 𝑁𝑛𝑢𝑚 ンセプトベクトル – 全クラスターセンターのセンター: 9 ξҧ 𝑎𝑙𝑙 = 1 ෍ ξҧ 𝑛𝑢𝑚 10 𝑛𝑢𝑚=0 • 上記三つは、情報の粗さで階層になっている • 活動パターン軌跡と上記の3エリアの最小距離を計 (𝑖) 算: min 𝑧 𝑡 − ξ 、ξ= ξ𝑛𝑢𝑚 or ξҧ 𝑛𝑢𝑚 or ξҧ 𝑎𝑙𝑙 𝑡 – “6”を試行回数500回 • 結果:図a:ノイズ小の場合(I)はメモリベクトルとの 距離が一番小さい,中庸のノイズ(II)ではクラスタセン ターが、ノイズ大(III)では、全クラスターセンタのセ ンターが短い。ノイズによって、最適な軌跡を取ろう とする。よって、(III)では、誤ったポイントに近づく のでラベル推定が誤る 実線:平均、バー゙:±2xSTD Dev. • 図b:距離が最小になるstepを示す。 (𝑖) • ξ𝑛𝑢𝑚との距離:入力との再構成エラーを最少 にするにはノイズと共に、多くの時間が必要 • ξҧ 𝑛𝑢𝑚との距離:ラベル推定には、ノイズに関 わらず30-40ステップで良い 11

12.

ノイズとラベル推定精度 • 学習済VAEにノイズを可変した 画像を入力しステップtでの活 動パターンを入手。それを別の 学習済分類器(CNN)で分類 • 図a,ラベル“6”、図b、ラベル”1” は、200回試行し、もっとも頻 度の多いラベルを示す。 • 図a,b:ともに: ノイズが小さい、 中庸の範囲では、ラベル正解。 ノイズ可変 画像 学習済VAE 学習済分類器(CNN) MNISTで学習済 判別精度99.25% 活動パターン 𝑉 𝑒𝑥𝑡 (t) 学習済分類器 (CNN) 0~9を判別 入力”6” 入力”1” 12

13.

活動パターンのクラスタセンターへ接近することの意味 • VAEは、入力画像のクラスタ構造を抽出できて いる。 – 活動パターンがクラスターセンターに近づくことで、 どのラベルに属しているかの分類が可能 – 活動パターンが、クラスターセンタに近づくことで、 同時に、ノイス無しの再構成画像を実現している • VAEは、高次元の画像を、潜在空間における低 次の部分空間で表現している。 – 入力画像にノイズをいれるということは、潜在空間 における部分空間からの差異を生じさせており、そ の差異をまず削減するべく活動パターンは動く – よって活動パターンは、まずメモリーベクトルに近 づき、次にクラスターセンタに近づく。 13

14.

潜在空間次元数の表現能力 • 次元数100と、各ラベル0~9の クラスタセンターの強度 – 一握りの次元がactiveで、多く の次元はnon-active。 • 次元数100の内、主成分分析で 主要な固有ベクトルは14個で あった。14個で70%の分散を 確保可能→100個は不要 14

15.

潜在空間次元数、直行性、汎化性との関係 • クラスターセンター間の直行性と活動パ ターンの関係を評価した 𝐶𝑖𝑗 = തξ𝑖 ∙ തξ𝑗 തξ𝑖 2 𝐹 ∙ തξ𝑗 2 𝐹 , 𝐴 2 𝐹 = σ𝑖𝑗 𝐴2𝑖𝑗 : 𝐹𝑟𝑜𝑏𝑖𝑛𝑖𝑢𝑠 𝑛𝑜𝑟𝑚 • 𝑁𝑧 ≥ 14で、 𝐶 − 𝐼 2𝐹 が十分最小値に漸近 している • 𝑁𝑧 ≥ 14での、活動パターンとクラスター センターの距離のグラフは正常 • 次元数が小さいと、活動パターンの空間を 直行したクラスタ-センタで張れず、活動 パターンが正しいクラスターに近づきにく くなる • VAE Loss: 𝑁𝑧 を変化させたところ𝑁𝑧 ≥ 14 15

16.

まとめ・感想 • まとめ – クリーンなクラスタ構造を持つ画像セットで標準的なVAEを学習し、繰り返し 推論で活動パターンのダイナミクスを調査したところ、Associative Memory Modelの挙動と以下で一致することが分かった • 活動パターン軌跡は、クラスタセンターに近づく • 入力画像のノイズが増えると、全クラスターセンターに近づき、ラベル推定で誤る – 潜在変数の次元数が推測性能に与える影響を調べた • 次元数が一定以上大きければ(𝑁𝑧 ≥ 14)、活動パターンが存在する潜在空間の部分空間を 直工するクラスタセンタで張ることができ、活動パターンが正しいクラスタセンターへ近 づきやすくなる – 今後は、異なる階層を持つデータセットで試す 16

17.

END 17