640 Views
May 29, 24
スライド概要
バイアス,バリアンス,モ デルエビデンス,ELBO 公⽴⼩松⼤学 藤⽥ ⼀寿 PRMLのバイアス,バリアンス,モデルエビデンス,ELBOなどに関する部分をまとめました.
最尤解のバイアス
最尤推定 • スカラー変数𝑥の𝑁個の観測値からなるデータセット𝐱 = 𝑥! , … , 𝑥" # がある. • これは,未知の平均𝜇と分散𝜎 $ を持つガウス分布から独⽴に⽣成されたとする. • 各観測値はi.i.d.だから,データセットの⽣成確率は $ • 𝑝 𝐱 ∣ 𝜇, 𝜎 $ = ∏" %&! 𝑁(𝑥% ∣ 𝜇, 𝜎 ) • である.𝜇と𝜎 $ の関数とみなすと,これはガウス分布に対する尤度関数である. • 確率分布のパラメタを求める普通の⽅法は,この尤度関数を最⼤化するようなパラ メタを求めることである.これを最尤推定と呼ぶ. • しかし,尤度関数を最⼤化する代わりに,尤度関数の対数(対数尤度関数)を最⼤ 化する. • 対数は単調増加関数なので,対数をとっても問題ない. • ln 𝑝 𝐱 ∣ 𝜇, 𝜎 $ = − ! $' ! " " $ $ $ ∑" − ln 𝜎 $ − ln 2𝜋 %&! 𝑥% − 𝜇
最尤推定 • 𝜇について最⼤化する • ! !# ln 𝑝 𝐱 ∣ 𝜇, 𝜎 $ = % &! ∑) '(% 𝑥' − 𝜇 = 0 % • 𝜇*+ = ) ∑) '(% 𝑥' • となる.これはサンプル平均,つまり観測値の平均である. • つづいて,𝜎 $ について最⼤化する. • ! !& $ = ! ln 𝑝 𝐱 ∣ 𝜇*+ , 𝜎 % ) $ & $& ! $ ∑) − ! ! '(% 𝑥' − 𝜇*+ =0 % $ $ • 𝜎*+ = ) ∑) '(% 𝑥' − 𝜇*+ • これは,サンプル平均𝜇*+ に関するサンプル分散である.
最尤解のバイアス • サンプル平均とサンプル分散の期待値を考える. • 𝐸 𝜇*+ = 𝐸 % ) ∑) '(% 𝑥' = % ) ∑) '(% 𝐸 𝑥' = % ) ∑) '(% 𝜇 = 𝜇 • よって,最尤推定の平均(サンプル平均)の期待値は正しい平均となる. $ • 𝐸 𝜎*+ = ),% ) 𝜎$ • よって,真の分散は(𝑁 − 1)/𝑁倍過⼩評価される. • これは,バイアスと呼ばれる現象の例である. (a) (b) • この最尤解のバイアスはデータ点の数が増えれば重要でなくなる. (c) それぞれ,緑のガウス分布からデー タを⽣成した.⻘の点がデータ点を 表し,⾚線は最尤推定で得られたガ ウス分布を表す.平均の平均は真の 平均になっているが,分散の平均は 真の分散になっていない.
サンプル分散の期待値 ( ( ( %&' %&' 1 1 2 $ $ 𝐸 𝜎"# = 𝐸 & 𝑥% − 𝜇"# $ = & 𝐸[𝑥%$ ] − 𝐸 & 𝑥% 𝜇"# + 𝐸 𝜇"# 𝑁 𝑁 𝑁 ( = %&' ( 1 2 $ & 𝐸 𝑥%$ − 𝜇$ + 𝜇$ − 𝐸 & 𝑥% 𝜇"# + 𝐸 𝜇"# 𝑁 𝑁 %&' ( ( %&' 2 1 = 𝜎 $ + 𝜇$ − 𝐸 & 𝑥% & 𝑥) 𝑁 𝑁 %&' ( )&' ( ( +𝐸 ( 1 & 𝑥% 𝑁 %&' ( 1 & 𝑥% 𝑁 ( %&' ( 𝑚 = 𝑛の項が無いので𝑁 𝑁 − 1 個ある. ( 2 1 $ + 𝐸 & 𝑥 & 𝑥 + & 𝑥 𝐸 & 𝑥% & 𝑥) + & 𝑥%$ % ) % $ $ 𝑁 𝑁 %&' )*+ %&' %&' )*+ %&' 1 1 = 𝜎 $ + 𝜇$ − $ 𝑁 𝑁 − 1 𝐸$ 𝑥 + 𝑁𝐸 𝑥$ = 𝜎 $ + $ 𝑁$ 𝜇$ − 𝑁 𝑁 − 1 𝜇$ − 𝑁𝐸 𝑥$ 𝑁 𝑁 1 1 𝑁 − 1 𝑚 = 𝑛の項が無いので𝑁 𝑁 − 1 個ある. = 𝜎 $ + $ 𝑁𝜇$ − 𝑁𝐸 𝑥$ = 𝜎 $ − 𝜎 $ = 𝜎$ 𝑁 𝑁 𝑁 = 𝜎 $ + 𝜇$ −
⾚池情報量規準 • モデルを選択する基準として情報量規準を⽤いる事がある. • これは,より複雑なモデルによる過学習を避ける罰則項を⾜すことによって最 尤推定のバイアスを修正しようとするものである. • 例えば,AIC(Akaike information criterion,⾚池情報量規準)は • AIC = ln 𝑝 𝐷 𝑤*+ − 𝑀 • が最⼤となるモデルを選ぶ. ln 𝑝 𝐷 𝑤*+ は対数尤度で𝑀はパラメタ数であ る.つまり,AICは対数尤度をパラメタ数分割り引いて考えるということにな る. • 他にも,BIC(ベイズ情報量規準)などがある. • こうした規準はモデルパラメタの不確実性は考慮しておらず,実際には過度に 単純なモデルを選ぶ傾向にある(Bishop, 2006).
バイアス-バリアンス分解
モデルの複雑さ • 限られたサイズの訓練データセットを⽤いて複雑なモデルを学習すると,最尤 推定は著しく過学習する恐れがある. • しかし,過学習を避けるため単純なモデルにすると,モデルの表現能⼒が限ら れてしまう. • モデルの複雑さをどう考えるか? • ここで,𝐷次元の⼊⼒変数のベクトルxがあり,それに対し⽬標変数𝑡を予測す る回帰問題を考える. • 回帰の⽬標は,𝑁個の観測値 x' 1, … , 𝑁 と対応する⽬標値 𝑡' からなる訓練デ ータセットが与えられたとき,新しい xに対する𝑡を予測することである.
期待⼆乗損失 • 期待⼆乗損失は • 𝐸 𝐿 = ∫ ∫ 𝑦 x − 𝑡 ( 𝑝 x, 𝑡 𝑑x 𝑑𝑡 • これを最⼩とする 𝑦 x を求める.ここで • 𝐹 𝑦 = ∫ 𝐺 𝑦 𝑥 , 𝑦 ) 𝑥 , 𝑥 𝑑𝑥 • とおく.𝐺 = ∫ 𝑦 x − 𝑡 ( 𝑝 x, 𝑡 𝑑𝑡である.オイラー・ラグランジュ⽅程式より • *+ - *+ − *, -. *, ! =0 • 𝐺は𝑦 ) に依存しないから *+ • *, = 2 ∫ 𝑦 x − 𝑡 𝑝 x, 𝑡 𝑑𝑡 = 0 • よって • 𝑦 x = ∫ 01 2,0 -0 1 2 = ∫ 𝑡𝑝 t ∣ x 𝑑𝑡 = 𝐸0 [t ∣ x]
期待⼆乗損失 • よって最適な予測は • ℎ x = 𝐸 𝑡 x = ∫ 𝑡𝑝 𝑡 x 𝑑𝑡 • で与えられる.これを⽤いると期待⼆乗損失は • 𝐸 𝐿 =𝐸 𝑦 x −𝑡 $ =∫ 𝑦 x −ℎ x $ 𝑝 x 𝑑x + ∫ ∫ ℎ x − 𝑡 $ 𝑝 x, 𝑡 𝑑x 𝑑𝑡 • と書ける. • 第2項はデータに含まれる本質的なノイズのみに依存する. • 第1項は関数𝑦 𝑥 に直接依存するため,この項を最⼩にする関数𝑦 𝑥 を求めれば良 い. • 第1項は⾮負なので,これを0とにするような関数を求めるのが理想的である. • 現実にはデータは有限個なので,理想的な回帰関数ℎ x を厳密に求めることはでき ない.
期待⼆乗損失の計算 𝐸 𝐿 = 5 5 𝑦 x − 𝑡 ( 𝑝 x, 𝑡 𝑑x 𝑑𝑡 = 55 𝑦 x − ℎ x ( = 55 𝑦 x − ℎ x ( 𝑝 x, 𝑡 𝑑x 𝑑𝑡 + 2 5 5 𝑦 x − ℎ x ℎ x − 𝑡 𝑝 x, 𝑡 𝑑x 𝑑𝑡 + 5 5 ℎ x − 𝑡 ( 𝑝 x, 𝑡 𝑑x 𝑑𝑡 = 55 𝑦 x − ℎ x ( 𝑝 x, 𝑡 𝑑x 𝑑𝑡 + 2 5 5 𝑦 x − ℎ x ℎ x − 𝑡 𝑝 x, 𝑡 𝑑x 𝑑𝑡 + 5 5 ℎ x − 𝑡 ( 𝑝 x, 𝑡 𝑑x 𝑑𝑡 =5 𝑦 x −ℎ x ( +2 𝑦 x −ℎ x ℎ x − 𝑡 + ℎ x − 𝑡 ( 𝑝 x, 𝑡 𝑑x 𝑑𝑡 𝑝 x 𝑑x + 5 5 ℎ x − 𝑡 ( 𝑝 x, 𝑡 𝑑x 𝑑𝑡 + 2 5 𝑦 x − ℎ x 5ℎ x 𝑝 x, 𝑡 𝑑𝑡 𝑑x − 5 𝑦 x − ℎ x 5𝑡𝑝 x, 𝑡 𝑑𝑡 𝑑x =5 𝑦 x −ℎ x ( 𝑝 x 𝑑x + 5 5 ℎ x − 𝑡 ( 𝑝 x, 𝑡 𝑑x 𝑑𝑡 + 2 5ℎ x 𝑦 x − ℎ x 𝑑x − 5 𝑦 x − ℎ x 5𝑡𝑝 x, 𝑡 𝑑𝑡 𝑑x =5 𝑦 x −ℎ x ( 𝑝 x 𝑑x + 5 5 ℎ x − 𝑡 ( 𝑝 x, 𝑡 𝑑x 𝑑𝑡 ℎ x = 𝐸 𝑡 x = ∫ 𝑡𝑝 𝑡 x 𝑑𝑡
パラメタベクトルを考慮する • 理想的な予測ℎ x をパラメタベクトル𝑤を含む関数𝑦 x, w でモデル化する. • 任意のデータセット𝒟が与えられ,学習アルゴリズムにより予測関数𝑦 x; 𝒟 が 求められるとする. • データセットによって,得られる予測関数は異なる.つまり,⼆乗誤差も異な る. • 学習アルゴリズムの性能は,データセットのアンサンブル平均により評価され る.
期待⼆乗損失 • 期待⼆乗損失の第1項は,あるデータセット 𝒟 に対し • 𝑦 x; 𝒟 − ℎ x $ • という形をとる.これを次のように式変形する. • 𝑦 x; 𝒟 − 𝐸𝒟 𝑦 x; 𝒟 + 𝐸𝒟 𝑦 x; 𝒟 • = 𝑦 x; 𝒟 − 𝐸𝒟 𝑦 x; 𝒟 𝐸𝒟 𝑦 x; 𝒟 } 𝐸𝒟 𝑦 x; 𝒟 $ −ℎ x + 𝐸𝒟 𝑦 x; 𝒟 −ℎ x $ −ℎ x $ − 2{𝑦 x; 𝒟 −
バイアス-バリアンス分解 • 𝑦 x; 𝒟 − ℎ x $ の値はデータセットに依存する. • そこで,これのデータセットに対するx の期待値を取ると 𝐸𝒟 𝑦 x; 𝒟 − ℎ x $ = 𝐸𝒟 𝑦 x; 𝒟 −ℎ x $ + 𝐸𝒟 𝑦 x; 𝒟 − 𝐸𝒟 𝑦 x; 𝒟 バイアス $ $ バリアンス • 第1項は2乗バイアスと呼ばれ, データセットに関する予測値の期待値 𝐸𝒟 𝑦 x; 𝒟 が理想的な回帰関数 ℎ x からどれくらい離れているかの期待値を 表す. • 第2項はバリアンスと呼ばれ,各データセットに対する解 𝑦 x; 𝒟 のデータセ ットに関する予測値の期待値 𝐸𝒟 𝑦 x; 𝒟 の周りでの変動の度合いを表す. • データセットの選び⽅に対する 𝑦 x; 𝒟 の敏感さを表す.
期待値の計算 𝐸𝒟 [ 𝑦 x; 𝒟 − 𝐸𝒟 𝑦 x; 𝒟 $ + 𝐸𝒟 𝑦 x; 𝒟 − ℎ x $ − 2 𝑦 x; 𝒟 − 𝐸𝒟 𝑦 x; 𝒟 𝐸𝒟 𝑦 x; 𝒟 − ℎ x ] = 𝐸𝒟 𝑦 x; 𝒟 − 𝐸𝒟 𝑦 x; 𝒟 $ + 𝐸𝒟 𝐸𝒟 𝑦 x; 𝒟 − ℎ x − 2𝐸𝒟 𝑦 x; 𝒟 − 𝐸𝒟 𝑦 x; 𝒟 𝐸𝒟 𝑦 x; 𝒟 − ℎ x = 𝐸𝒟 𝑦 x; 𝒟 − 𝐸𝒟 𝑦 x; 𝒟 $ + 𝐸𝒟 𝐸𝒟 𝑦 x; 𝒟 − ℎ x = 𝐸𝒟 𝑦 x; 𝒟 − 𝐸𝒟 𝑦 x; 𝒟 $ + 𝐸𝒟 𝑦 x; 𝒟 − ℎ x $ 𝐸𝒟 𝑦 x; 𝒟 − 𝐸𝒟 𝑦 x; 𝒟 = 𝐸𝒟 𝑦 x; 𝒟 𝐸𝒟 𝑦 x; 𝒟 − 𝐸𝒟 𝑦 x; 𝒟 𝐸𝒟 𝑦 x; 𝒟 = 𝐸𝒟 𝑦 x; 𝒟 𝐸𝒟 𝑦 x; 𝒟 − 𝐸𝒟 𝑦 x; 𝒟 𝐸𝒟 𝑦 x; 𝒟 𝐸𝒟 𝐸𝒟 𝑦 x; 𝒟 − ℎ x " = 𝐸 𝐸𝒟" 𝑦 x; 𝒟 − 2𝐸 𝐸𝒟 𝑦 x; 𝒟 + 𝐸 ℎ" x = 𝐸𝒟" 𝑦 x; 𝒟 " = 𝐸𝒟 𝑦 x; 𝒟 −ℎ x $ $ = 𝐸𝒟 𝑦 x; 𝒟 − ℎ x − 𝐸𝒟 𝑦 x; 𝒟 ℎ x + 𝐸𝒟 𝑦 x; 𝒟 𝐸𝒟 ℎ x − 𝐸𝒟 𝑦 x; 𝒟 𝐸𝒟 ℎ x + 𝐸𝒟 𝑦 x; 𝒟 𝐸𝒟 ℎ x = 0 𝐸ℎ x − 2𝐸𝒟 𝑦 x; 𝒟 ℎ x + ℎ" x 𝐸𝒟 𝑦 x; 𝒟 ℎ x = 𝐸𝒟 𝑦 x; 𝒟 𝐸𝒟 ℎ x 𝐸𝒟 𝑦 x; 𝒟 𝐸𝒟 ℎ x と ℎ x は独⽴ 期待値の期待値𝐸 𝐸 は期待値𝐸,ℎ x は理想的でデータセットに依らないので,期待値𝐸 ℎ x =ℎ x
期待値の計算(別計算) 𝐸𝒟 𝑦 x; 𝒟 − ℎ x $ = 𝐸𝒟 𝑦 $ x; 𝒟 − 2𝐸𝒟 𝑦 x; 𝒟 ℎ x + 𝐸𝒟 ℎ$ x = 𝐸𝒟 𝑦 $ x; 𝒟 − 𝐸𝒟$ 𝑦 x; 𝒟 + 𝐸𝒟$ 𝑦 x; 𝒟 − 2𝐸𝒟 𝑦 x; 𝒟 𝐸𝒟 ℎ x + 𝐸𝒟 ℎ$ x = 𝐸𝒟 𝑦 x; 𝒟 − 𝐸𝒟 𝑦 x; 𝒟 $ + 𝐸𝒟 𝑦 x; 𝒟 − ℎ x $
⼆乗誤差とバイアスバリアンス分解 • ⼆乗誤差にバイアスバリアンス分解で得られた式を代⼊する. 𝐸𝒟,* 𝐿 = ( 𝐸𝒟 𝑦 x; 𝒟 − ℎ x 𝑝 x 𝑑x + 𝐸𝒟 𝑦 x; 𝒟 − 𝐸𝒟 𝑦 x; 𝒟 バイアス $ バリアンス $ + 𝐸𝒟,* ℎ x − 𝑡 $ ノイズ • つまり,学習の⽬標は,バイアス,バリアンス,定数であるノイズの和を最⼩ 化することである.
期待⼆乗損失の計算 𝐸𝒟 𝐿 = 𝐸𝒟 4 𝑦 x; 𝒟 − ℎ x $ 𝑝 x 𝑑x + 4 4 ℎ x − 𝑡 $ 𝑝 x, 𝑡 𝑑x 𝑑𝑡 xとDの積分を⼊れ替える. = 4𝐸𝒟 𝑦 x; 𝒟 − ℎ x $ データセットに依存しないので𝐸𝒟 が取れる 𝑝 x 𝑑x + 4 4 ℎ x − 𝑡 $ 𝑝 x, 𝑡 𝑑x 𝑑𝑡 $ + 𝐸𝒟 𝑦 x; 𝒟 − 𝐸𝒟 𝑦 x; 𝒟 $ 𝑝 x 𝑑x + 4 4 ℎ x − 𝑡 $ 𝑝 x, 𝑡 𝑑x 𝑑𝑡 = 4 𝐸𝒟 𝑦 x; 𝒟 −ℎ x = 4 𝐸𝒟 𝑦 x; 𝒟 − ℎ x 𝑝 x 𝑑x + 4𝐸𝒟 𝑦 x; 𝒟 − 𝐸𝒟 𝑦 x; 𝒟 $ 𝑝 x 𝑑x + 4 4 ℎ x − 𝑡 $ 𝑝 x, 𝑡 𝑑x 𝑑𝑡
バイアスとバリアンスのトレードオフ • バイアスとバリアンスのトレードオフの関係がある. 予測関数 1 + • 例:各訓練データセット𝒟 = 𝑙 = 1, … , 𝐿; 𝐿 = 100 に対し,正規化誤差関数を最⼩にする24個のガウス 基底関数をフィットし,予測関数𝑦 + を学習する. • 左上の図では,各訓練セットから得られた予測関数の ばらつきは⼩さい.つまり,バリアンス⼩さい.しか し,右上図では予測関数の平均は真の関数との差が⼤ きくなっている.つまり,バイアスは⼤きい. • 逆に,左下の図では,各訓練セットから得られた予測 関数のばらつきは⼤きいが,右下図では予測関数の平 均は真の関数との差は⼩さい.つまり,バリアンスは ⼤きいがバイアスは⼩さい. • 複数の書いの平均を取ることは有益かもしれない. 予測関数の平均 1 ln λ = 2.6 t ln 𝜆 = 2.6 t 0 0 バリアンス⼩ −1 0 1 x −1 1 0 −1 −1 1 x 1 0 −1 −1 バリアンス⼤ x x 1 ln 𝜆 = −2.4 t 0 0 0 1 ln λ = −2.4 t 1 t 0 0 x 1 ln λ = −0.31 t バイアス⼤ 0 1 0 バイアス⼩ x 1 緑は真の三⾓関数 ⾚は予測関数の平均
バイアスとバリアンスのトレードオフ • 訓練データセット𝒟 . 𝑙 = 1, … , 𝐿 に対する予測関数を𝑦 . 𝑥 とする.データセ ットにはデータ点が𝑁個あるとする. • 各点,各データセットに対する⼆乗誤差の平均は % % + ) $ . 𝑥 • 𝐸H = ∑+.(% ∑) ' 𝑦 ' −ℎ 𝑥 • 予測値の平均を % • 𝑦H 𝑥 = ∑+.(% 𝑦 . 𝑥 + • とすると • 𝐸H = % ) ∑) H 𝑥' − ℎ 𝑥' '(% 𝑦 バイアス $ $ % % + ) . + ∑+.(% ∑) 𝑥' − 𝑦H 𝑥' '(% 𝑦 バリアンス $
⼆乗誤差の平均の計算 # ( 1 1 & & 𝑦 5 𝑥% − ℎ 𝑥% 𝐿 𝑁 5&' = # %&' 1 1 & & 𝑦 5 𝑥% − 𝑦9 𝑥% 𝐿 𝑁 $ %&' ( ( #$% '$% %&' 1 1 = = 𝑦 # 𝑥' − 𝑦? 𝑥' 𝐿 𝑁 = ( 𝑦? 𝑥' − ℎ 𝑥' ( ( '$% '$% ( 5&' ( $ 5&' & # 1 1 = & & 𝑦 5 𝑥% − 𝑦9 𝑥% + 𝑦9 𝑥% − ℎ 𝑥% 𝐿 𝑁 1 1 & & 𝑦 5 𝑥% − 𝑦9 𝑥% 𝐿 𝑁 5&' # = $ # %&' ( 1 1 + & & 𝑦9 𝑥% − ℎ 𝑥% 𝐿 𝑁 5&' ( + $ + %&' 1 & 𝑦9 𝑥% − ℎ 𝑥% 𝑁 $ %&' & ( & ( & ( & ( #$% '$% ( #$% '$% #$% '$% #$% '$% 1 1 1 1 1 1 1 1 = = = 𝑦 # 𝑥' 𝑦? 𝑥' − = = 𝑦 # 𝑥' ℎ 𝑥' − = = 𝑦? " 𝑥' + = = 𝑦? 𝑥' ℎ 𝑥' 𝐿 𝑁 𝐿 𝑁 𝐿 𝑁 𝐿 𝑁 1 1 1 1 = 𝑦? " 𝑥' − = 𝑦? 𝑥' ℎ 𝑥' − = 𝑦? " 𝑥' + = 𝑦? 𝑥' ℎ 𝑥' = 0 𝑁 𝑁 𝑁 𝑁 '$% $ '$%
バイアスとバリアンスのトレードオフ • 図は先の式で計算したバイアス,バリアンスなどの量をプロットしたものである. • 横軸は正則化項の定数𝜆の対数で,⼤きければ⼤きいほど正則化が効きモデルが単 純化されると解釈できる. • 𝜆が⼩さければ⼩さいほど,データに当てはまりバイアスが⼩さいが,ノイズに過 剰に当てはまっているためバリアンスが⼤きくなる. • 𝜆が⼤きいとデータに当てはまらなくなりバイアスが⼤きくなる. 0.15 (bias)2 variance 2 (bias) + variance test error 0.12 0.09 0.06 0.03 0 −3 −2 −1 0 ln λ 1 2
ベイズ線形回帰
回帰モデルとガウスノイズ • ⽬標値𝑡が決定論的な関数𝑦 x, w (線形回帰モデル)と加法性のガウスノイズ 𝜖 の和から与えられるとする. • 𝑡 = 𝑦 𝐱, 𝐰 + 𝜖 • ただし, 𝜖は期待値0,精度(分散の逆数)が𝛽のガウス確率変数である.よっ て,次のように⽬標変数の分布を表すことが出来る. • 𝑝 𝑡 𝐱, 𝐰, 𝛽 = 𝑁 𝑡 𝑦 𝐱, 𝐰 , 𝛽,% • 𝐱が与えられたときの𝑡の条件付き期待値は • 𝐸 𝑡 𝐱 = ∫ 𝑡𝑝 𝑡 𝐱 𝑑𝑡 = 𝑦 𝐱, 𝐰 • となる.
最尤推定 • 𝐗 = 𝐱% , … , 𝐱 ) と対応する⽬標値𝐭 = 𝑡% , … , 𝑡) を考える. • データ点が独⽴に⽣成されたとすると,尤度関数は次のようになる. / ,% • 𝑝 𝐭 𝐗, 𝐰, 𝛽 = ∏) '(% 𝑁 𝑡' ∣ 𝐰 𝝓 𝐱 ' , 𝛽 • ここはで, 𝑦 𝐱, 𝐰 = 𝐰 / 𝝓 𝐱 ' である. • 対数尤度は • ln 𝑝 𝐭 𝐗, 𝐰, 𝛽 = ) $ % ) ln 𝛽 − ln 2𝜋 − 𝛽𝐸0 𝐰 $ 𝑻 • ここで,𝐸0 𝐰 = ∑) '(% 𝑡' − 𝐰 𝝓 𝐱 𝒏 $ $ .
対数尤度の計算 " ln 𝑝 𝐭 𝐗, 𝐰, 𝛽 = ln 6 𝑁 𝑡% ∣ 𝐰 # 𝝓 𝐱 % , 𝛽 ,! " %&! = ; ln 𝑁 𝑡% ∣ 𝐰 # 𝝓 𝐱 % , 𝛽 ,! %&! " = ; ln %&! " 1 1 exp − 𝑡% − 𝐰 # 𝝓 𝐱 % ,! ,! !/$ 2𝛽 2𝜋𝛽 1 1 = ; − ln 2𝜋𝛽 ,! − ,! 𝑡% − 𝐰 # 𝝓 𝐱 % 2 2𝛽 %&! " 𝑁 𝑁 1 = ln 𝛽 − ln 2𝜋 − 𝛽 ; 𝑡% − 𝐰 # 𝝓 𝐱 % 2 2 2 %&! 𝑁 𝑁 = ln 𝛽 − ln 2𝜋 − 𝛽𝐸. w 2 2 $ $ $
最尤推定の解 • 対数尤度の勾配は E E • ∇ ln 𝑝 𝐭 𝐰, 𝛽 = 𝛽 ∑D ABC 𝑡A − 𝐰 𝝓 𝐱 A 𝝓 𝐱 A • これを0とおくと E E • 𝛽 ∑D ABC 𝑡A − 𝐰 𝝓 𝐱 A 𝝓 𝐱 A = 0 E E E • ∑D ABC 𝑡A 𝝓 𝐱 A − 𝐰 𝝓 𝐱 A 𝝓 𝐱 A =0 • これを解くと • wFG = 𝚽 E 𝚽 HC 𝚽 E 𝐭 • ただし, • 𝚽= 𝜙I 𝐱 C 𝜙I 𝐱 ( ⋮ 𝜙I 𝐱 D 𝜙C 𝐱C 𝜙C 𝐱 ( ⋮ 𝜙C 𝐱 D … 𝜙JHC 𝐱C … 𝜙JHC 𝐱 ( ⋱ ⋮ … 𝜙JHC 𝐱 D
最尤推定の解の計算 " 𝑁 𝑁 1 ln 𝑝 𝐭 𝐗, 𝐰, 𝛽 = ln 𝛽 − ln 2𝜋 − 𝛽 ; 𝑡% − 𝐰 # 𝝓 𝐱 % 2 2 2 $ %&! " ∇ ln 𝑝 𝐭 𝐗, 𝐰, 𝛽 = −𝛽 ; 𝑡% − 𝐰 # 𝝓 𝐱 % 𝝓# 𝐱 % %&! " = −𝛽 ; 𝑡% 𝝓# 𝐱 % − 𝐰 # 𝝓 𝐱 % 𝝓# 𝐱 % %&! " " = −𝛽 ; 𝑡% 𝝓# 𝐱 % − w # ; 𝝓 𝐱 % 𝝓# 𝐱 % %&! =0 %&! " " # w/0 ; 𝝓 𝐱 % 𝝓# 𝐱 % = ; 𝑡% 𝝓# 𝐱 % %&! %&! 𝑤/0 = 𝚽 # 𝚽 ,!𝚽 # 𝐭 ただし, 𝚽= 𝜙6 𝐱 ' 𝜙6 𝐱 $ ⋮ 𝜙6 𝐱 ( 𝜙' 𝐱' 𝜙' 𝐱 $ ⋮ 𝜙' 𝐱 ( … 𝜙"7' 𝐱' … 𝜙"7' 𝐱 $ ⋱ ⋮ … 𝜙"7' 𝐱 (
𝚽𝐓 𝚽の検算 𝜙# 𝐱$ 𝜙# 𝐱 % … 𝜙# 𝐱 & 𝜙# 𝐱$ 𝜙$ 𝐱$ … 𝜙'($ 𝐱$ 𝜙$ 𝐱$ 𝜙$ 𝐱% … 𝜙$ 𝐱& 𝜙# 𝐱 % 𝜙$ 𝐱% … 𝜙'($ 𝐱% 𝚽" 𝚽 = ⋮ ⋮ ⋱ ⋮ ⋮ ⋮ ⋱ ⋮ 𝜙'($ 𝐱$ 𝜙'($ 𝐱% … 𝜙'($ 𝐱& 𝜙# 𝐱& 𝜙$ 𝐱& … 𝜙'($ 𝐱& 𝜙#% 𝐱$ + 𝜙#% 𝐱% + ⋯ 𝜙# 𝐱$ 𝜙$ 𝐱$ + 𝜙# 𝐱% 𝜙$ 𝐱% … … 𝜙# 𝐱$ 𝜙'($ 𝐱$ + ⋯ % % 𝜙$ 𝐱$ 𝜙# 𝐱$ + 𝜙$ 𝐱% 𝜙# 𝐱% + ⋯ 𝜙$ 𝐱$ + 𝜙$ 𝐱% + ⋯ … 𝜙$ 𝐱$ 𝜙'($ 𝐱$ + ⋯ = ⋮ ⋮ ⋱ ⋮ % 𝜙'($ 𝐱$ 𝜙# 𝐱$ + 𝜙'($ 𝐱% 𝜙# 𝐱% + ⋯ 𝜙'($ 𝐱$ 𝜙$ 𝐱$ + 𝜙'($ 𝐱% 𝜙$ 𝐱% + ⋯ … 𝜙'($ 𝐱$ + % 𝜙# 𝐱 ) 𝜙# 𝐱$ 𝜙$ 𝐱$ … 𝜙# 𝐱$ 𝜙'($ 𝐱$ & & % 𝜙 𝐱 𝜙 𝐱 𝜙 𝐱 … 𝜙 𝐱 𝜙 𝐱 $ ) # ) $ $ $ '($ $ $ =: = :𝝓 𝐱 𝝓 𝐱 " ⋮ ⋮ ⋱ ⋮ ) ) % 𝜙'($ 𝐱$ 𝜙# 𝐱$ 𝜙'($ 𝐱$ 𝜙$ 𝐱$ … 𝜙'($ 𝐱&
パラメタの分布 • パラメタの共役事前分布が次の形で与えられるとする. • 𝑝 𝐰 = 𝑁 𝐰 ∣ 𝐦3 , 𝐒3 • さらに,事後分布は次のように書ける. •𝑝 𝐰 𝐭 = 𝑁 𝐰 ∣ 𝐦) , 𝐒) • ただし, • 𝒎) = 𝐒) 𝐒3,% 𝒎3 + 𝛽𝚽/ 𝐭 ,% • 𝐒) = 𝐒3,% + 𝛽𝚽/ 𝚽 • 事後確率を最⼤にする重みベクトルは単純に𝐰456 = 𝒎) である. • 無限に広い事前分布𝐒3 = 𝛼 ,% 𝐈 𝛼 → 0 を考えると,事後分布の平均𝒎) は最尤 推定値w78 と⼀致する. 7' 𝛼 = 0を𝒎( ,𝐒( に代⼊すると最尤推定値と同じ式が出る.
事後分布の導出 ) ∝ [ 𝑁 𝑡' ∣ 𝐰 / 𝝓 𝐱 ' , 𝛽,% 𝑁 𝐰 ∣ 𝐦3 , 𝐒3 𝑝 𝐰 𝐭 ) '(% 1 1 $ / ln 𝑝 𝐰 𝐭 = −𝛽 \ 𝑡' − 𝐰 𝝓 𝐱 ' − 𝐰 − 𝐦3 / 𝐒3,% 𝐰 − 𝐦3 + 𝑐𝑜𝑛𝑠𝑡 2 2 '(% 1 1 / = −𝛽 𝐭 − 𝚽𝐰 𝐭 − 𝚽𝐰 − 𝐰 − 𝐦3 / 𝐒3,% 𝐰 − 𝐦3 + 𝑐𝑜𝑛𝑠𝑡 2 2 1 𝐓 𝐓 1 𝐓 ,% = −𝛽 𝐰 𝚽 𝚽𝐰 − 𝐰 𝐒3 𝐰 + 𝐰 𝐓 𝛽𝚽𝐓 𝐭 + 𝐦3 𝐒3,% + 𝑐𝑜𝑛𝑠𝑡 2 2 平⽅完成 1 = − 𝐰 𝐓 𝛽𝚽𝐓 𝚽 + 𝐒3,% 𝐰 − 𝐰 𝐓 𝛽𝚽𝐓 𝐭 + 𝐦3 𝐒3,% + 𝑐𝑜𝑛𝑠𝑡 2 / 1 ,% ,% 𝐓 = − 𝐰 − 𝐒) 𝛽𝚽 𝐭 + 𝐦3 𝐒3 𝐒) 𝐰 − 𝐒) 𝛽𝚽𝐓 𝐭 + 𝐦3 𝐒3,% + 𝑐𝑜𝑛𝑠𝑡 2 ,% 𝐒) = 𝛽𝚽𝐓 𝚽 + 𝐒3,%
簡単にする • 議論の簡単化のため,単⼀のパラメタ𝛼で記述される期待値0の等⽅ガウス分 布を考える. • 𝑝 𝐰 ∣ 𝛼 = 𝑁 𝐰 ∣ 0, 𝛼 ,% 𝐈 • このとき,対応する𝐰の事後分布は •𝑝 𝐰 𝐭 = 𝑁 𝐰 ∣ 𝐦) , 𝐒) • で与えられる.ただし, • 𝒎) = 𝛽𝐒) 𝚽/ 𝐭 ,% • 𝐒) = 𝛼 ,% 𝐈+ 𝛽𝚽/ 𝚽 • である.
事後分布の最⼤化 • 事後分布の対数は • ln 𝑝 𝐰 𝐭 % / ,% = ln ∏) 𝑁 𝐰 ∣ 0, 𝛼 ,% 𝐈 + const = '(% 𝑁 𝑡' ∣ 𝐰 𝝓 𝐱 ' , 𝛽 / − 𝛽 ∑) '(% 𝑡' − 𝐰 𝝓 𝐱 ' $ $ : − 𝐰 / 𝐰 + const $ • となる. • したがって,事後分布を𝐰について最⼤化するということは2乗誤差関数と2次 正則化項の和を最⼩化することと等価である.
ベイズ学習と事後分布の逐次的更新 • 1次元の⼊⼒変数𝑥と1次元の⽬標変数𝑡の場合を考える. • モデルは𝑦 𝑥, 𝐰 = 𝑤3 + 𝑤% 𝑥を⽤いる. • 1⾏⽬の図はデータ点が観測される前の状態である.中央の図は事前分布であ る.右の図は事前分布からランダムに6つ𝐰を得て,それを⽤いたそれぞれの 𝑦 𝑥, 𝐰 である.
ベイズ学習と事後分布の逐次的更新 • 2⾏⽬の図は右図の丸点で表されるデータ点を1つ観測した後の状態である • 左の図は,このデータ点に対する尤度関数𝑝 𝑡 𝑥, 𝐰 を表している. • 1⾏⽬の事前分布と2⾏⽬の尤度関数を掛けて正規化すれば2⾏⽬中央の事後分布 が得られる.この事後分布から得られた直線はデータ点の近くを通っている. 真のパラメタ
ベイズ学習と事後分布の逐次的更新 • 3⾏⽬の図は2つのデータ点を観測した後の 状態である. • このとき得られる事後分布は,3⾏⽬の尤 度関数と2⾏⽬の事後分布を掛けて正規化 したものである. • この事後分布を⾒ると,真のパラメタ付近 を中⼼とした不確定性が少ない鋭い分布と なっている. 真のパラメタ
モデルエビデンス
モデルエビデンス • 𝐿個のモデル ℳ< 𝑖 = 1, … , 𝐿 を⽐較する. • ここでのモデルは,観測されたデータ𝒟上の確率分布である. • モデルの不確かさは事前分布𝑝(ℳ< )として表現される. • 訓練セット𝒟が与えられたとき,次の事後分布を評価したい. • 𝑝 ℳ< 𝒟 ∝ 𝑝 ℳ< 𝑝 𝒟 ∣ ℳ< • 事前分布はモデルについてのpreferenceと⾒なすことが出来る. • ここで簡単に全てのモデルは同じ事前分布から得られると仮定する. • 𝑝 𝒟 ℳ< はモデルエビデンスと呼ばれ,データによって⽰されるモデルについて preferenceを表している. • モデルエビデンスは周辺尤度とも呼ばれる. • モデルエビデンスの⽐ 𝑝 𝒟 ℳ< /𝑝 𝒟 ℳ= はベイズ因⼦と呼ばれる.
モデル選択 • ⼀旦,モデルの事後分布が分かれば,予測分布は次の和と積のルールから導出 される. • 𝑝 𝑡 x, 𝒟 = ∑+;(% 𝑝(𝑡 ∣ x, ℳ; , 𝒟)𝑝(ℳ; ∣ 𝒟) • 予測分布は,各モデルの予測分布の事後分布 𝑝(ℳ; ∣ 𝒟) で重み付けられた加重 平均で得られる混合分布である. • モデル平均の単純な近似は,予測するために,⼀番もっともらしいモデルを⼀ つ使うことである.これはモデル選択として知られる.
モデルエビデンスとベイズ定理 • モデルがパラメタ𝑤で制御されるとき,モデルエビデンスは和と積のルールか ら次のように求まる. • 𝑝 𝒟 ∣ ℳ; = ∫ 𝑝 𝒟 w, ℳ; 𝑝 w ℳ; dw • これは,サンプリングの観点から,周辺尤度は,事前分布からランダムにサン プルされたパラメタを持つモデルがデータセット 𝒟を⽣成する確率を表す. • ⾯⽩いことに,モデルエビデンスはパラメタについての事後分布評価するとき ,ベイズ定理における分⺟に現れる規格化項となっている. • 𝑝 w 𝒟, ℳ; = < 𝒟 𝑤, ℳ; < w ℳ; < 𝒟∣ℳK
モデルエビデンスの解釈 • パラメタが⼀つしかないモデルを考える. • ベイズ定理により,パラメタの事後分布は𝑝 𝑤 𝒟 ∝ 𝑝 𝒟 ∣ 𝑤 𝑝 𝑤 と書ける . • ここで,単純に,図のように事後分布𝑝 𝑤 𝒟 が最も尤もらしい値𝑤*?@ の周 辺に鋭いピークを持つとする. • 事後分布 𝑝 𝑤 𝒟 はΔ𝑤<ABCDE;AE の幅を持っており,我々は最⼤値とピークの 幅の積で積分を近似することが出来る. wposterior 𝑝 𝑤 𝒟 𝑝 𝑤 ℳ< は省略されている. wMAP wprior w
モデルエビデンスの解釈
• さらに,事前分布は幅Δ𝑤9:;<: の平坦な分布であるとすると,𝑝 𝑤 = 1/Δ𝑤9:;<: とすることが出来る.
よって
𝑝 𝑤 𝒟 ∝ 𝑝 𝒟 ∣ 𝑤 𝑝 𝑤 だから,𝑝 𝒟 ∣ 𝑤 𝑝 𝑤 は
• 𝑝 𝒟 = ∫ 𝑝 𝒟 𝑤 𝑝 𝑤 d𝑤 ≅ ∫
9 𝒟𝑤
=>)*+,*
=>),-./*+,*
d𝑤 ≅ 𝑝 𝒟 𝑤"?@
=>)*+,*
/𝑝 𝒟 𝑤 𝑝 𝑤 d𝑤
≅ 𝑝 𝒟 𝑤!"# 𝑝 𝑤!"# Δ𝑤$%&'()*%)
𝑝 𝑤 = 1/Δ𝑤$)*%) と仮定しているから
Δ𝑤$%&'()*%)
/𝑝 𝒟 𝑤 𝑝 𝑤 d𝑤 = 𝑝 𝒟 𝑤!"#
Δ𝑤$)*%)
• が成り⽴つ.さらに,対数をとると次の式が得られる.
• ln 𝑝 𝒟 ≅ ln 𝑝 𝒟 𝑤"?@ + ln
𝑝 𝑤 𝒟 の定数倍で,関数の形は𝑝 𝑤 𝒟 と同じ形
となる.よって
=>),-./*+,*
=>)*+,*
• 第1項は,最も尤もらしいパラメタの値によるデータの当てはまり度を表し,事前分布が平坦なとき
の対数尤度に対応する.
• 第2項は,モデルの複雑さに基づいてペナルティを与えることに対応している.
• Δ𝑤9<ABC:;<: < Δ𝑤9:;<: なのでln
=>),-./*+,*
=>)*+,*
< 0であり,
=>),-./*+,*
=>)*+,*
が⼩さくなるにつれて第2項は⼩さ
くなる(負で絶対値が⼤きくなる).
• もし,事後分布において,モデルが最終的にデータにチューニングされたとすれば,罰則項は⼤きく
なる.
ℳ< は省略されている.
モデルエビデンスとパラメタ数 • モデルが𝑀個のパラメタを持つとき,それぞれのパラメタに対して順々に同様 の近似が⾏うことが出来る. • すべてのパラメタが同じ FGLMNOPQKMQ FGLQKMQ • ln 𝑝 𝒟 ≅ ln 𝑝 𝒟 w*?@ + 𝑀 ln を持つと仮定すると,次の式が得られる. FGLMNOPQKMQ FGLQKMQ • すなわち,モデルの適応パラメタの数𝑀が増えるのに⽐例し複雑なモデルに対 する罰則が⼤きくなる. • モデルが複雑になれば,モデルはデータにフィットし第1項は⼤きくなるが, 第2項の絶対値も⼤きくなる. • エビデンスの最⼤化で定義される最適な複雑さは,これら2つの項のトレード オフにより与えられる. ℳ< は省略されている.
モデルエビデンスとKLダイバージェンス • ベイズモデル⽐較の枠組では,データを⽣成する真の分布が考えているモデルのセ ットに含まれていると想定している. • これによって,我々はベイズモデル⽐較は平均的に正確なモデルを⽀持することを ⽰せる. • ここで,2つのモデル ℳ! ,ℳ$ を考える, ℳ! を正しいモデルとする. • 当然データは ℳ! から⽣成されるが,与えられた有限のデータセットにおいて正し > 𝒟 ℳ$ くないのモデルのエビデンス(ベイズ因⼦ )が⼤きくなることがある. > 𝒟 ℳ! • そこで,ベイズ因⼦をデータセットの分布に関して期待値をとる. > 𝒟ℳ • ∫ 𝑝 𝒟 ℳ! ln > 𝒟 ℳ! 𝑑𝒟 $ • この期待ベイズ因⼦は,カルバック・ライブラーダイバージェンスの例となってい る.
エビデンス近似
エビデンス近似 • モデルを完全にベイズ的に取り扱うのならば,ハイパーパラメタ𝛼,𝛽に対し ても事前分布を導⼊し,通常のパラメタ𝑤とハイパパラメタに関し周辺かして 予測を⾏うことにする. • しかし,それらすべてに対し周辺化することは難しいので,ここではパラメタ 𝑤について積分して得られた周辺尤度関数を最⼤にするようにハイパーパラメ タを近似的に決める. • この⼿法は経験ベイズ,第2種の最尤推定,⼀般化最尤推定,エビデンス近似などと 呼ばれる.
ハイパーパラメタの推定 • 𝑝 𝑡 𝐱, 𝐰, 𝛽 = 𝑁 𝑡 𝑦 𝐱, 𝐰 , 𝛽,! ,𝑝 𝐰 𝐭 , 𝛼, 𝛽 = 𝑁 𝐰 ∣ 𝐦" , 𝐒" とする.ただし ,! ,𝒎" = 𝛽𝐒" 𝚽# 𝐭,𝐒" = 𝛼 ,! 𝐈+ 𝛽𝚽# 𝚽である. • ハイパーパラメタ𝛼, 𝛽の事前分布を導⼊した予測分布は周辺化により得られる.こ こで表記の簡単課のため,𝐱を省略している. • 𝑝 𝑡 𝐭 = ∫ ∫ ∫ 𝑝 𝑡 𝐰, 𝛽 𝑝 𝐰 𝐭, 𝛼, 𝛽 𝑝 𝛼, 𝛽 𝐭 𝑑𝐰 𝑑𝛼 𝑑𝛽 R • 事後分布𝑝 𝛼, 𝛽 𝐭 が𝛼と Q 𝛽の周辺で鋭く尖っているとする.このとき,𝛼と𝛽を 𝛼と Q R 𝛽に固定し単に𝐰で周辺かするだけで予測分布を次のように近似できる. • 𝑝 𝑡 𝐭 ≃ 𝑝 𝑡 𝐭, 𝛼, Q 𝛽R = ∫ ∫ ∫ 𝑝 𝑡 𝐰, 𝛽R 𝑝 𝐰 𝐭, 𝛼, Q 𝛽R 𝑑𝐰 • ハイパーパラメタの事後分布𝑝 𝛼, 𝛽 𝐭 はベイズ定理により次のように書ける. • 𝑝 𝛼, 𝛽 𝐭 ∝ 𝑝 𝐭 𝛼, 𝛽 𝑝 𝛼, 𝛽 • 事前分布𝑝 𝛼, 𝛽 が⽐較的平坦であれば,エビデンスの枠組みで周辺尤度 𝑝 𝐭 𝛼, 𝛽 R を最⼤化することで𝛼, Q 𝛽が得られる.
EMアルゴリズム
EMアルゴリズムと尤度関数 • EMアルゴリズムは,潜在変数を持つ確率モデルの最尤解を求めるための⼀般 的な⼿法である. • すべての観測変数と潜在変数をそれぞれ𝐗, 𝐙と集合的に表した確率モデルを考 える. • 𝜽をパラメタの組として,同時確率分布𝑝 𝐗, 𝐙 𝜽 と書く. • 我々の⽬的は,次の尤度関数の最⼤化である(最尤推定でパラメタを求める ). • 尤度関数:𝑝 𝐗 𝜽 = ∑H 𝑝 𝐗, 𝐙 𝜽 データ 𝐗 が出てくる確率を最⼤にする(データ を最も説明できる)パラメタ 𝜽 を探す. • ここで,潜在変数について分布𝑞 𝐙 を導⼊する.
尤度関数 対数をとると掛け算が⾜し算になるから都合が良い場合が多い.エン トロピーやKLダイバージェンスなどの既存のmetricsも対数が多いの で対応が付きやすい.対数を取って良い理由は,対数尤度を最⼤にす るパラメタは,尤度を最⼤にするパラメタと⼀致するから. • 対数尤度は • ln 𝑝 𝐗 ∣ 𝜽 = ∑H 𝑞 𝐙 ln < 𝐗, 𝐙 𝜽 I 𝒁 • ここで KL 𝑞||𝑝 = − ∑H 𝑞 𝐙 ln − ∑H 𝑞 𝐙 ln < 𝒁∣𝑿,𝜽 I 𝒁 < 𝒁∣𝑿,𝜽 I 𝒁 , 𝐿(𝑞, 𝜃) = ∑H 𝑞 𝐙 ln < 𝑿, 𝒁 𝜽 I 𝒁 とすると • ln 𝑝 𝑿 ∣ 𝜽 = KL 𝑞||𝑝 + 𝐿(𝑞, 𝜃) 𝒁は ln 𝑝 𝑿 ∣ 𝜽 の変数でないのでln 𝑝 𝑿 ∣ 𝜽 の期待値は ln 𝑝 𝑿 ∣ 𝜽 . ln 𝑝 𝑿 ∣ 𝜽 = 𝐸+ 𝒁 ln 𝑝 𝑿 ∣ 𝜽 = 𝐸+ 𝒁 ln 𝑝 𝑿, 𝒁 𝜽 𝑝 𝒁 ∣ 𝑿, 𝜽 = 𝐸+ 𝒁 ln 𝑝 𝑿, 𝒁 𝜽 − ln 𝑝 𝒁 ∣ 𝑿, 𝜽 = 𝐸+ 𝒁 ln 𝑝 𝑿, 𝒁 𝜽 − ln 𝑝 𝒁 ∣ 𝑿, 𝜽 + ln 𝑞 𝒁 − ln 𝑞 𝒁 𝑝 𝑿, 𝒁 𝜽 𝑝 𝒁 ∣ 𝑿, 𝜽 = 𝐸+ 𝒁 ln − ln 𝑞 𝒁 𝑞 𝒁 𝑝 𝑿, 𝒁 𝜽 𝑝 𝒁 ∣ 𝑿, 𝜽 = N 𝑞 𝒁 ln − N 𝑞 𝒁 ln 𝑞 𝒁 𝑞 𝒁 𝒁 𝑝 𝑿, 𝒁 𝜽 𝑝 𝒁 ∣ 𝑿, 𝜽 ln 𝑝 𝑿 ∣ 𝜽 = N 𝑞 𝒁 ln − N 𝑞 𝒁 ln 𝑞 𝒁 𝑞 𝒁 𝒁 𝒁
尤度関数の下界 下界,下限 𝑥 ∈ 𝑆,𝑥 ≥ 𝑀を満たす𝑀を下界といい, 下界の最⼤値を下限という. • ln 𝑝 𝑿 ∣ 𝜽 = KL 𝑞||𝑝 + 𝐿(𝑞, 𝜃) • KL 𝑞||𝑝 ≥ 0だから • ln 𝑝 𝑿 ∣ 𝜽 = KL 𝑞||𝑝 + 𝐿 𝑞, 𝜃 ≥ 𝐿 𝑞, 𝜃 • つまり 𝐿 𝑞, 𝜽 は𝑞と𝜽によらず ln 𝑝 𝑿 ∣ 𝜽 の下界をなす. KL 𝑞||𝑝 ln 𝑝 𝑿 ∣ 𝜽 𝐿 𝑞, 𝜽
尤度関数の下界 • Jensenʼs不等式から下界を求めてみる. • ln 𝑝 𝑿 ∣ 𝜽 = ln ∑H 𝑝 𝑿, 𝒁 ∣ 𝜽 = ln ∑H 𝑞 𝐙 < 𝑿,𝒁∣𝜽 I 𝐙 • Jensenʼs不等式より • ln 𝑝 𝑿 ∣ 𝜽 = ln ∑H 𝑞 𝐙 < 𝑿,𝒁∣𝜽 I 𝐙 ≥ ∑H 𝑞 𝐙 ln < 𝑿,𝒁∣𝜽 I 𝐙 = 𝐿 𝑞, 𝜃 Jensen’s不等式: 𝑓(𝑥8 )が凹関数(concave)のとき 𝑝8 ≥ 0, ∑8 𝑝8 = 1のとき𝑓 ∑8 𝑝8 𝑥8 ≥ ∑8 𝑝8 𝑓 𝑥8 凸関数(convex)のときは不等号が逆.lnは凹関数(上に凸).
EMアルゴリズム,Eステップ • EMアルゴリズムでは,EステップとMステップと⾔う2つのステップの繰り返し計 算を⾏うことで最尤解を求める. k-meansでは, Eステップはセン トロイドを固定してデータ点の所 属を決める処理に対応する. • まず,現在のパラメタベクトルを𝜽JKL とする. • Eステップでは, 𝜽JKL を固定しながら𝐿 𝑞, 𝜽 を𝑞 𝐙 について最⼤化させる. • ln 𝑝 𝑿 ∣ 𝜽 ≥ 𝐿 𝑞, 𝜽 だから𝐿 𝑞, 𝜽JKL の最⼤値はln 𝑝 𝑿 ∣ 𝜽JKL と⼀致する. • また,KL 𝑞||𝑝 = 0となるとき 𝐿 𝑞, 𝜽JKL は最⼤値をとる. KL 𝑞||𝑝 = 0 KL 𝑞||𝑝 ln 𝑝 𝑿 ∣ 𝜽 𝐿 𝑞, 𝜽 𝐿 𝑞, 𝜽./0 ln 𝑝 𝑿 ∣ 𝜽./0
Mステップ • Mステップでは分布𝑞(𝒁)を固定し,下界𝐿 𝑞, 𝜽 を𝜽について最⼤化し,新しい 𝜽OPQ を得る. k-meansでは, Mステッ プはデータ点の所属を固 定しセントロイドを求め る処理に対応する. • 𝐿 𝑞, 𝜽 が増えるので,対数尤度ln 𝑝 𝑿 ∣ 𝜽OPQ も増加する. • KL 𝑞 𝒁 ||𝑝 𝒁 ∣ 𝑿, 𝜽RST = 0から KL 𝑞 𝒁 ||𝑝 𝒁 ∣ 𝑿, 𝜽OPQ に変わるため KL 𝑞| 𝑝 も増える. KL 𝑞||𝑝 ln 𝑝 𝑿 ∣ 𝜽 KL 𝑞||𝑝 KL 𝑞||𝑝 = 0 ln 𝑝 𝑿 ∣ 𝜽./0 𝐿 𝑞, 𝜽123 ln 𝑝 𝑿 ∣ 𝜽123 𝐿 𝑞, 𝜽./0 𝐿 𝑞, 𝜽 更新前 Eステップ後 Mステップ後
Eステップ後の下界 • EステップでKL 𝑞||𝑝 = − ∑M 𝑞 𝐙 ln > 𝒁∣𝑿,𝜽TUV O 𝒁 = 0となったので, • 𝑞 𝐙 = 𝑝 𝒁 ∣ 𝑿, 𝜽JKL • これを下界𝐿 𝑞, 𝜽 に代⼊すると 𝐿 𝑞, 𝜽 = & 𝑞 𝐙 ln W 𝑝 𝑿, 𝒁 𝜽 𝑝 𝑿, 𝒁 𝜽 = & 𝑝 𝒁 ∣ 𝑿, 𝜽XYZ ln 𝑞 𝒁 𝑝 𝒁 ∣ 𝑿, 𝜽XYZ W = & 𝑝 𝒁 ∣ 𝑿, 𝜽XYZ ln 𝑝 𝑿, 𝒁 𝜽 − & 𝑝 𝒁 ∣ 𝑿, 𝜽XYZ ln 𝑝 𝒁 ∣ 𝑿, 𝜽XYZ W W = 𝐸9 𝒁∣𝑿,𝜽9:; ln 𝑝 𝑿, 𝒁 𝜽 − 𝐸9 𝒁∣𝑿,𝜽9:; ln 𝑝 𝒁 ∣ 𝑿, 𝜽XYZ = 𝐸9 𝒁∣𝑿,𝜽9:; ln 𝑝 𝑿, 𝒁 𝜽 + 𝐻 𝑝 𝒁 ∣ 𝑿, 𝜽XYZ 完全データ対数尤度の期待値 エントロピー • つまり,𝐿 𝑞, 𝜃 は完全データ対数尤度の期待値とエントロピーの和になっている. • この式からMステップでは完全データ対数尤度の期待値の最⼤化が⾏われる 事がわかる. 𝑝 𝑿, 𝒁 𝜽 がlnの中にあるので, 𝑝 𝑿, 𝒁 𝜽 が指数型分布族の要素やそれらの積であれば,計算が楽ちんだな.
パラメタ𝜽についてのEMアルゴリズム • パラメタ𝜽の事前分布𝑝 𝜽 を導⼊したモデルを考える. • これは,事後分布𝑝(𝜽 ∣ 𝑿)を最⼤化する⽬的にも使える. • ln 𝑝 𝜽 ∣ 𝑿 = KL 𝑞||𝑝 + 𝐿 𝑞, 𝜽 + ln 𝑝 𝜽 − ln 𝑝 𝑿 • ln 𝑝 𝜽 ∣ 𝑿 ≥ 𝐿 𝑞, 𝜽 + ln 𝑝 𝜽 − ln 𝑝 𝑿 • ln 𝑝 𝑿 は定数である. 𝑝 𝜽, 𝑿 = ln 𝑝 𝜽, 𝑿 − ln 𝑞 𝑿 = ln 𝑝 𝑿 ∣ 𝜽 𝑝 𝜽 − ln 𝑞 𝑿 𝑞𝑋 = ln 𝑝 𝑿 ∣ 𝜽 + ln 𝑝 𝜽 − ln 𝑞 𝑿 = KL 𝑞||𝑝 + 𝐿 𝑞, 𝜃 + ln 𝑝 𝜽 − ln 𝑞 𝑿 ≥ 𝐿 𝑞, 𝜃 + ln 𝑝 𝜽 − ln 𝑞 𝑿 ln 𝑝 𝜽 ∣ 𝑿 = ln • ここでも,先程同様,右辺を𝑞と𝜽について交互に最適化できる. • Eステップでは,𝑞が𝐿 𝑞, 𝜽 にしか現れないので先程と同様である. • Mステップは,𝐿 𝑞, 𝜽 + 𝑝 𝜽 の最⼤化を⾏う.
ELBO
確率モデルの中⼼タスク • 確率モデルを適⽤する際の中⼼的なタスクは,観測データ𝑿が与えられたとき の潜在変数𝑍の事後分布𝑝 𝒁 𝑿 を求めること,及びこの分布を使った期待値 を求めることである. • 完全にベイズ的なモデルの場合は,すべての未知パラメタは事前分布を与えら れ,𝒁で表される潜在変数ベクトルの中に含まれている.
近似の必要性 • EMアルゴリズムでは,完全データの対数尤度の期待値を,潜在変数の事後分 布に従ってとる必要がある. ln 𝑝 𝑿 ∣ 𝜽 = KL 𝑞||𝑝 + 𝐿 𝑞, 𝜃 𝐿 𝑞, 𝜃 = 𝐸> 𝒁∣𝑿,𝜽TUV ln 𝑝 𝑿, 𝒁 𝜽 + 𝐻 𝑝 𝒁 ∣ 𝑿, 𝜽JKL 事後分布 完全データの対数尤度の期待値 • 実際には,興味ある多くのモデルでは事後分布を求めることや,その事後分布 に従った期待値を計算することは不可能なことが多い. 𝑝 𝑍 𝑋 = 𝑝 𝑋 𝑍 𝑝 𝑍 𝑝 𝑋 𝑝 𝑋 = 4𝑝 𝑋 𝑍 𝑝 𝑍 𝑑𝑍 この観測値についての周辺分布はEvidenceと呼ば れる.この周辺化の計算は困難な場合が多い.
⽬的 • すべてのパラメタが事前分布で与えられた完全にベイズ的なモデルがあるとす る. • モデルにはパラメタの他に潜在変数がある可能性があり,それらすべてを𝒁と 書く. • また,観測変数を𝑿と書く. • 𝑁個データがある場合, • 𝑿 = 𝒙% , … , 𝒙) , 𝒁 = 𝒛% , … , 𝒛) • 確率モデルによって同時分布𝑝 𝑿, 𝒁 が定められ,⽬的は事後分布𝑝 𝒁 𝑿 およ びモデルエビデンス𝑝 𝑿 の近似を求めることである.
ELBO • モデルエビデンスの対数は • ln 𝑝 𝑿 = 𝐿(𝑞) + KL 𝑞||𝑝 • と分解できる. • これも KL 𝑞||𝑝 ≥ 0なので ln 𝑝 𝑿 = 𝐸+ 𝒁 ln 𝑝 𝑿 𝑞(𝒁)𝑝 𝒁 𝑿 𝑝 𝑿 = 𝐸+ 𝒁 ln 𝑞(𝒁)𝑝 𝒁 𝑿 𝑞(𝒁)𝑝 𝑿, 𝒁 = 𝐸+ 𝒁 ln 𝑞(𝒁)𝑝 𝒁 𝑿 𝑝 𝑿, 𝒁 𝑝 𝒁 𝑿 = 𝐸+ 𝒁 ln − ln 𝑞(𝒁) 𝑞(𝒁) = 𝐿(𝑞, 𝜃) + KL 𝑞||𝑝 • ln 𝑝 𝑿 = 𝐿 𝑞 + KL 𝑞||𝑝 ≥ 𝐿 𝑞 • となり, 𝐿 𝑞 がモデルエビデンスの対数の下界となる. • このため, 𝐿 𝑞 はELBO(Evidence Lower BOund)と呼ばれる. • ELBOは確率分布𝑞を⼊⼒とする汎関数である. • ELBOを最⼩化する際,これの汎関数微分を考える必要がある.