180 Views
February 19, 26
スライド概要
近似推論 公立小松大学 藤田一寿 PRMLの近似推論の部分をまとめたものです. 個人的に不要なところは飛ばしています. 途中式が書いてあります.
EMアルゴリズム
EMアルゴリズムと尤度関数 • EMアルゴリズムは,潜在変数を持つ確率モデルの最尤解を求めるため の一般的な手法である. • すべての観測変数と潜在変数をそれぞれ𝐗, 𝐙と集合的に表した確率モデ ルを考える. • 𝜽をパラメタの組として,同時確率分布𝑝 𝐗, 𝐙 𝜽 と書く. • 我々の目的は,次の尤度関数の最大化である(最尤推定でパラメタを求 データ 𝐗 が出てくる確率を最大にする(データ める). を最も説明できる)パラメタ 𝜽 を探す. • 尤度関数:𝑝 𝐗 𝜽 = σ𝑍 𝑝 𝐗, 𝐙 𝜽 • ここで,潜在変数について分布𝑞 𝐙 を導入する.
尤度関数 対数をとると掛け算が足し算になるから都合が良い場合が多い.エン トロピーやKLダイバージェンスなどの既存のmetricsも対数が多いの で対応が付きやすい.対数を取って良い理由は,対数尤度を最大にす るパラメタは,尤度を最大にするパラメタと一致するから. • 対数尤度は • ln 𝑝 𝐗 ∣ 𝜽 = σ𝑍 𝑞 𝐙 ln 𝑝 𝐗, 𝐙 𝜽 𝑞 𝒁 • ここで KL 𝑞||𝑝 = − σ𝑍 𝑞 𝐙 ln − σ𝑍 𝑞 𝐙 ln 𝑝 𝒁∣𝑿,𝜽 𝑞 𝒁 𝑝 𝒁∣𝑿,𝜽 𝑞 𝒁 , 𝐿(𝑞, 𝜃) = σ𝑍 𝑞 𝐙 ln 𝑝 𝑿, 𝒁 𝜽 𝑞 𝒁 と すると 𝒁は ln 𝑝 𝑿 ∣ 𝜽 の変数でないのでln 𝑝 𝑿 ∣ 𝜽 の期待値は ln 𝑝 𝑿 ∣ 𝜽 . • ln 𝑝 𝑿 ∣ 𝜽 = KL 𝑞||𝑝 + 𝐿(𝑞, 𝜃) ln 𝑝 𝑿 ∣ 𝜽 = 𝐸𝑞 𝒁 ln 𝑝 𝑿 ∣ 𝜽 = 𝐸𝑞 𝒁 ln 𝑝 𝑿, 𝒁 𝜽 𝑝 𝒁 ∣ 𝑿, 𝜽 = 𝐸𝑞 𝒁 ln 𝑝 𝑿, 𝒁 𝜽 − ln 𝑝 𝒁 ∣ 𝑿, 𝜽 = 𝐸𝑞 𝒁 ln 𝑝 𝑿, 𝒁 𝜽 − ln 𝑝 𝒁 ∣ 𝑿, 𝜽 + ln 𝑞 𝒁 − ln 𝑞 𝒁 𝑝 𝑿, 𝒁 𝜽 𝑝 𝒁 ∣ 𝑿, 𝜽 = 𝐸𝑞 𝒁 ln − ln 𝑞 𝒁 𝑞 𝒁 𝑝 𝑿, 𝒁 𝜽 𝑝 𝒁 ∣ 𝑿, 𝜽 = 𝑞 𝒁 ln − 𝑞 𝒁 ln 𝑞 𝒁 𝑞 𝒁 𝑍 𝒁 𝑝 𝑿, 𝒁 𝜽 𝑝 𝒁 ∣ 𝑿, 𝜽 ln 𝑝 𝑿 ∣ 𝜽 = 𝑞 𝒁 ln − 𝑞 𝒁 ln 𝑞 𝒁 𝑞 𝒁 𝒁 𝒁
尤度関数の下界 下界,下限 𝑥 ∈ 𝑆,𝑥 ≥ 𝑀を満たす𝑀を下界といい, 下界の最大値を下限という. • ln 𝑝 𝑿 ∣ 𝜽 = KL 𝑞||𝑝 + 𝐿(𝑞, 𝜃) • KL 𝑞||𝑝 ≥ 0だから • ln 𝑝 𝑿 ∣ 𝜽 = KL 𝑞||𝑝 + 𝐿 𝑞, 𝜃 ≥ 𝐿 𝑞, 𝜃 • つまり 𝐿 𝑞, 𝜽 は𝑞と𝜽によらず ln 𝑝 𝑿 ∣ 𝜽 の下界をなす. KL 𝑞||𝑝 ln 𝑝 𝑿 ∣ 𝜽 𝐿 𝑞, 𝜽
尤度関数の下界 • Jensen’s不等式から下界を求めてみる. • ln 𝑝 𝑿 ∣ 𝜽 = ln σ𝑍 𝑝 𝑿, 𝒁 ∣ 𝜽 = ln σ𝑍 𝑞 𝐙 𝑝 𝑿,𝒁∣𝜽 𝑞 𝐙 • Jensen’s不等式より • ln 𝑝 𝑿 ∣ 𝜽 = ln σ𝑍 𝑞 𝐙 𝑝 𝑿,𝒁∣𝜽 𝑞 𝐙 ≥ σ𝑍 𝑞 𝐙 ln 𝑝 𝑿,𝒁∣𝜽 𝑞 𝐙 = 𝐿 𝑞, 𝜃 Jensen’s不等式: 𝑓(𝑥𝑖 )が凹関数(concave)のとき 𝑝𝑖 ≥ 0, σ𝑖 𝑝𝑖 = 1のとき𝑓 σ𝑖 𝑝𝑖 𝑥𝑖 ≥ σ𝑖 𝑝𝑖 𝑓 𝑥𝑖 凸関数(convex)のときは不等号が逆.lnは凹関数(上に凸).
EMアルゴリズム,Eステップ • EMアルゴリズムでは,EステップとMステップと言う2つのステップの繰り返し計 算を行うことで最尤解を求める. k-meansでは, Eステップはセン トロイドを固定してデータ点の所 属を決める処理に対応する. • まず,現在のパラメタベクトルを𝜽old とする. • Eステップでは, 𝜽old を固定しながら𝐿 𝑞, 𝜽 を𝑞 𝐙 について最大化させる. • ln 𝑝 𝑿 ∣ 𝜽 ≥ 𝐿 𝑞, 𝜽 だから𝐿 𝑞, 𝜽old の最大値はln 𝑝 𝑿 ∣ 𝜽old と一致する. • また,KL 𝑞||𝑝 = 0となるとき 𝐿 𝑞, 𝜽old は最大値をとる. KL 𝑞||𝑝 = 0 KL 𝑞||𝑝 ln 𝑝 𝑿 ∣ 𝜽 𝐿 𝑞, 𝜽 𝐿 𝑞, 𝜽old ln 𝑝 𝑿 ∣ 𝜽old
Mステップ • Mステップでは分布𝑞(𝒁)を固定し,下界𝐿 𝑞, 𝜽 を𝜽について最大化し, 新しい𝜽new を得る. k-meansでは, Mステッ new • 𝐿 𝑞, 𝜽 が増えるので,対数尤度ln 𝑝 𝑿 ∣ 𝜽 • KL 𝑞 𝒁 ||𝑝 𝒁 ∣ 𝑿, 𝜽old も増加する. プはデータ点の所属を固 定しセントロイドを求め る処理に対応する. = 0から KL 𝑞 𝒁 ||𝑝 𝒁 ∣ 𝑿, 𝜽new に変わるた めKL 𝑞| 𝑝 も増える. KL 𝑞||𝑝 ln 𝑝 𝑿 ∣ 𝜽 KL 𝑞||𝑝 KL 𝑞||𝑝 = 0 ln 𝑝 𝑿 ∣ 𝜽old 𝐿 𝑞, 𝜽new ln 𝑝 𝑿 ∣ 𝜽new 𝐿 𝑞, 𝜽old 𝐿 𝑞, 𝜽 更新前 Eステップ後 Mステップ後
Eステップ後の下界 • EステップでKL 𝑞||𝑝 = − σ𝑍 𝑞 𝐙 ln 𝑝 𝒁∣𝑿,𝜽old 𝑞 𝒁 = 0となったので, • 𝑞 𝐙 = 𝑝 𝒁 ∣ 𝑿, 𝜽old • これを下界𝐿 𝑞, 𝜽 に代入すると 𝐿 𝑞, 𝜽 = 𝑞 𝐙 ln 𝑍 𝑝 𝑿, 𝒁 𝜽 𝑝 𝑿, 𝒁 𝜽 = 𝑝 𝒁 ∣ 𝑿, 𝜽old ln 𝑞 𝒁 𝑝 𝒁 ∣ 𝑿, 𝜽old 𝑍 = 𝑝 𝒁 ∣ 𝑿, 𝜽old ln 𝑝 𝑿, 𝒁 𝜽 − 𝑝 𝒁 ∣ 𝑿, 𝜽old ln 𝑝 𝒁 ∣ 𝑿, 𝜽old 𝑍 𝑍 = 𝐸𝑝 𝒁∣𝑿,𝜽old ln 𝑝 𝑿, 𝒁 𝜽 − 𝐸𝑝 𝒁∣𝑿,𝜽old ln 𝑝 𝒁 ∣ 𝑿, 𝜽old = 𝐸𝑝 𝒁∣𝑿,𝜽old ln 𝑝 𝑿, 𝒁 𝜽 + 𝐻 𝑝 𝒁 ∣ 𝑿, 𝜽old 完全データ対数尤度の期待値 エントロピー • つまり,𝐿 𝑞, 𝜃 は完全データ対数尤度の期待値とエントロピーの和になっている. • この式からMステップでは完全データ対数尤度の期待値の最大化が行われる事がわ かる. 𝑝 𝑿, 𝒁 𝜽 がlnの中にあるので, 𝑝 𝑿, 𝒁 𝜽 が指数型分布族の要素やそれらの積であれば,計算が楽ちんだな.
パラメタ𝜽についてのEMアルゴリズム • パラメタ𝜽の事前分布𝑝 𝜽 を導入したモデルを考える. • これは,事後分布𝑝(𝜽 ∣ 𝑿)を最大化する目的にも使える. • ln 𝑝 𝜽 ∣ 𝑿 = KL 𝑞||𝑝 + 𝐿 𝑞, 𝜽 + ln 𝑝 𝜽 − ln 𝑝 𝑿 • ln 𝑝 𝜽 ∣ 𝑿 ≥ 𝐿 𝑞, 𝜽 + ln 𝑝 𝜽 − ln 𝑝 𝑿 • ln 𝑝 𝑿 は定数である. 𝑝 𝜽, 𝑿 = ln 𝑝 𝜽, 𝑿 − ln 𝑞 𝑿 = ln 𝑝 𝑿 ∣ 𝜽 𝑝 𝜽 − ln 𝑞 𝑿 𝑞 𝑋 = ln 𝑝 𝑿 ∣ 𝜽 + ln 𝑝 𝜽 − ln 𝑞 𝑿 = KL 𝑞||𝑝 + 𝐿 𝑞, 𝜃 + ln 𝑝 𝜽 − ln 𝑞 𝑿 ≥ 𝐿 𝑞, 𝜃 + ln 𝑝 𝜽 − ln 𝑞 𝑿 ln 𝑝 𝜽 ∣ 𝑿 = ln • ここでも,先程同様,右辺を𝑞と𝜽について交互に最適化できる. • Eステップでは,𝑞が𝐿 𝑞, 𝜽 にしか現れないので先程と同様である. • Mステップは,𝐿 𝑞, 𝜽 + 𝑝 𝜽 の最大化を行う.
近似推論
確率モデルの中心タスク • 確率モデルを適用する際の中心的なタスクは,観測データ𝑿が与えら れたときの潜在変数𝑍の事後分布𝑝 𝒁 𝑿 を求めること,及びこの分布 を使った期待値を求めることである. • 完全にベイズ的なモデルの場合は,すべての未知パラメタは事前分布 を与えられ,𝒁で表される潜在変数ベクトルの中に含まれている.
近似の必要性 • EMアルゴリズムでは,完全データの対数尤度の期待値を,潜在変数の 事後分布に従ってとる必要がある. ln 𝑝 𝑿 ∣ 𝜽 = KL 𝑞||𝑝 + 𝐿 𝑞, 𝜃 𝐿 𝑞, 𝜃 = 𝐸𝑝 𝒁∣𝑿,𝜽old ln 𝑝 𝑿, 𝒁 𝜽 + 𝐻 𝑝 𝒁 ∣ 𝑿, 𝜽old 事後分布 完全データの対数尤度の期待値 • 実際には,興味ある多くのモデルでは事後分布を求めることや,その 事後分布に従った期待値を計算することは不可能なことが多い. 𝑝 𝑍 𝑋 = 𝑝 𝑋 𝑍 𝑝 𝑍 𝑝 𝑋 𝑝 𝑋 = න𝑝 𝑋 𝑍 𝑝 𝑍 𝑑𝑍 この観測値についての周辺分布はEvidenceと呼ば れる.この周辺化の計算は困難な場合が多い.
変分推論 ELBOやKLダイバージェンスなどが汎関数で,それを最大化or最小化する近似解(関数)を求める際変分法を使うから変分推論.
目的 • すべてのパラメタが事前分布で与えられた完全にベイズ的なモデルが あるとする. • モデルにはパラメタの他に潜在変数がある可能性があり,それらすべ てを𝒁と書く. • また,観測変数を𝑿と書く. • 𝑁個データがある場合, • 𝑿 = 𝒙1 , … , 𝒙𝑁 , 𝒁 = 𝒛1 , … , 𝒛𝑁 • 確率モデルによって同時分布𝑝 𝑿, 𝒁 が定められ,目的は事後分布 𝑝 𝒁 𝑿 およびモデルエビデンス𝑝 𝑿 の近似を求めることである.
ELBO • モデルエビデンスの対数は • ln 𝑝 𝑿 = 𝐿(𝑞) + KL 𝑞||𝑝 • と分解できる. ln 𝑝 𝑿 = 𝐸𝑞 𝒁 ln 𝑝 𝑿 𝑞(𝒁)𝑝 𝒁 𝑿 𝑝 𝑿 = 𝐸𝑞 𝒁 ln 𝑞(𝒁)𝑝 𝒁 𝑿 𝑞(𝒁)𝑝 𝑿, 𝒁 = 𝐸𝑞 𝒁 ln 𝑞(𝒁)𝑝 𝒁 𝑿 𝑝 𝑿, 𝒁 𝑝 𝒁 𝑿 = 𝐸𝑞 𝒁 ln − ln 𝑞(𝒁) 𝑞(𝒁) = 𝐿(𝑞) + KL 𝑞||𝑝 • これも KL 𝑞||𝑝 ≥ 0なので • ln 𝑝 𝑿 = 𝐿 𝑞 + KL 𝑞||𝑝 ≥ 𝐿 𝑞 • となり, 𝐿 𝑞 がモデルエビデンスの対数の下界となる. • このため, 𝐿 𝑞 はELBO(Evidence Lower BOund)と呼ばれる. • ELBOは確率分布𝑞を入力とする汎関数である. • ELBOを𝑞について最大化する際,これの汎関数微分を考える必要がある.
平均場近似 • 𝒁をいくつかの排反なグループに分割し,𝒁𝑖 𝑖 = 1, … , 𝑀 と書くことに する.分布 𝑞 𝒁 もこれらのグループに分解できると仮定すると • 𝑞 𝒁 = ς𝑀 𝑖=1 𝑞𝑖 𝒁𝑖 変分推論においてこうした分解された形を用いる ことは,物理での平均場近似と呼ばれる近似法に 対応している. • となる. • そうすると 𝐿 𝑞 は • 𝐿 𝑞 = 𝒁 𝑞 ln 𝑝 𝑿,𝒁 𝑞 𝒁 𝒁 = 𝒛1 , 𝑝 𝑿,𝒁 𝑑𝒁 = ς𝑀 𝑖=1 𝑞𝑖 𝒁𝑖 ln ς𝑀 𝑖=1 𝑞𝑖 𝒁𝑖 … , 𝒛𝑖 , 𝑑𝒁 … , 𝒛𝑁 データを𝑀個に分割する. 𝒁1 = {𝒛1 , … } 𝒁2 = {… , 𝒛𝑖 , … } 𝒁𝑀 = {… , 𝒛𝑁 }
𝐿 𝑞 の最大化 • すべての因子について同時に最適化出来ないので,それぞれの因子に ついて順番に最適化を行う. • そのために 𝐿 𝑞 を𝑞𝑗 𝒁𝑗 に依存する項のみで表すと, • 𝐿 𝑞𝑗 = 𝑗𝒁 𝑗𝑞 ln 𝑝 𝑿, 𝒁𝑗 𝑑𝒁𝑗 − 𝑗𝒁 𝑗𝑞 ln 𝑞𝑗 𝒁𝑗 𝑑𝒁𝑗 + const • となる. • ただし • ln 𝑝 𝑿, 𝒁𝑗 = ς𝑀 𝑖≠𝑗 𝑞𝑖 𝒁𝑖 ln 𝑝 𝑿, 𝒁 𝑑𝒁𝑖≠𝑗 = 𝐸𝑞𝑖≠𝑗 ln 𝑝 𝑿, 𝒁 + const
計算の詳細 𝑀 𝑀 𝑖=1 𝑖=1 𝑀 𝑝 𝑿, 𝒁 𝑝 𝑿, 𝒁 𝐿 𝑞 = න 𝑞 𝒁 ln 𝑑𝒁 = න ෑ 𝑞𝑖 𝒁𝑖 ln 𝑀 𝑑𝒁 = න ෑ 𝑞𝑖 𝑍𝑖 𝑞 𝒁 ς𝑖=1 𝑞𝑖 𝒁𝑖 𝑀 𝑀 = න ෑ 𝑞𝑖 𝒁𝑖 ln 𝑝 𝑿, 𝒁 − ln 𝑞𝑖 𝒁𝑖 𝑖=1 𝑀 𝑑𝒁 = න ෑ 𝑞𝑖 𝒁𝑖 = න 𝑞𝑗 𝒁𝑗 ෑ 𝑞𝑖 𝒁𝑖 𝑖≠𝑗 𝑖=1 𝑖=1 ln 𝑝 𝑿, 𝒁 𝑑𝒁 − න 𝑞𝑗 𝒁𝒋 ෑ 𝑞𝑖 𝒁𝑖 𝒁𝑗 の積分だけを外にだす. 𝑖≠𝑗 න ෑ 𝑞𝑖 𝒁𝑖 ln 𝑞𝑖 𝒁𝑖 𝑖=0 𝒁𝑗 に関係するものとそれ以外を分ける. ln 𝑞𝑗 𝒁𝑗 + ln 𝑞𝑖 𝒁𝑖 𝑑𝒁 𝑖≠𝑗 𝑀 ln 𝑝 𝑿, 𝒁 𝑑𝒁𝑖≠𝑗 𝑑𝒁𝑗 − න 𝑞𝑗 𝒁𝑗 ෑ 𝑞𝑖 𝒁𝑖 𝑝 𝑿, 𝒁𝑗 にする. 𝑀 = න𝑞𝑗 𝒁𝑗 𝑝 𝑿, 𝒁𝑗 𝑑𝒁𝑗 − න 𝑞𝑗 𝒁𝑗 ln 𝑞𝑗 𝒁𝑗 𝑀 𝑀 න ෑ 𝑞𝑖 𝒁𝑖 𝑑𝒁𝑖≠𝑗 𝑑𝒁𝑗 − න ෑ 𝑞𝑖 𝒁𝑖 𝑖≠𝑗 =1 𝑀 ln 𝑞𝑗 𝒁𝑗 𝑑𝒁 − න 𝑞𝑗 𝒁𝑗 ෑ 𝑞𝑖 𝒁𝑖 𝒁𝑗 の積分だけを外にだす. 𝑖≠𝑗 𝑖≠𝑗 𝑑𝒁 𝑀 𝑀 = න 𝑞𝑗 𝒁𝑗 𝑀 ln 𝑝 𝑿, 𝒁 𝑑𝒁 − න ෑ 𝑞𝑖 𝒁𝑖 𝑀 𝑑𝒁 𝑖=1 𝑀 𝑖=0 𝑀 ln 𝑝 𝑿, 𝒁 − ln ෑ 𝑞𝑖 𝒁𝑖 𝑖≠𝑗 𝑖≠𝑗 ln 𝑞𝑖 𝒁𝑖 𝑖≠𝑗 𝒁𝑗 の積分だけをまとめる. 𝑀 ln 𝑞𝑖 𝒁𝑖 𝑖≠𝑗 න𝑞𝑗 𝒁𝑗 𝑑𝒁𝑗 𝑑𝒁𝑖 =1 jには依存しないので,jにとっては定数. = න𝑞 𝒁 𝑝 𝑿, 𝒁 𝑑𝒁 − න𝑞 𝒁 ln 𝑞 𝒁 𝑑𝒁 + const 𝑑𝒁
最適解 𝑞𝑗∗ • 𝐿(𝑞)を{𝑞𝑖≠𝑗 }を固定した上で𝑞𝑗 (𝒁𝑗 )について最大化する. 𝐿 𝑞𝑗 = න𝑞𝑗 𝑍𝑗 ln 𝑝 𝑿, 𝒁𝑗 𝑑𝒁𝑗 − න𝑞𝑗 𝑍𝑗 ln 𝑞𝑗 𝑍𝑗 𝑑𝒁𝑗 + const = න 𝑞𝑗 𝑍𝑗 = න 𝑞𝑗 𝑍𝑗 ln 𝑝 𝑿, 𝒁𝑗 𝑞𝑗 𝑍𝑗 ln 𝑝 𝑿, 𝒁𝑗 ln 𝑞𝑗 𝑍𝑗 𝑑𝒁𝑗 + const 𝑑𝒁𝑗 + const = −KL 𝑞𝑗 𝑍𝑗 ||𝑝 𝑿, 𝒁𝑗 + const • つまり,𝐿 𝑞𝑗 = −KL 𝑞𝑗 𝑍𝑗 ||𝑝 𝑿, 𝒁𝑗 を最大化すれば良い.KLダイバー ジェンスは0以上なので, 𝐿 𝑞𝑗 が最大となるのはKLダイバージェンスが0 となる 𝑞𝑗∗ 𝑍𝑗 = 𝑝 𝑿, 𝒁𝑗 のときである.よって • ln 𝑞𝑗∗ 𝑍𝑗 = ln 𝑝 𝑿, 𝒁𝑗 = 𝐸𝑞𝑖≠𝑗 ln 𝑝 𝑿, 𝒁 • ここで𝑞𝑗∗ を最適解とする. + const
最適解 𝑞𝑗∗ • ln 𝑞𝑗∗ 𝑍𝑗 = 𝐸𝑞𝑖≠𝑗 ln 𝑝 𝑿, 𝒁 + const • 𝑞𝑗∗ 𝑍𝑗 = exp 𝐸𝑞𝑖≠𝑗 ln 𝑝 𝑿, 𝒁 + const = 𝐴 exp 𝐸𝑞𝑖≠𝑗 ln 𝑝 𝑿, 𝒁 • 𝑞𝑗∗ 𝑍𝑗 は1に正規化されているので𝐴は正規化定数である.つまり • 𝑞𝑗∗ 𝑍𝑗 = exp 𝐸𝑞𝑖≠𝑗 ln 𝑝 𝑿,𝒁 exp 𝐸𝑞𝑖≠𝑗 ln 𝑝 𝑿,𝒁 𝑑𝒁𝑗 • となる. • これで𝑞𝑗∗ が求まったように見える.しかし,右辺には最適解ではない 𝑞𝑖≠𝑗 があるため,𝑞𝑗∗ は最適解になっていない.すべての因子 𝑞𝑖 につい て繰り返し計算することで最適解に近づける.
ガウス分布を用いた分布の分 解の例
ガウス分布の例 • ガウス分布を2つに分解してみる. • 相関がある2変数𝒛 = 𝑧1 + 𝑧2 についてガウス分布𝑝 𝒛 = 𝑁 𝒛 𝝁, Λ−1 を考える. • 2次元ガウス分布なので,平均と精度行列はそれぞれ次のようになる. 𝜇1 Λ11 • 𝝁 = 𝜇 ,Λ = Λ21 2 Λ12 . Λ22 • 精度行列は対称なのでΛ12 = Λ21 である. • このガウス分布を𝑞 𝑧 = 𝑞1 𝑧1 𝑞2 𝑧2 と近似しよう.
最適な因子を求める • 最適な因子 𝑞1∗ 𝑧1 は ln 𝑞1∗ 𝑧1 = 𝐸𝑞2 ln 𝑝 𝒛 + const = 𝐸𝑞2 ln 𝐶 exp − 1 𝒛 − 𝝁 TΛ 𝒛 − 𝝁 2 + const 1 Λ11 Λ12 𝑧1 − 𝜇1 𝑧1 − 𝜇1 , 𝑧2 − 𝜇2 + const Λ21 Λ22 𝑧2 − 𝜇2 2 𝐸𝑞𝑧2 [𝐶]は定数なのでconstに吸収される. 1 𝑧1 − 𝜇1 Λ11 + 𝑧2 − 𝜇2 Λ21 𝑧1 − 𝜇1 = 𝐸𝑞2 − + const 2 𝑧1 − 𝜇1 Λ12 + 𝑧2 − 𝜇2 Λ22 𝑧2 − 𝜇2 1 = 𝐸𝑞2 − 𝑧 − 𝜇1 Λ11 + 𝑧2 − 𝜇2 𝑧1 − 𝜇1 Λ21 + 𝑧1 − 𝜇1 𝑧2 − 𝜇2 Λ12 + 𝑧2 − 𝜇2 2 Λ22 + const 2 1 1 1 = 𝐸𝟐 − 𝑧1 − 𝜇1 2 Λ11 − 𝑧1 − 𝜇1 𝑧2 − 𝜇2 Λ21 + Λ12 + const 𝐸𝑞𝑧2 [ 𝑧2 − 𝜇2 2 Λ22]は定数なので 2 2 constに吸収される.𝑧1は変数なの 1 で消えない. = 𝐸𝑞2 − 𝑧1 − 𝜇1 2 Λ11 − 𝑧1 − 𝜇1 𝑧2 − 𝜇2 Λ12 + const 2 1 = 𝐸𝑞2 − 𝑧12 − 2𝑧1 𝜇1 + 𝜇12 Λ11 − 𝑧1 𝑧2 − 𝑧1 𝜇2 − 𝑧2 𝜇1 + 𝜇1 𝜇2 Λ12 + const 2 1 2 𝑧2が無い項は 𝐸𝑞𝑧2 の外に出せる. 𝑧1 = − z1 Λ11 + 𝑧1 𝜇1 Λ11 − 𝑧1 Λ12 𝐸𝑞2 𝑧2 − 𝜇2 + const 2 が無い項は全て定数でconstに吸収 = 𝐸𝑞2 𝐶 − • となる. される.
𝑞1∗ 𝑧1 はガウス分布 1 1 1 𝒙 − 𝝁 T Λ 𝒙 − 𝝁 = 𝐶 exp − 𝒙T Λ𝒙 + 𝒙T Λ𝝁 − 𝝁T Λ𝝁 2 2 2 1 T 1 T 1 T T T = 𝐶 exp − 𝒙 Λ𝒙 + 𝒙 Λ𝝁 − 𝝁 Λ𝝁 = 𝐶 exp − 𝒙 Λ𝒙 + 𝒙 Λ𝝁 2 2 2 𝑁 𝒙 𝝁, Λ−1 = 𝐶 exp − • 最適な𝑞1∗ 𝑧1 は次の式で求まる. 1 • ln 𝑞1∗ 𝑧1 = − 2 𝑧12 Λ11 + 𝑧1 𝜇1 Λ11 − 𝑧1 Λ12 𝐸𝑞2 𝑧2 − 𝜇2 + const • lnを取ると 1 𝑞1∗ 𝑧1 = exp − z12 Λ11 + 𝑧1 𝜇1 Λ11 − 𝑧1 Λ12 𝐸𝑞2 𝑧2 − 𝜇2 + const 2 1 = 𝐶 exp − z12 Λ11 + 𝑧1 Λ11 𝜇1 − Λ−1 11 Λ12 𝐸𝑞2 𝑧2 − 𝜇2 2 • となる.これはガウス分布の式である.よって 定数 だから 𝑞1 𝑧1 につ いて期 待値を とって も値は 変わら ない. 𝐸𝑞2 𝑧2 = න𝐸𝑞2 𝑧2 𝑞1 𝑧1 𝑑𝑧1 = න𝑧2𝑞1 𝑧1 𝑞2 𝑧2 𝑑𝑧1𝑑𝑧2 = 𝐸[𝑧2] −1 • 𝑞1∗ 𝑧1 = 𝑁 𝑧1 𝑚1 , Λ−1 11 , 𝑚1 = 𝜇1 − Λ11 Λ12 𝐸 𝑧2 − 𝜇2 −1 • 同様に, 𝑞2∗ 𝑧2 = 𝑁 𝑧2 𝑚2 , Λ−1 22 , 𝑚2 = 𝜇2 − Λ 22 Λ 21 𝐸 𝑧1 − 𝜇1
最適解 • 先の式で求めた𝑞1∗ 𝑧1 と𝑞2∗ 𝑧2 は,𝑞2 𝑧2 ,𝑞1 𝑧1 をそれぞれ固定した とき最適解である.𝑞1∗ 𝑧1 と𝑞2∗ 𝑧2 を交互に何度か計算し最適解を求め る必要がる. • とは言え,今回は問題が単純なので解は簡単に求まる. • 𝑚1 = 𝐸 𝑥1 , 𝑚2 = 𝐸 𝑥2 だから, 𝑚1 = 𝜇1 − Λ−1 𝑚1 = 𝜇1 − Λ−1 11 Λ12 𝐸 𝑧2 − 𝜇2 11 Λ12 𝑚2 − 𝜇2 ൝ →൝ −1 −1 𝑚2 = 𝜇2 − Λ22 Λ21 𝐸 𝑧1 − 𝜇1 𝑚2 = 𝜇2 − Λ22 Λ21 𝑚1 − 𝜇1 (2)を(1)に代入すると(Λ12 = Λ21 を利用する) −1 𝑚1 = 𝜇1 − Λ−1 11 Λ12 𝜇2 − Λ 22 Λ12 𝑚1 − 𝜇1 − 𝜇2 −1 𝑚1 = 𝜇1 + Λ−1 11 Λ12 Λ 22 Λ12 𝑚1 − 𝜇1 −1 −1 −1 1 − Λ−1 11 Λ12 Λ 22 Λ12 𝑚1 = 1 − Λ11 Λ12 Λ 22 Λ12 𝜇1 • よって, 𝑚1 = 𝜇1 .同様に 𝑚2 = 𝜇2 となる. (1) (2)
KLダイバージェンスの最小化
KLダイバージェンスの最小化 • 忘れそうだが,これまではELBOを最大化してきた. • 𝑝(𝒁)と 𝑞 𝒁 = ς𝑀 𝑖=1 𝑞𝑖 𝒁𝑖 のKLダイバージェンス 𝐾𝐿 𝑝||𝑞 を最小化す る方法も考えてみる.KLダイバージェンスは 𝑀 ln 𝑞 𝑍 𝐾𝐿 𝑝||𝑞 = − න 𝑝 𝑍 𝑑𝑍 = − න 𝑝 𝑍 ln ෑ 𝑞𝑖 𝑍𝑖 𝑑𝑍 + න𝑝 𝑍 ln 𝑝 𝑍 𝑑𝑍 ln 𝑝 𝑍 𝑁 𝑖=1 = − න 𝑝 𝑍 ln 𝑞𝑖 𝑍𝑖 𝑑𝑍 + const 𝑖=1 • これを{𝑞𝑖≠𝑗 }を固定した上で最小化することで𝑞𝑗 を求めてみる.
ラグランジアン • 𝐾𝐿 𝑝||𝑞 = − 𝑍 𝑝 σ𝑁 𝑖=1 ln 𝑞𝑖 𝑍𝑖 𝑑𝑍 + const • これを{𝑞𝑖≠𝑗 }を固定した上で最小化するのだが,𝑞𝑗 は確率なので = 𝑗𝑍𝑑 𝑗𝑞 1の制限がある.このような制限がある場合の最小化問題で はラグランジュの未定乗数法が有効である.ラグランジアンは 𝑁 𝐿 = − න 𝑝 𝑍 ln 𝑞𝑖 𝑍𝑖 𝑑𝑍 + const + 𝜆 න𝑞𝑗 𝑍𝑗 𝑑𝑍𝑗 − 1 𝑖=1 𝑁 = − න ln 𝑞𝑗 𝑍𝑗 න𝑝 𝑍 ෑ 𝑑𝑍𝑖 −𝜆𝑞𝑗 𝑍𝑗 𝑖≠𝑗 • である. 𝑑𝑍𝑗 + const
ラグランジアンの計算詳細 𝑁 𝐿 𝑞𝑗 = − න 𝑝 𝒁 ln 𝑞𝑖 𝑍𝑖 𝑑𝒁 + const + 𝜆 න𝑞𝑗 𝑍𝑗 𝑑𝑍𝑗 − 1 𝑖=1 𝑗に関する項だけ抜き出す. 𝑁 = − න 𝑝 𝒁 ln 𝑞𝑖 𝑍𝑖 𝑑𝒁 − න𝑝 𝒁 ln 𝑞𝑗 𝑍𝑗 𝑑𝒁 + 𝜆 න𝑞𝑗 𝑍𝑗 𝑑𝑍𝑗 − 1 + const 𝑖≠𝑗 = − න … න𝑝 𝒁 ln 𝑞𝑗 𝑍𝑗 𝑑𝑍1 … 𝑑𝑍𝑁 + 𝜆 න𝑞𝑗 𝑍𝑗 𝑑𝑍𝑗 + const 𝑗に関係ない積分は定数とみなせるからconstに吸収される. = − න ln 𝑞𝑗 𝑍𝑗 න𝑝 𝒁 𝑑𝑍1 … 𝑑𝑍𝑗−1 𝑑𝑍𝑗+1 … 𝑑𝑍𝑁 𝑑𝑍𝑗 + 𝜆 න𝑞𝑗 𝑍𝑗 𝑑𝑍𝑗 + const 𝑗以外の重積分を取り出す. 𝑁 = − න ln 𝑞𝑗 𝑍𝑗 𝑁 න𝑝 𝒁 ෑ 𝑑𝑍𝑖 𝑑𝑍𝑗 + 𝜆 න𝑞𝑗 𝑍𝑗 𝑑𝑍𝑗 + const = − න ln 𝑞𝑗 𝑍𝑗 𝑖≠𝑗 重積分の記号並んで面倒なので総積で書く. න𝑝 𝒁 ෑ 𝑑𝑍𝑖 −𝜆𝑞𝑗 𝑍𝑗 𝑖≠𝑗 積分をまとめた. 𝑑𝑍𝑗 + const
ラグランジアンの微分 𝑍 𝑝 ς𝑁 𝑖≠𝑗 𝑑𝑍𝑖 −𝜆𝑞𝑗 𝑍𝑗 𝑑𝑍𝑗 + constを𝑞𝑗 について微分する. • 𝐿 = − ln 𝑞𝑗 𝑍𝑗 𝜕𝐿 𝜕 = −න ln 𝑞𝑗 𝑍𝑗 𝜕𝑞𝑗 𝜕𝑞𝑗 න𝑝 𝒁 ෑ 𝑑𝑍𝑖 −𝜆𝑞𝑗 𝑍𝑗 𝑞𝑗 𝑍𝑗 න𝑝 𝒁 ෑ 𝑑𝑍𝑖 − 𝜆 𝑑𝑍𝑗 𝑖≠𝑗 • これが0の時,最小値となるだろうから 1 𝑞𝑗 𝑍𝑗 𝑁 න𝑝 𝑍 ෑ 𝑑𝑍𝑖 − 𝜆 = 0 𝑖≠𝑗 𝑁 𝑞𝑗⋆ 𝑍𝑗 = 𝑑𝑍𝑗 𝑖≠𝑗 𝑁 1 = −න 𝑁 1 1 න𝑝 𝒁 ෑ 𝑑𝑍𝑖 = 𝑝 𝑍𝑗 = 𝑝 𝑍𝑗 𝜆 𝜆 𝑖≠𝑗 𝑍𝑗 以外で周辺化 両辺を積分すると 1 න 𝑞𝑗⋆ 𝑍𝑗 𝑑𝑍𝑗 = න𝑝 𝑍𝑗 𝑑𝑍𝑗 𝜆 ⋆ 𝑞𝑗 𝑍𝑗 , 𝑝 𝑍𝑗 ともに確率分布なので 積分は1になるから 1 1= ×1 𝜆 𝜆=1 • つまり,𝑞𝑗 𝑍𝑗 の最適解は単純に𝑝 𝒁 の対応する周辺分布である. • 最適化された𝑞𝑗 𝑍𝑗 の値は,𝑗以外の𝑞𝑖 𝑍𝑖 の最適化に必要ないので,繰り返し計算す る必要がない.
モデル比較
複数モデルがある場合 • 隠れ変数𝒁について推論を行うほかに,変数𝑚で表され,事前確率𝑝 𝑚 を持つ複数のモデル の候補を比較したい場合がある. • 目的は,観測データ𝑿の下で事後確率𝑝 𝑚 𝑿 を近似することである. • モデルエビデンスの対数は ln 𝑝 𝑿 = 𝐸𝑞 𝒁,𝑚 ln 𝑝 𝑿 𝑞(𝒁, 𝑚)𝑝 𝒁, 𝑚 𝑿 𝑝 𝑿 = 𝐸𝑞 𝒁,𝑚 ln 𝑞(𝒁, 𝑚)𝑝 𝒁, 𝑚 𝑿 𝑞(𝒁, 𝑚)𝑝 𝑿, 𝒁, 𝑚 = 𝐸𝑞 𝒁,𝑚 ln 𝑞(𝒁, 𝑚)𝑝 𝒁, 𝑚 𝑿 𝑝 𝑿, 𝒁, 𝑚 𝑝 𝒁, 𝑚 𝑿 = 𝐸𝑞 𝒁,𝑚 ln − ln 𝑞(𝒁, 𝑚) 𝑞(𝒁, 𝑚) = ℒ − 𝐸𝑞 𝒁,𝑚 ln • ℒ = 𝐸𝑞 𝒁,𝑚 ln 𝑝 𝑿,𝒁,𝑚 𝑞 𝒁∣𝑚 𝑞 𝑚 𝑝 𝒁, 𝑚 𝑿 𝑞 𝒁∣𝑚 𝑞 𝑚 = σ𝑍,𝑚 𝑝 𝒁 𝑚 𝑞 𝑚 ln 𝑝 𝑿,𝒁,𝑚 𝑞 𝒁∣𝑚 𝑞 𝑚 は ln 𝑝 𝑿 下限となる.
ℒの最大化 • モデルエビデンスを最大化するために下限ℒを最大化する. • ここで,ラグランジュの未定乗数法を用いℒを𝑞 𝑚 について最大化す る. • σ𝑚 𝑞 𝑚 = 1に規格化されているので,ラグランジアン𝐿は 𝐿 = ℒ +𝜆 𝑞 𝑚 −1 = 𝑝 𝒁 𝑚 𝑞 𝑚 𝑚 ln 𝑍,𝑚 𝑝 𝑿, 𝒁, 𝑚 𝑞 𝒁∣𝑚 𝑞 𝑚 +𝜆 𝑞 𝑚 −1 𝑚 • である,よって 𝑞 𝑚 は 𝑝 𝑿,𝒁∣𝑚 • 𝑞 𝑚 ∝ 𝑝 𝑚 exp σ𝑍 𝑝 𝒁 𝑚 ln 𝑝 𝒁∣𝑚 • となる. = 𝑝 𝑚 exp ℒ𝑚
𝑞 𝑚 の導出 𝐿 = 𝑝 𝒁 𝑚 𝑞 𝑚 𝑍,𝑚 ln 𝑝 𝑿, 𝒁 ∣ 𝑚 𝑝 𝑚 𝑞 𝒁 𝑚 𝑞 𝑚 + 𝜆 𝑞 𝑚 − 1 𝑚 = 𝑝 𝒁 𝑚 𝑞 𝑚 ln 𝑝 𝑿, 𝒁 ∣ 𝑚 + ln 𝑝 𝑚 − ln 𝑞 𝒁 ∣ 𝑚 − ln 𝑞 𝑚 + 𝜆 𝑞 𝑚 − 1 𝑍,𝑚 𝜕𝐿 𝜕 = 𝜕𝑞 𝑚 𝜕𝑞 𝑚 𝑚 𝑝 𝒁 𝑚 𝑞 𝑚 ln 𝑝 𝑿, 𝒁 ∣ 𝑚 + ln 𝑝 𝑚 − ln 𝑞 𝒁 ∣ 𝑚 − ln 𝑞 𝑚 𝑍,𝑚 + 𝜆 𝑞 𝑚 − 1 𝑚 = 𝑝 𝒁 𝑚 ln 𝑝 𝑿, 𝒁 ∣ 𝑚 + ln 𝑝 𝑚 − ln 𝑞 𝒁 ∣ 𝑚 − ln 𝑞 𝑚 𝑍 + 𝑝 𝒁 𝑚 𝑞 𝑚 𝑍 = 𝑝 𝒁 𝑚 ln 𝑝 𝑿, 𝒁 ∣ 𝑚 − ln 𝑞 𝒁 ∣ 𝑚 1 +𝜆 𝑞 𝑚 + ln 𝑝 𝑚 + ln 𝑞 𝑚 + 1 + 𝜆 = 0 𝑍 ln 𝑞 𝑚 = ln 𝑝 𝑚 exp 𝑝 𝒁 𝑚 ln 𝑍 𝑞 𝑚 = 𝑝 𝑚 exp 𝑝 𝒁 𝑚 ln 𝑍 𝑝 𝑿, 𝒁 ∣ 𝑚 exp(1 + 𝜆) 𝑝 𝒁∣𝑚 𝑝 𝑿, 𝒁 ∣ 𝑚 𝑝 𝑿, 𝒁 ∣ 𝑚 exp(1 + 𝜆) ∝ 𝑝 𝑚 exp 𝑝 𝒁 𝑚 ln 𝑝 𝒁∣𝑚 𝑝 𝒁∣𝑚 𝑍
モデル選択 • ℒを𝑞 m について最大化したいが, ℒおよびℒ𝑚 は𝑞 𝒁 𝑚 に依存して いる. • モデルを選ぶには • 各モデル𝑚において,ℒもしくはℒ𝑚 を 𝑞 𝒁 𝑚 ついて最適化し 𝑞 𝒁 𝑚 を求める. • 𝑞 𝑚 ∝ 𝑝 𝑚 exp σ𝑍 𝑝 𝒁 𝑚 ln 𝑝 𝑿,𝒁∣𝑚 𝑝 𝒁∣𝑚 から 𝑞 𝑚 を求める. • 𝑞 𝑚 を正規化すると確率として扱える.
混合ガウス分布の例
混合ガウス分布の例 • 𝐾個のガウス分布からなる混合ガウス分布を考える. • 観測値𝒙𝑛 に対応する潜在変数𝒛𝑛 が有るとする. • 𝒛𝑛 は𝐾個の要素𝑧𝑛𝑘 を持ち,要素のうち1つだけが1である2値ベクトルである. • 観測データ𝑋 = {𝑥1 , … , 𝑥𝑁 }に対応する潜在変数を𝑍 = {𝑧1 , … , 𝑧𝑁 }とする. • 混合比𝜋を与えられたときの𝑍の条件付き分布は次のように書ける. 𝑧 𝐾 𝑛𝑘 • 𝑝 𝒁 𝝅 = ς𝑁 𝑛=1 ς𝑘=1 𝝅𝑘 • 観測データの条件付き分布は 𝐾 −1 • 𝑝 𝑿 𝒁, 𝝁, 𝚲 = ς𝑁 𝑛=1 ς𝑘=1 𝑁 𝒙𝑛 𝝁, 𝚲 𝑘 • ここで𝝁 = 𝝁𝑘 , 𝚲 = {𝚲𝐾 }である. 𝑧𝑛𝑘
事前分布 • 次にパラメタの事前分布を導入する.事前分布には共役事前分布を使う. • 混合比𝝅は 𝛼 −1 0 • 𝑝 𝝅 = 𝐷𝑖𝑟 𝝅 𝜶0 = 𝐶 𝜶0 ς𝐾 𝑘=1 𝝅𝑘 • とする.各混合要素について同じパラメータ𝛼0 を用いた.𝐶 𝜶0 はディリクレ分布の正規化 定数である. • 平均𝝁と精度Λは次に示すガウス-ウィシャート事前分布を導入する. −1 • 𝑝 𝝁, 𝚲 = 𝑝 𝝁 ∣ 𝚲 𝑝 𝚲 = ς𝐾 𝒲 𝚲𝑘 ∣ 𝑾0 , 𝜈0 𝑘=1 𝑁 𝝁𝑘 ∣ 𝒎0 , 𝛽0 𝚲 𝑘 • なぜならば,これは平均も分散も道の場合の共役事前分布を表しているためである. • 対称性から通常𝒎0 = 𝟎とおく. • 図はこのモデルをグラフで表したものである. • 𝑝 𝝁 ∣ 𝚲 𝑝 𝚲 としたから, 𝚲から𝝁へのリンクが存在する. • 潜在変数はデータセットのサイズに比例して増える.
変分事後分布 • 混合ガウス分布の同時分布は • 𝑝 𝑿, 𝒁, 𝝅, 𝝁, 𝚲 = 𝑝 𝑿 ∣ 𝒁, 𝝅, 𝝁, 𝜦 𝑝 𝒁 ∣ 𝝅 𝑝 𝝅 𝑝 𝝁 ∣ 𝜦 𝑝 𝚲 • 次の変分近似を考える. • 𝑞 𝒁, 𝝅, 𝝁, 𝝀 = 𝑞 𝒁 𝑞 𝝅, 𝝁, 𝚲 • 𝑞 𝒁 と𝑞 𝝅, 𝝁, 𝜦 の関数形は,変分近似を最適化することで自動的に求 まる.
最適な因子分布𝑞⋆ 𝒁 • 最適な因子分布𝑞⋆ 𝒁 の対数は ln 𝑞 ⋆ 𝒁 = 𝐸 ln 𝑝 𝑿, 𝒁, 𝝅, 𝝁, 𝚲 + 𝑐𝑜𝑛𝑠𝑡 = 𝐸 ln 𝑝 𝑿 ∣ 𝒁, 𝝁, 𝜦 𝑝 𝒁 ∣ 𝝅 𝑝 𝝅 𝑝 𝝁 ∣ 𝜦 𝑝 𝚲 = 𝐸 ln 𝑝 𝑿 ∣ 𝒁, 𝝁, 𝜦 + 𝐸 ln 𝑝 𝒁 ∣ 𝝅 + 𝑐𝑜𝑛𝑠𝑡 𝑁 𝐾 𝑁 = 𝐸 ln ෑ ෑ 𝑁 𝒙𝑛 𝑧𝑛𝑘 𝝁, 𝚲−1 𝑘 𝑛=1 𝑘=1 = 𝐸 𝑧𝑛𝑘 ln 𝑁 𝒙𝑛 𝝁, 𝚲−1 𝑘 +𝐸 + 𝑐𝑜𝑛𝑠𝑡 𝐾 𝑧 ln ෑ ෑ 𝝅𝑘𝑛𝑘 𝑛=1 𝑘=1 𝒁以外は定数 + 𝑐𝑜𝑛𝑠𝑡 + 𝐸 𝑧𝑛𝑘 ln 𝜋𝑘 + 𝑐𝑜𝑛𝑠𝑡 𝑛𝑘 = 𝑧𝑛𝑘 𝐸 − 𝑛𝑘 𝐷 1 1 ln 2𝜋 + ln 𝚲𝑘 − 𝒙𝑛 − 𝝁𝑘 𝑇 𝚲𝑘 𝒙𝑛 − 𝝁𝑘 + ln 𝜋𝑘 2 2 2 = 𝑧𝑛𝑘 ln 𝜌𝑛𝑘 + 𝑐𝑜𝑛𝑠𝑡 𝑛𝑘 𝐷は次元 + 𝑐𝑜𝑛𝑠𝑡
最適な因子分布𝑞⋆ 𝒁 𝐾 𝑁 𝑒 σ𝑛=1 σ𝑘=1 𝑧𝑛𝑘 ln 𝜌𝑛𝑘+𝑐𝑜𝑛𝑠𝑡 𝐾 • ln 𝑞 ⋆ 𝒁 = σ𝑁 𝑛=1 σ𝑘=1 𝑧𝑛𝑘 ln 𝜌𝑛𝑘 + 𝑐𝑜𝑛𝑠𝑡 𝑧𝑛𝑘 𝐾 𝑁 = 𝐶𝑒 σ𝑛=1 σ𝑘=1 ln 𝜌𝑛𝑘 𝑁 • 両辺の指数をとると 𝐾 𝑧 = 𝐶 ෑ ෑ 𝜌𝑛𝑘𝑛𝑘 𝑧 𝐾 𝑛𝑘 • 𝑞 ⋆ 𝒁 ∝ ς𝑁 𝑛=1 ς𝑘=1 𝜌𝑛𝑘 𝑧 𝑛𝑘 ς𝐾 𝑘=1 𝜌𝑛𝑘 • 𝑞 ⋆ 𝒁 = ς𝑁 𝑛=1 σ𝐾 𝑗=1 𝜌𝑛𝑗 𝑛=1 𝑘=1 𝑧𝑛𝑘 𝜌𝑛𝑘 𝒛はone-of-kだから, ς𝐾 𝑘=1 σ𝐾 𝑗=1 𝜌𝑛𝑗 𝜌 𝑛𝑘 𝐾 = ς𝑁 𝑛=1 ς𝑘=1 σ𝐾 𝑗=1 𝜌𝑛𝑗 𝑧𝑛𝑘 𝜌𝑛𝑘 → σ𝐾 𝑗=1 𝜌𝑛𝑗 になるので等しい. 𝐾 𝑧𝑛𝑘 = ς𝑁 𝑛=1 ς𝑘=1 𝑟 • また,𝑧𝑛𝑘 の期待値は • 𝐸 𝑧𝑛𝑘 = 𝑟 𝑧𝑛𝑘 𝑧𝑛𝑘 = 0の場合は和は0,𝑧𝑛𝑘 = 1のとき,その他の 𝑧𝑚𝑗 = 0だから 𝑟 𝑧𝑛𝑘 • となる.これから 𝑟 𝑧𝑛𝑘 は負担率を表していることが分かる. • これは,他の変数にも依存しているため,繰り返しで解く必要がある.
規格化定数. 規格化定数は,すべての𝑍について和をとらなければならないので次のようにかける. 𝑁 𝐾 𝑧 𝐶 −1 = ෑ ෑ 𝜌𝑛𝑘𝑛𝑘 𝑍1,…,𝑍𝑀 𝑛=1 𝑘=1 また,𝑍を構成する𝐾次元ベクトル𝒛𝑛 の各要素は0か1の2値しかとらないので,𝑍のあらゆる組み 合わせは𝑁個の𝐾桁の2進数の全パターンについて総和を取ればよいことになる. 𝑁 𝐶 −1 = … 𝑧11=0,1 𝑧12=0,1 𝐾 𝑧 ෑ ෑ 𝜌𝑛𝑘𝑛𝑘 … 𝑧1𝐾=0,1 𝑧21=0,1 𝑧𝑁𝐾=0,1 𝑛=1 𝑘=1 𝑁 𝐾 𝑁 𝐾 𝑧𝑛𝑘 𝑧 = … … ෑ ෑ 𝜌𝑛𝑘 = ෑ … ෑ 𝜌𝑛𝑘𝑛𝑘 𝑧11=0,1 𝑧21=0,1 𝑧𝑁1=0,1 𝑧12=0,1 𝑧𝑁𝐾=0,1 𝑛=1 𝑘=1 𝑛=1 𝑧𝑛1=0,1 𝑧𝑛𝐾=0,1 𝑘=1 𝑧 𝑛𝑘 𝒛𝑛 はone-of-k codingなので,𝒛𝑛 は𝐾種類しかない.つまり, ς𝐾 𝑘=1 𝜌𝑛𝑘 は𝜌𝑛1 … 𝜌𝑛𝐾 の𝐾種類しか ない.よって 𝑁 𝐾 𝐶 −1 = ෑ 𝜌𝑛𝑗 𝑛=1 𝑗=1 総和と総積の交換 ෑ 𝑥𝑛 = 𝑥1=𝑎1,𝑎2 𝑥2=𝑎1,𝑎2 𝑛=1,2 ෑ 𝑛=1,2 𝑥𝑛=𝑎1,𝑎2 𝑥𝑛 = 𝑥1 𝑥2 = 𝑥1=𝑎1,𝑎2 𝑥2=𝑎1,𝑎2 𝑥𝑛=𝑎1,𝑎2 𝑥1 𝑥𝑛=𝑎1,𝑎2 𝑥1 𝑎1 + 𝑥1 𝑎2 = 𝑎1 𝑎1 + 𝑎1 𝑎2 + 𝑎2 𝑎1 + 𝑎2 𝑎2 𝑥1=𝑎1,𝑎2 𝑥2 = 𝑎1 + 𝑎2 𝑎1 + 𝑎2 = 𝑎1 𝑎1 + 𝑎1 𝑎2 + 𝑎2 𝑎1 + 𝑎2 𝑎2
EP法
KLダイバージェンス • 𝑝 𝑧 を固定された確率分布としたとき,𝐾𝐿 𝑝||𝑞 を𝑞 𝑧 について最小 化する問題を考える. • 𝑞 𝑧 が指数分布族ならば • 𝑞 𝑧 = ℎ 𝑧 𝑔 𝜂 exp 𝜂T 𝑢 𝑧 • と書くことができる. • 𝑝と𝑞のKLダイバージェンスを𝜂の関数だと考えて展開すると 𝑝 𝑧 • 𝐾𝐿 𝑝||𝑞 = − 𝑧 𝑝 ln 𝑞 𝑧 𝑑𝑧 = − ln 𝑔 𝜂 − 𝜂 T 𝐸𝑝 𝑢 𝑧 + const
• KLダイバージェンスを最小化する𝜂は,KLダイバージェンスの勾配を 0とおいて得られる. • ∇𝐾𝐿 𝑝||𝑞 = −∇ ln 𝑔 𝜂 − ∇𝜂 T 𝐸𝑝 𝑧 𝑢 𝑧 • −∇ ln 𝑔 𝜂 = 𝐸𝑝 𝑧 𝑢 𝑧 • −∇ ln 𝑔 𝜂 = 𝐸𝑞 𝑧 𝑢 𝑧 だから • 𝐸𝑞 𝑧 𝑢 𝑧 = 𝐸𝑝 𝑧 𝑢 𝑧 =0
指数分布族 • 𝑝 𝑥 ∣ 𝜂 = ℎ 𝑥 𝑔 𝜂 exp 𝜂T 𝑢 𝑥 • の形で書ける分布を指数分布族という.𝜂はパラメタベクトルである. • 𝑔 𝜂 は正規化係数と考えられるから, •𝑔 𝜂 = 1 ℎ 𝑥 exp 𝜂 T𝑢 𝑥 𝑑𝑥 • 𝑔 𝜂 ℎ 𝑥 exp 𝜂T 𝑢 𝑥 𝑑𝑥 = 1 • 𝜂を推定する問題を考える.上の式の両辺の勾配をとると • ∇𝑔 𝜂 ℎ 𝑥 exp 𝜂T 𝑢 𝑥 𝑑𝑥 + 𝑔 𝜂 ℎ 𝑥 ∇ exp 𝜂T 𝑢 𝑥 𝑑𝑥 = 0 • ∇𝑔 𝜂 ℎ 𝑥 exp 𝜂T 𝑢 𝑥 𝑑𝑥 + 𝑔 𝜂 ℎ 𝑥 𝑢 𝑥 exp 𝜂T 𝑢 𝑥 𝑑𝑥 = 0
指数分布族のパラメタ推定 ∇𝑔 𝜂 නℎ 𝑥 exp 𝜂T 𝑢 𝑥 − 𝑑𝑥 + 𝑔 𝜂 නℎ 𝑥 𝑢 𝑥 exp 𝜂T 𝑢 𝑥 1 ∇𝑔 𝜂 = −∇ ln 𝑔 𝜂 = න ℎ 𝑥 𝑔 𝜂 exp 𝜂T 𝑢 𝑥 𝑔 𝜂 𝑑𝑥 = 0 𝑢 𝑥 𝑑𝑥 = 𝐸 𝑢 𝑥
KLダイバージェンスの計算の詳細 𝐾𝐿 𝑝||𝑞 = − න 𝑝 𝑧 ln 𝑝 𝑧 𝑑𝑧 = − න𝑝 𝑧 ln 𝑝 𝑧 𝑑𝑧 + න𝑝 𝑧 ln 𝑞 𝑧 𝑑𝑧 𝑞 𝑧 = − න𝑝 𝑧 ln ℎ 𝑧 𝑔 𝜂 exp 𝜂T 𝑢 𝑧 𝑑𝑧 + const = − න𝑝 𝑧 ln ℎ 𝑧 𝑑𝑧 − න𝑝 𝑧 ln 𝑔 𝜂 𝑑𝑧 − න𝑝 𝑧 𝜂T 𝑢 𝑧 𝑑𝑧 + const = − න𝑝 𝑧 ln 𝑔 𝜂 𝑑𝑧 − න𝑝 𝑧 𝜂T 𝑢 𝑧 𝑑𝑧 + const = − ln 𝑔 𝜂 − 𝜂T 𝐸𝑝 𝑧 𝑢 𝑧 + const
アルゴリズムの導出 • データ𝐷と隠れ変数𝜃の同時分布は,因子の積で書けるとする. • 𝑝 𝐷, 𝜃 = ς𝑖 𝑓𝑖 𝜃 • 事後分布𝑝 𝜃 𝐷 は次の式で与えられる. 𝑝 𝐷,𝜃 1 • 𝑝 𝜃 𝐷 = 𝑝 𝐷 = 𝑝 𝐷 ς𝑖 𝑓𝑖 𝜃 • モデルエビデンス 𝑝 𝐷 は同時分布の周辺化により得られる. • 𝑝 𝐷 = ς𝑖 𝑓𝑖 𝜃 𝑑𝜃 • この周辺化および予測を行うための事後分布の周辺化を厳密に行うこ とは不可能で,何らかの近似が必要であると仮定する.
近似事後分布 • 事後分布の近似として 1 • 𝑞 𝜃 = 𝑍 ς𝑖 𝑓෩𝑖 𝜃 • を考える. • 理想的には, 𝑓෩𝑖 𝜃 を真の事後分布と近似分布とのKLダイバージェン スを最小化することで求めたい. 1 1 • 𝐾𝐿 𝑝||𝑞 = 𝐾𝐿 𝑝 𝐷 ς𝑖 𝑓𝑖 𝜃 || 𝑍 ς𝑖 𝑓෩𝑖 𝜃 • ここではこれまでのKLダイバージェンスとqとpの順番が異なり, forward KLダイバージェンスと呼ばれるものが使われている.
KLダイバージェンスの最小化 1 1 • 𝐾𝐿 𝑝||𝑞 = 𝐾𝐿 𝑝 𝐷 ς𝑖 𝑓𝑖 𝜃 || 𝑍 ς𝑖 𝑓෩𝑖 𝜃 • を最小化したいが𝑝 𝐷 を求めなければならないので不可能である. • 代わりに因子のペア 𝑓𝑖 𝜃 と 𝑓෩𝑖 𝜃 のKLダイバージェンスを最小化する ことは可能である. • しかし,因子が独立で近似されるため,それらの積は悪い近似になっ てしまう.
EP法 • EP法では,各因子の最適化を,他の因子による近似全てを条件として 順番に行って最適化する. • 最初に各因子 𝑓෩𝑖 𝜃 を初期化し,各因子を巡回して一つづつ近似を改 良していく方法を取る. 1 • いま,因子 𝑓෩𝑗 𝜃 を改良したいとする.𝑞 𝜃 = 𝑍 ς𝑖 𝑓෩𝑖 𝜃 だから,改良 後の近似 𝑞new 𝜃 は次のようになるだろう. • 𝑞new 𝜃 ∝ 𝑓෩𝑗 𝜃 ς𝑖≠𝑗 𝑓෩𝑖 𝜃 • これができるだけ 𝑓𝑖 𝜃 ς𝑖≠𝑗 𝑓෩𝑖 𝜃 に近くなるように𝑓෩𝑗 𝜃 を決めること にする.
EP法 • まず,現在の近似事後分布から𝑓෩𝑗 𝜃 を除いた正規化されていない分布を考える. 𝑞 𝜃 • 𝑞\j 𝜃 = 𝑓෪ 𝜃 𝑗 • 真の因子 𝑓𝑗 𝜃 と𝑞\j 𝜃 の積を考える. 1 • 𝑍 𝑓𝑗 𝜃 𝑞\j 𝜃 𝑗 • ここで𝑍𝑗 = \𝑞 𝜃 𝑗𝑓 j 𝜃 𝑑𝜃である.つまり𝑍𝑗 は正規化定数である. • 改良された因子𝑓෩𝑗 𝜃 を,次のKLダイバージェンスを最小化することで求める. • 𝐾𝐿 1 𝑓 𝜃 𝑞 𝑍𝑗 𝑗 \j 𝜃 ||𝑞new 𝜃
EP法 1 • 𝑞new 𝜃 ∝ 𝑓෩𝑗 𝜃 ς𝑖≠𝑗 𝑓෩𝑖 𝜃 だから𝑞new 𝜃 = 𝐾 𝑓෩𝑗 𝜃 ς𝑖≠𝑗 𝑓෩𝑖 𝜃 と正規化定数𝐾を置く と 𝑞 • 𝑓෩𝑗 𝜃 = 𝐾 ς new 𝜃 ෪ 𝑖≠𝑗 𝑓𝑖 𝜃 𝑞 new 𝜃 = 𝐾 𝑞\j 𝜃 • である.𝐾は • 𝐾 = 𝑓 ෩𝑗 𝜃 ς𝑖≠𝑗 𝑓෩𝑖 𝜃 d𝜃 = 𝑓 ෩𝑗 𝜃 𝑞\j 𝜃 d𝜃 関数𝑓 𝑥 の𝑛次モーメントは𝑥𝑑 𝑛 𝑥 𝑥 𝑓 である. • である.これは関数 𝑓෩𝑗 𝜃 ς𝑖≠𝑗 𝑓෩𝑖 𝜃 の0次モーメントである.したがって,𝐾の値 は,0次モーメントを一致させることで得られる. • 𝑓 ෩𝑗 𝜃 𝑞\j 𝜃 d𝜃 = \𝑞 𝜃 𝑗𝑓 j 𝜃 d𝜃 • この推定では,因子全体について数パスの更新を行って各因子を順に改良していく .
EP法の手順 • 観測データDと確率変数𝜃の同時分布が𝑝 𝐷, 𝜃 = ς𝑖 𝑓𝑖 𝜃 の形で与えられ,事後分布 1 𝑞(𝜃 ∣ 𝐷)を𝑞 𝜃 = 𝑍 ς𝑖 𝑓෩𝑖 𝜃 の形で近似したい.同様にモデルエビデンス𝑝 𝐷 も近似 したい. 1. 近似因子 𝑓෩𝑖 𝜃 を全て初期化する. 2. 事後分布の近似を 𝑞 𝜃 ∝ ς𝑖 𝑓෩𝑖 𝜃 とする. 3. 近似が収束するまで以下を繰り返す. 4. a) 改良したい因子𝑓෩𝑗 𝜃 を選ぶ. b) 𝑞 𝜃 𝑓෩𝑗 𝜃 を事後分布から除算して取り除く. 𝑞\j 𝜃 = 𝑓෪ 𝜃 c) 新しい事後分布 𝑞new 𝜃 を,その十分統計量(モーメント)を 𝑓𝑗 𝜃 𝑞\j 𝜃 のものと一 致させることで求め,正規化定数を計算する.𝑍𝑗 = \𝑞 𝜃 𝑗𝑓 j 𝜃 d𝜃 d) 新しい因子を,次のように求めて保存する. 𝑓෩𝑗 𝜃 = 𝑍𝑗 𝑞\j 𝜃 𝑗 𝑞 new 𝜃 モデルエビデンスの近似を,以下のようにして求める.𝑝 𝐷 ≅ ς𝑖 𝑓෩𝑗 𝜃 𝑑𝜃
グラフィカルモデルとEP法 • 図のような因子グラフを考える.この場合の同時分布は次で与えられ る. • 𝑝 𝑥 = 𝑓𝑎 (𝑥1 , 𝑥2 )𝑓𝑏 (𝑥2 , 𝑥3 ) 𝑓𝑐 (𝑥2 , 𝑥4 ) • 同じ分解を持つ,次のような近似分布𝑞 𝑥 を探したい. • 𝑞 𝑥 ∝ 𝑓෩𝑎 (𝑥1 , 𝑥2 )𝑓෩𝑏 (𝑥2 , 𝑥3 )𝑓෩𝑐 (𝑥2 , 𝑥4 )
グラフィカルモデルとEP法 • さらに,各因子を変数ごとに分解した新たな近似𝑞 𝑥 を考える. ෪ ෪ ෪ ෪ ෪ • 𝑞 𝑥 ∝ 𝑓෪ 𝑎1 (𝑥1 ) 𝑓𝑎2 (𝑥2 )𝑓𝑏2 (𝑥2 )𝑓𝑏3 (𝑥3 )𝑓𝑐2 (𝑥4 )𝑓𝑐4 (𝑥4 ) • これは図のような因子グラフで表される.各因子が分解されているた め,全体の近似分布𝑞 𝑥 自体も完全に分解されている.
グラフィカルモデルとEP法 • EP法を完全に分解された近似分布に適用する. • まず,各因子を初期化する. ෪ • 次に因子𝑓෩𝑏 𝑥2 , 𝑥3 = 𝑓෪ 𝑏2 (𝑥2 ) 𝑓𝑏3 (𝑥3 )を改良する分布に選んだとする. • この分布を全体の近似分布から除くと次の式が得られる. ෪ ෪ ෪ • 𝑞\b (𝑥) ∝ 𝑓෪ 𝑎1 (𝑥1 ) 𝑓𝑎2 (𝑥2 ) 𝑓𝑐2 (𝑥4 )𝑓𝑐4 (𝑥4 ) • 次に正しい因子 𝑓𝑏 𝑥2 , 𝑥3 を書ける. ෪ ෪ ෪ • 𝑝Ƹ 𝑥 = 𝑞\b 𝑥 𝑓𝑏 𝑥2 , 𝑥3 = 𝑓෪ 𝑎1 (𝑥1 ) 𝑓𝑎2 (𝑥2 ) 𝑓𝑐2 (𝑥4 )𝑓𝑐4 (𝑥4 )𝑓𝑏 𝑥2 , 𝑥3
グラフィカルモデルとEP法 • KLダイバージェンス𝐾𝐿 𝑝Ƹ ∥ 𝑞new を最小化する 𝑞new を探したい. • 𝑞new は変数𝑥𝑖 ごとの因子の積からなり,各因子は 𝑝の対応する周辺分 Ƹ 布となる.各周辺分布は次のようになる. • 𝑝Ƹ 𝑥1 ∝ 𝑓෪ 𝑎1 (𝑥1 ) • 𝑝Ƹ 𝑥2 ∝ 𝑓෪ 𝑎2 𝑥2 σ𝑥3 𝑓𝑏 𝑥2 , 𝑥3 • 𝑝Ƹ 𝑥3 ∝ 𝑓෪ 𝑎2 𝑥2 σ𝑥2 𝑓𝑏 𝑥2 , 𝑥3 • 𝑝Ƹ 𝑥4 ∝ 𝑓෪ 𝑐4 (𝑥4 ) ෪ ෪ ෪ 𝑝Ƹ 𝑥 = 𝑓෪ 𝑎1 (𝑥1 ) 𝑓𝑎2 (𝑥2 ) 𝑓𝑐2 (𝑥4 )𝑓𝑐4 (𝑥4 )𝑓𝑏 𝑥2 , 𝑥3
変分法
変数の微小変化と関数の値 • 関数𝑦(𝑥)がある.𝑥に微小な変化𝜀を与えた時の関数の値は 𝑦(𝑥 + 𝜀)で ある. • ここで,関数𝑦(𝑥 + 𝜀) を𝑥の周りでテーラー展開する. 𝑑𝑦 1 𝑑2 𝑦 2 𝑦 𝑥+𝜀 =𝑦 𝑥 + 𝑥+𝜀−𝑥 + 𝑥 + 𝜀 − 𝑥 +⋯ 𝑑𝑥 2 𝑑𝑥 2 𝑑𝑦 1 𝑑2 𝑦 2 =𝑦 𝑥 + 𝜀+ 𝜀 +⋯ 𝑑𝑥 2 𝑑𝑥 2 • 𝜀は微小なので 𝜀の乗数が2以上の項をまとめて𝑜(𝜀 2 )と書くと •𝑦 𝑥+𝜀 =𝑦 𝑥 + • と書ける. 𝑑𝑦 𝑑𝑥 𝜀 + 𝑜(𝜀 2 )
多変数関数の場合 • 多変数関数𝑦(𝑥1 , … , 𝑥𝐷 ) がある.𝑥1 , … , 𝑥𝐷 にそれぞれ微小な変化𝑥1 + 𝜀1 , … , 𝑥𝐷 + 𝜀𝐷 を与えた時の関数の値は 𝑦(𝑥1 + 𝜀1 , … , 𝑥𝐷 + 𝜀𝐷 )である. • 𝑦(𝑥1 + 𝜀1 , … , 𝑥𝐷 + 𝜀𝐷 ) を𝑥1 , … , 𝑥𝐷 の周りでテーラー展開する. 𝑦 𝑥1 + 𝜀1 , … , 𝑥𝐷 + 𝜀𝐷 𝜕𝑦 𝜕𝑦 1 𝜕2𝑦 = 𝑦 𝑥1 , … , 𝑥𝐷 + 𝑥1 + 𝜀1 − 𝑥1 + ⋯ + 𝑥𝐷 + 𝜀𝐷 − 𝑥𝐷 + 𝑥1 + 𝜀1 − 𝑥1 2 2 𝜕𝑥1 𝜕𝑥𝐷 2 𝜕𝑥1 1 𝜕2𝑦 𝜕𝑦 𝜕𝑦 2 + ⋯+ 𝑥 + 𝜀𝐷 − 𝑥𝐷 + 𝑥 + 𝜀1 − 𝑥1 𝑥2 + 𝜀2 − 𝑥2 + ⋯ 2 𝜕𝑥𝐷2 𝐷 𝜕𝑥1 𝜕𝑥2 1 𝜕𝑦 𝜕𝑦 + 𝑥 + 𝜀𝐷−1 − 𝑥𝐷−1 𝑥𝐷 + 𝜀𝐷 − 𝑥𝐷 + ⋯ 𝜕𝑥𝐷−1 𝜕𝑥𝐷 𝐷−1 𝜕𝑦 𝜕𝑦 1 𝜕 2 𝑦 2 𝜕𝑦 𝜕𝑦 𝜕𝑦 𝜕𝑦 =𝑦 𝑥 + 𝜀1 + ⋯ + 𝜀𝐷 + 𝜀 + 𝜀 𝜀 + ⋯ + 𝜀 𝜀 +⋯ 𝜕𝑥1 𝜕𝑥𝐷 2 𝜕𝑥12 1 𝜕𝑥1 𝜕𝑥2 1 2 𝜕𝑥𝐷−1 𝜕𝑥𝐷 𝐷−1 𝐷
多変数関数の場合 • 𝜀1 , … , 𝜀𝐷 は微小なので 𝜀𝑖 が複数かけてある項をまとめて𝑜(𝜀 2 )と書くと • 𝑦 𝑥 + 𝜀 = 𝑦 𝑥 + σ𝐷 𝑖=1 𝜕𝑦 2) 𝜀 + 𝑜(𝜀 𝑖 𝜕𝑥 𝑖
汎関数 • 関数𝑦(𝑥)は任意の入力𝑥に対し出力𝑦を返す演算子と考えられる. • 同様に関数𝑦 𝑥 を入力として,出力𝐹を返す演算子も考えられる. • これを汎関数という. • エントロピーは一つの典型的な例である. •𝐻𝑝 𝑥 = 𝑥 𝑝 ln 𝑝 𝑥 𝑑𝑥 • 機械学習では,汎関数を最大化(最小化)する関数を求める必要もで てくる. • 先のエントロピーを最大化する関数はガウス分布であることはよく知 られている.
変分 • 変分とは汎関数の微分である. • 図のように関数𝑦 𝑥 に微小変化𝜀𝜂 𝑥 を加えたときの汎関数𝐹 𝑦 の変化 の度合いが変分である. • 汎関数の微小変化 • 𝐹 𝑦 𝑥 + 𝜀𝜂 𝑥 =𝐹 𝑦 𝑥 + 𝛿𝐹 2) + 𝑜(𝜀 𝛿𝑦 𝑥