209 Views
June 01, 18
スライド概要
2018/01/15
Deep Learning JP:
http://deeplearning.jp/seminar-2/
DL輪読会資料
Deep Learning 輪読会 2017 第18章 分配関数との対峙 理学系研究科附属 天文学教育研究センター 学部4年 吉村勇紀
構成 18.1 対数尤度 18.2 確率的最尤法 18.3 疑似尤度 18.4 スコアマッチングとレシオマッチング 18.5 雑音除去スコアマッチング 18.6 雑音対照推定 (NCE) 18.7 分配関数の推定
18.1 対数尤度 • 非正規化確率分布の正規化 – 正規化定数の計算は多くのモデルで一般に困難である • 対数尤度の勾配 – 分配関数に対応する項が生じる(負項) – 以下負項をMCMCする手法を見る
18.2 確率的最尤法とコントラスティブ・ダイバージェンス • 尤度関数最大化に対するMCMCの単純な適用 – 勾配1ステップ毎に混合を行う
18.2 確率的最尤法とコントラスティブ・ダイバージェンス • CDアルゴリズム – マルコフ連鎖の初期分布としてデータ分布を用いる
18.2 確率的最尤法とコントラスティブ・ダイバージェンス • CDアルゴリズムの問題点 – 偽モードの出現 – RBMや可視変数ボルツマンマシンでは最尤推定値に収束しない – CDの更新方向はいかなる関数の勾配方向にならない
18.2 確率的最尤法とコントラスティブ・ダイバージェンス • SML(PCD)アルゴリズム – マルコフ連鎖の初期分布として前の勾配ステップの分布を用いる
18.3 疑似尤度 • 分配関数を計算せずに対数尤度を求める方法 – 条件付き確率の和で対数尤度を擬似的に表す – 条件付き確率は確率の比なので分配関数は打ち消して現れない – 疑似尤度 • 一般化疑似尤度 – インデックス集合として一般化 – 密度推定など完全な同時分布が必要なタスクには向かない – 相関がなるべくないようなインデックス集合が取れれば強力
18.4 スコアマッチングとレシオマッチング • スコアマッチング – モデル対数密度の入力微分とデータ対数密度の入力微分の二乗誤差を最小にする – 分配関数はxの関数ではないので、微分を取ることで落ちる – L(x,θ)の最小化は次の期待値の最小化と同じ – 対数密度の微分、二回微分が必要
18.4 スコアマッチングとレシオマッチング • レシオマッチング – スコアマッチングの離散データへの拡張 – 次の目的関数の事例平均を最小化する – 計算量はSMLのn倍 – 二値データや高次のスパースなデータ(単語など)に適用される
18.5 雑音除去スコアマッチング • スコアマッチングの正則化 – 新のデータ分布ではなく、次の分布に置き換える – 実際には真のデータ分布ではなく経験分布しか使えないから – 一致推定量の漸近的一致性は失われる
18.6 雑音対照推定 (NCE) • 分配関数も同時に推定する – 次の対数尤度からパラメータと分配関数の近似値を同時に推定する – 単純な尤度最大化は不適(cが大きくなるだけ) – ノイズ分布を導入してスイッチ変数で切り替える
18.7 分配関数の推定 • 重点サンプリング – 一般にp_1は高次元の複雑な分布なので質の悪い推定になってしまう
18.7 分配関数の推定 • 焼きなまし重点サンプリング – が大きい時に中間分布を挟んで隔たりを埋める方法 – 分配関数の比は次のように表せる – 中間分布 -> 加重幾何平均をよく用いる – 中間分布のサンプリングはMCMC
18.7 分配関数の推定 • 焼きなまし重点サンプリング – 手順 – 重要度重み – 分配関数の近似
18.7 分配関数の推定 • ブリッジサンプリング – 1つの中間分布(ブリッジ)で補間する – が大きい場合にも適用しうる – 最適なブリッジ分布 – 粗いrから始めて更新していく – AISとブリッジサンプリングを組み合わせた手法も提案されている
���� • �������9�D�D� – 69D������������������9 ��D������9��D���������� – ���� ������������9�9��D������������������������������� �������������69D�������������������������