21.8K Views
November 04, 22
スライド概要
期待自由エネルギーについて書かれた記事
https://medium.com/@solopchuk/tutorial-on-active-inference-30edcf50f5dc
のまとめスライドです.たまに更新しています.
より詳しく知りたい人は,Active inference 1, 2も読むと良いかもしれません(https://www.docswell.com/s/k_fujita/K7QJ8Z-2022-12-20-134638, https://www.docswell.com/s/k_fujita/ZVVJNE-2023-09-04-233859).
自由エネルギー原理2 期待自由エネルギー https://medium.com/@solopchuk/tutorial-on-active-inference-30edcf50f5dc のまとめ 公立小松大学 藤田 一寿 スライドに間違いがあるかもしれないし内容が古いので,研究で使 う際は必ず論文(Smith et al., 2022; Sajid et al., 2021など)をチェッ クすること!! Ver. 20241030 途中式があるので,論文を読むときの参考になるかも.
方策と行動
時系列で考える • 環境の状態は時間とともに変化する. • 状態は直前の状態に依存するとする. • それぞれの状態から,それに対応した観測が生まれる. 𝑡−1 𝑡 𝑡+1 true state 𝑠∗ 𝑠∗ 𝑠∗ 𝑜 𝑜 𝑜 環境 observation
時系列で考える • Agentは生成モデル𝑝(𝑜, 𝑠)の学習とそれぞれの時間で事後分布𝑞(𝑠)の近 似を得ることにより,真の生成過程𝑝(𝑜, 𝑠 ∗ )をモデル化しようとする. • 簡単な場合では,自由エネルギーを減らすようにパラメタを変えるこ とで探すことができる(自由エネルギーのスライド参照). 𝑡−1 𝑡 𝑡+1 true state 𝑠∗ 𝑠∗ 𝑜 𝑜 𝑝 𝑜 𝑠 𝑠∗ observation 𝑜 𝑞 𝑠𝑡 𝑝 𝑠𝑡 𝑠𝑡−1 𝑠 𝑠 Inference state 𝑠
行動してみる • 先の例は,環境の状態を受動的に観測するだけだった. • Agentが行動をする場合,その行動により状態が変わる. • つまり,行動が直接環境に影響を与え,異なる行動は異なる未来を導 くことになる. 𝑡−1 𝑡 true state 𝑡+1 𝑠∗ 𝑠∗ 𝑠∗ 𝑜 𝑜 𝑜 環境 observation 𝑝 𝑜 𝑠 観察 𝑝 𝑠𝑡 𝑠𝑡−1, 𝑢 𝑠 脳 𝑠 Inference state 𝑠
我々はどのような行動を取ればよいのか? • Agentは当然それぞれの時間で良い行動を選びたい. • 一方で,Agentは行動直後の結果のみを考えて行動しているのではなく, 時間的に離れた目標に向けて一連の行動をしている. • この一連の行動のルールを方策(policy)𝜋という. 𝑡−1 𝑡 true state 𝑡+1 𝑠∗ 𝑠∗ 𝑠∗ 𝑜 𝑜 𝑜 環境 observation 𝑝 𝑜 𝑠 観察 𝑝 𝑠𝑡 𝑠𝑡−1, 𝑢 𝜋 𝑠 𝑠 Inference state 方策をとる 脳 𝑠
方策 • Agentが取ることの出来る方策はたくさんある. • Active inferenceでは,それらすべてを考える. • だから,Agentはすべての可能な方策𝜋に対し,𝑝(𝑠 ∣ 𝑜)を𝑞(𝑠)で近似し 推論する. • 将来の自由エネルギーを最小化する方策が優先される. 𝑡−1 𝑡 true state 𝑡+1 𝑠∗ 𝑠∗ 𝑠∗ 𝑜 𝑜 𝑜 環境 𝑝 𝑜 𝑠 𝜋1 どの方策が 良いか? 𝜋2 𝑠 𝑠 𝜋3 脳 𝑞 𝑠𝑡 𝜋1 𝑠 𝑠𝑞 𝑠𝑡 𝜋2 𝑠 Inference state 𝑠 𝑞 𝑠𝑡 𝜋3 Inference 𝑠 𝑠 state Inference state 観察 𝑠 強化学習では将来得られる報酬が 多い行動が優先される. 強化学習では,方策は𝑝(𝑢 ∣ 𝑠).
期待自由エネルギー
期待自由エネルギー • 将来の自由エネルギーを最小化するためには, 将来の自由エネルギー を知る必要がある. • 将来どれほどの自由エネルギーになるかを知るためには自由エネルギ ーの期待値を取る必要がある. • 将来の自由エネルギーはAgentがとる方策にも依存する.
期待自由エネルギー • 自由エネルギーの式を,方策𝜋を考慮したものに書き換える. • σ𝑠 𝑞 𝑠 log 𝑞 𝑠 𝑝 𝑜,𝑠 → σ𝑠 𝑞 𝑠𝑡 ∣ 𝜋 log 𝑞 𝑠𝑡 ∣𝜋 𝑝 𝑜𝑡 ,𝑠𝑡 ∣𝜋 • 更に𝑝 𝑜𝑡 について期待値をとる. • 𝐺 = σ𝑜 𝑝(𝑜𝑡 ∣ 𝑠𝑡 ) σ𝑠 𝑞 𝑠𝑡 ∣ 𝜋 log 𝑞 𝑠𝑡 ∣𝜋 𝑝 𝑜𝑡 ,𝑠𝑡 ∣𝜋 • ここでは𝑜𝑡 と𝑠𝑡 の関係はpolicyによらないとしている. • さらに式変形すると 𝑞 𝑠𝑡 ∣𝜋 • 𝐺 = σ𝑜,𝑠 𝑞 𝑠𝑡 ∣ 𝜋 𝑝(𝑜𝑡 ∣ 𝑠𝑡 ) log 𝑝 𝑜 ,𝑠 ∣𝜋 𝑡 𝑡 • = σ𝑜,𝑠 𝑞 𝑠𝑡 ∣ 𝜋 𝑝(𝑜𝑡 ∣ 𝑠𝑡 ) log 𝑞 𝑠𝑡 ∣𝜋 𝑝 𝑠𝑡 ∣𝑜𝑡 ,𝜋 𝑝(𝑜𝑡 ) 期待自由エネルギー
更に式変形する 𝑞 𝑠𝑡 ∣𝜋 • 𝐺 = σ𝑜,𝑠 𝑞 𝑠𝑡 ∣ 𝜋 𝑝(𝑜𝑡 ∣ 𝑠𝑡 ) log 𝑝 𝑠 ∣𝑜 ,𝜋 𝑝(𝑜 ) 𝑡 𝑡 𝑡 • = σ𝑜,𝑠 𝑞 𝑠𝑡 ∣ 𝜋 𝑝(𝑜𝑡 ∣ 𝑠𝑡 ) log 𝑞 𝑠𝑡 ∣𝜋 𝑝 𝑠𝑡 ∣𝑜𝑡 ,𝜋 − σ𝑜,𝑠 𝑞 𝑠𝑡 ∣ 𝜋 𝑝 𝑜𝑡 ∣ 𝑠𝑡 log 𝑝 𝑜𝑡 𝑝 𝑠𝑡 ∣𝑜𝑡 ,𝜋 • = − σ𝑜,𝑠 𝑞 𝑠𝑡 ∣ 𝜋 𝑝(𝑜𝑡 ∣ 𝑠𝑡 ) log 𝑞 𝑠 ∣𝜋 𝑡 − σ𝑜,𝑠 𝑞 𝑠𝑡 ∣ 𝜋 𝑝 𝑜𝑡 ∣ 𝑠𝑡 log 𝑝 𝑜𝑡 𝑝 𝑠𝑡 ∣𝑜𝑡 ,𝜋 • σ𝑜,𝑠 𝑞 𝑠𝑡 ∣ 𝜋 𝑝(𝑜𝑡 ∣ 𝑠𝑡 ) log 𝑞 𝑠 ∣𝜋 をepistemic valueという. 𝑡
さらに式変形する • 𝐺 = σ𝑜,𝑠 𝑞 𝑠𝑡 ∣ 𝜋 𝑝(𝑜𝑡 ∣ 𝑠𝑡 ) log • = σ𝑜,𝑠 𝑞 𝑠𝑡 ∣ 𝜋 𝑝(𝑜𝑡 ∣ 𝑠𝑡 ) log • = σ𝑜,𝑠 𝑞 𝑠𝑡 ∣ 𝜋 𝑝(𝑜𝑡 ∣ 𝑠𝑡 ) log 𝑞 𝑜𝑡 ∣𝜋 𝑝 𝑜𝑡 ∣𝑠𝑡 ,𝜋 − σ𝑜,𝑠 𝑞 𝑠𝑡 ∣ 𝜋 𝑝 𝑜𝑡 ∣ 𝑠𝑡 log 𝑝 𝑜𝑡 𝑞 𝑜𝑡 ∣𝜋 𝑝 𝑜𝑡 ∣𝑠𝑡 ,𝜋 𝑝 𝑜𝑡 𝑞 𝑜𝑡 ∣𝜋 𝑝 𝑜𝑡 − σ𝑜,𝑠 𝑞 𝑠𝑡 ∣ 𝜋 𝑝(𝑜𝑡 ∣ 𝑠𝑡 ) log 𝑝(𝑜𝑡 ∣ 𝑠𝑡 , 𝜋) • 近似が十分正確だとすれば𝑞 𝑜𝑡 ∣ 𝑠𝑡 = 𝑝 𝑜𝑡 ∣ 𝑠𝑡 と見なせるので • 𝐺 = σ𝑜,𝑠 𝑞 𝑠𝑡 ∣ 𝜋 𝑞 𝑜𝑡 ∣ 𝑠𝑡 log • = σ𝑜,𝑠 𝑞 𝑜𝑡 , 𝑠𝑡 ∣ 𝜋 log • = σ𝑜 𝑞 𝑜𝑡 , ∣ 𝜋 log 𝑞 𝑜𝑡 ∣𝜋 𝑝 𝑜𝑡 𝑞 𝑜𝑡 ∣𝜋 𝑝 𝑜𝑡 • = 𝐾𝐿 𝑞 𝑜𝑡 ∣ 𝜋 ||𝑝 𝑜𝑡 𝑞 𝑜𝑡 ∣𝜋 𝑝 𝑜𝑡 − σ𝑜,𝑠 𝑞 𝑠𝑡 ∣ 𝜋 𝑝(𝑜𝑡 ∣ 𝑠𝑡 ) log 𝑝(𝑜𝑡 ∣ 𝑠𝑡 , 𝜋) − σ𝑠 𝑞 𝑠𝑡 ∣ 𝜋 σ𝑜 𝑝(𝑜𝑡 ∣ 𝑠𝑡 ) log 𝑝(𝑜𝑡 ∣ 𝑠𝑡 , 𝜋) 𝑜𝑠 と𝑠𝑡 の関係はpolicyに よらない − σ𝑠 𝑞 𝑠𝑡 ∣ 𝜋 σ𝑜 𝑝 𝑜𝑡 ∣ 𝑠𝑡 log 𝑝 𝑜𝑡 𝑠𝑡 + σ𝑠 𝑞 𝑠𝑡 ∣ 𝜋 𝐻[𝑝 𝑜𝑡 𝑠𝑡 ] 𝐻 𝑝 𝑜𝑡 𝑠𝑡 = − 𝑝 𝑜𝑡 ∣ 𝑠𝑡 log 𝑝 𝑜𝑡 𝑠𝑡 𝑜
最終的な期待自由エネルギーの式 • 𝐺 = 𝐾𝐿 𝑞 𝑜𝑡 ∣ 𝜋 ||𝑝 𝑜𝑡 Expected cost + σ𝑠 𝑞 𝑠𝑡 ∣ 𝜋 𝐻[𝑝 𝑜𝑡 𝑠𝑡 ] Expected ambiguity • Expected costは,方策𝜋の下での予想される観測𝑞 𝑜𝑡 ∣ 𝜋 とprior preferences 𝑝 𝑜𝑡 の2つの分布の間のKLダイバージェンスである.つま り,期待自由エネルギーを最小化すると,Agentが望む観測をもたらす ような方策を好むことになる. • Expected Ambiguityは,𝑝(𝑜 ∣ 𝑠)のエントロピーの期待値である.つま り,状態と観測値間のマッピング𝑝 𝑜 𝑠 がどれだけ不確実であるかを定 量化している. Prior prefernces 乾の訳では事前の選好とされていた.Agentが好む観測の分布を意味する.AgentはPrior preferencesを目指し行動する. Smit et al.の論文ではPrior preference distributionを𝑝(𝑜 ∣ 𝐶)と表現する.変数𝐶は,エージェントのpreferencesを表すとされている. Parr et al, 2022によればActive inferenceの論文では𝐶がしばしば省略されるらしい.
Estimetic valueの考察
Epistemic valueの変形 𝑝 𝑠𝑡 ∣𝑜𝑡 ,𝜋 • σ𝑜,𝑠 𝑞 𝑠𝑡 ∣ 𝜋 𝑝(𝑜𝑡 ∣ 𝑠𝑡 ) log 𝑞 𝑠 ∣𝜋 𝑡 𝑝 𝑠𝑡 ∣𝑜𝑡 ,𝜋 • log 𝑞 𝑠 ∣𝜋 𝑡 𝑝 𝑠𝑡 ∣𝑜𝑡 ,𝜋 𝑞 𝑜𝑡 ∣𝜋 = log 𝑞 𝑠 ∣𝜋 𝑞(𝑜 ∣𝜋) 𝑡 𝑡 • 推定が正確だとすれば𝑞 𝑜𝑡 ∣ 𝜋 = 𝑝 𝑜𝑡 ∣ 𝜋 となるから 𝑝 𝑠𝑡 ∣𝑜𝑡 ,𝜋 𝑞 𝑜𝑡 ∣𝜋 • log 𝑞 𝑠 ∣𝜋 𝑞(𝑜 ∣𝜋) 𝑡 𝑡 𝑝 𝑜𝑡 ,𝑠𝑡 ∣𝜋 𝑝 𝑜𝑡 ∣𝑠𝑡 ,𝜋 𝑞(𝑠𝑡 ∣𝜋) 𝑝 𝑜𝑡 ∣𝑠𝑡 ,𝜋 = log 𝑞 𝑠 ∣𝜋 𝑞(𝑜 ∣𝜋) = log 𝑞 𝑠 ∣𝜋 𝑞(𝑜 ∣𝜋) = log 𝑞(𝑜 ∣𝜋) 𝑡 𝑡 𝑡 𝑡 𝑡 • よって • σ𝑜,𝑠 𝑞 𝑠𝑡 ∣ 𝜋 𝑝(𝑜𝑡 ∣ 𝑠𝑡 ) log 𝑝 𝑠𝑡 ∣𝑜𝑡 ,𝜋 𝑞 𝑠𝑡 ∣𝜋 = σ𝑜,𝑠 𝑞 𝑠𝑡 ∣ 𝜋 𝑝(𝑜𝑡 ∣ 𝑠𝑡 ) log 𝑝 𝑜𝑡 ∣𝑠𝑡 ,𝜋 𝑞 𝑜𝑡 ∣𝜋
Epistemic valueは相互情報量 • 𝑀𝐼 𝑎, 𝑏 = σ𝑎𝑏 𝑝 𝑎, 𝑏 𝑝 𝑎,𝑏 log 𝑝 𝑎 𝑝 𝑏 𝑝 𝑎∣𝑏 𝑝 𝑏 𝑝 𝑎∣𝑏 • = σ𝑎𝑏 𝑝 𝑎 ∣ 𝑏 𝑝 𝑏 log 𝑝 𝑎 𝑝 𝑏 = σ𝑎𝑏 𝑝 𝑎 ∣ 𝑏 𝑝 𝑏 log 𝑝 𝑎 = 𝐻 𝑝 𝑎 − 𝐻𝑝 𝑎 𝑏 =𝐻 𝑝 𝑏 −𝐻 𝑝 𝑏 𝑎 • 𝑀𝐼 𝑜, 𝑠 = σ𝑜,𝑠 𝑝(𝑜𝑡 ∣ 𝑠𝑡 )𝑞 𝑠𝑡 ∣ 𝜋 𝑝 𝑜𝑡 ∣𝑠𝑡 ,𝜋 log 𝑞 𝑜 ∣𝜋 𝑡 Epistemic value おまけ 𝑀𝐼(𝑎, 𝑏) = 𝑝 𝑎 ∣ 𝑏 𝑝(𝑏) log 𝑎𝑏 𝑝 𝑎∣𝑏 𝑝 𝑏 𝑝 𝑎 𝑏 = 𝑝 𝑎 𝑏 𝑝 𝑏 log 𝑝 𝑎 𝑝 𝑏 𝑝 𝑎 𝑎𝑏 = σ𝑎𝑏 𝑝 𝑎 𝑏 𝑝 𝑏 log 𝑝 𝑎 𝑏 − σ𝑎𝑏 𝑝 𝑎 𝑏 𝑝 𝑏 log 𝑝 𝑎 = 𝑝 𝑎 𝑏 𝑝 𝑏 log 𝑝 𝑎 𝑏 − 𝑝 𝑎 log 𝑝 𝑎 𝑎𝑏 =𝐻 𝑝 𝑎 −𝐻 𝑝 𝑎 𝑏 𝑎 =𝐻 𝑝 𝑏 −𝐻 𝑝 𝑏 𝑎
Epistemic valueの解釈 • 𝑀𝐼 𝑜, 𝑠 = σ𝑜,𝑠 𝑞 𝑠𝑡 ∣ 𝜋 𝑝(𝑜𝑡 ∣ 𝑠𝑡 ) log • = 𝐻 𝑞 𝑠𝑡 ∣ 𝜋 𝑝 𝑜𝑡 ∣𝑠𝑡 ,𝜋 𝑞 𝑜𝑡 ∣𝜋 − 𝐻 𝑝 𝑠𝑡 𝑜𝑡 • Agentが非常に確信している場合,𝐻 𝑞 𝑠𝑡 ∣ 𝜋 は小さく,これ以上学ぶこ とは何もないので, Epistemic value(認識価値)は低くなる. • 確信していれば,方策𝜋を選んだときに起こることが推測できるため,エントロ ピーが小さくなる. • 例:方策𝜋をとったとき,必ず状態𝑠になると確信していれば, 𝐻 𝑞 𝑠𝑡 ∣ 𝜋 は0と なる. • 確信が持てない場合, 𝐻 𝑞 𝑠𝑡 ∣ 𝜋 が高い. エントロピーが最大,最 小となる条件を確認しよ う. • 確信が持てていないため,どの状態になるか分からない. • 結果, Epistemic valueは高くなる . • 例:方策𝜋をとったとき,どの状態になるか分からず,Agentがすべての状態が当 確率に現れると思っていれば, 𝐻 𝑞 𝑠𝑡 ∣ 𝜋 は最大値を取る.
具体例で見るActive inferenceと期待自由エネルギ ー:準備
空腹かどうか • お腹の空き具合と食べることを考える. • 胃の中の状態𝑠は,満杯1とカラ2の2種類である. • 観測𝑜は,満腹1と空腹2の2種類である. • 生成モデル𝑝 𝑜, 𝑠 のパラメタは既知であるとする. 胃の中の状態𝑠 満腹かどうか𝑜 1: 満杯 1: 満腹 2: カラ 2: 空腹
満腹感と胃の状態 • 満腹と感じるかどうかは胃の中の状態𝑠に依存するのでlikelihood 𝑝 𝑜 𝑠 で表せる. state Likelihood 𝑝 𝑜 𝑠 1: 満杯 当然,胃が満杯だと満腹だ し,カラだと空腹になる. 2: カラ 1: 満腹 2: 空腹 observation
食べるかどうか • 食べるかどうかは𝑢で表す. • 状態𝑠𝑡 は以前の状態と行動に依存するので𝑝(𝑠𝑡 ∣ 𝑠𝑡−1 , 𝑢)と表せる. Transition 𝑝(𝑠𝑡 ∣ 𝑠𝑡−1, 𝑢) State 𝑡+1 u1: 食べる 1: 満杯 State 𝑡+1 u2: 食べない 1: 満杯 食べれば胃は満杯 になり,食べなけ ればからになる. 2: カラ 2: カラ State 𝑡 1: 満杯 2: カラ State 𝑡 1: 満杯 2: カラ
空腹具合 • Agentはprior preferences 𝑝 𝑜 を持つ. • Agentは空腹でないことを好むから,満腹が観測されることを好む. • 観測に対する好みを確率 𝑝 𝑜 で表す. Prior preferences 𝑝 𝑜 1: 満腹 2: 空腹 四角は確率を表す.濃いほ うが確率が高い. 空腹より満腹の方を好むの で満腹のほうがprior preferencesが高い.
方策 • 2つ先の未来までの行動が方策で決定されるとすると,policyは次の4 種類になる. 2つ先の行動 方策をとったとき状態𝑝(𝑠 ∣ 𝜋) • 𝜋1 :食べる,食べる • 𝜋2 :食べる,食べない 1: 満腹 𝜋1 1: 食べる • 𝜋3 :食べない,食べる • 𝜋4 :食べない,食べない 1: 食べる 2: 空腹 1: 満腹 𝜋2 1: 食べる 2: 食べない 2: 空腹 1: 満腹 𝜋3 2: 食べない 1: 食べる 2: 空腹 1: 満腹 𝜋4 2: 食べない 2: 食べない 2: 空腹 𝑡+1
期待自由エネルギーの計算 -KLダイバージェンス• Agentは状態と観測の関係𝑝 𝑜 𝑠 を知っているから,各方策の予測し た(predicted)観測𝑞 𝑜 𝜋 を推定する(estimate)ことができる. • 方策𝜋を決める→行動𝑢する→状態𝑠が変わる→観測𝑜を得る,という流れだ から方策さえ決まれば得られる観測がどうなるか推定できる. • よって,各ポリシーの期待自由エネルギーのKL 項を計算できる. 𝐺 = 𝐾𝐿 𝑞 𝑜𝑡 ∣ 𝜋 ||𝑝 𝑜𝑡 + 𝑞 𝑠𝑡 ∣ 𝜋 𝐻[𝑝 𝑜𝑡 𝑠𝑡 ] 𝑠 Desired observation 𝑝 𝑜 Predicted observation 𝑞 𝑜 𝜋 1: 満腹 1: 満腹 2: 空腹 2: 空腹 𝑝(𝑜)と𝑞 𝑜 𝜋 のKLダイバージェ ンスが小さければ小さいほど, Agentの希望する結果を得られる可 能性が高い.
期待自由エネルギーの計算 -ambiduity• 方策𝜋が決まれば,どのような状態になるか推定できる. • 状態𝑠が決まれば,何が観測されるか推定できる. • よって,𝑝(𝑜 ∣ 𝑠) に依存するambiguity項も評価できる. 𝐺 = 𝐾𝐿 𝑞 𝑜𝑡 ∣ 𝜋 ||𝑝 𝑜𝑡 + 𝑞 𝑠𝑡 ∣ 𝜋 𝐻[𝑝 𝑜𝑡 𝑠𝑡 ] 𝑠 2つ先の行動 方策をとったとき状態𝑝(𝑠 ∣ 𝜋) 1: 満腹 𝜋1 1: 食べる 1: 食べる 1: 満腹 𝜋2 1: 食べる 2: 食べない state 2: 空腹 Likelihood 𝑝 𝑜 𝑠 1: 満杯 2: 空腹 1: 満腹 2: カラ 𝜋3 2: 食べない 1: 食べる 2: 空腹 1: 満腹 𝜋4 2: 食べない 2: 食べない 2: 空腹 1: 満腹 2: 空腹 observation
具体例で見るActive inferenceと期待自由エネルギ ー:次の行動を決める
どのようにして次の行動を決めるのか • まず,将来の時間ステップで期待自由エネルギーを合計する. • それを方策𝜋に対する確率分布𝑞 𝜋 に変換する. • その確率は自由エネルギーが小さいほど高い. 期待自由エネルギー 𝐺 = 𝐾𝐿 𝑞 𝑜𝑡 ∣ 𝜋 ||𝑝 𝑜𝑡 + 𝑞 𝑠𝑡 ∣ 𝜋 𝐻[𝑝 𝑜𝑡 𝑠𝑡 ] 𝛾 𝑠 2つ先の行動 方策をとったとき状態𝑝(𝑠 ∣ 𝜋) 𝑞 𝜋 high Precision𝛾をかける. 1: 満腹 𝜋1 1: 食べる 1: 食べる 2: 空腹 1: 満腹 𝜋2 1: 食べる 2: 食べない 2: 空腹 1: 満腹 𝜋3 2: 食べない 1: 食べる 2: 空腹 1: 満腹 𝜋4 2: 食べない 2: 食べない 2: 空腹 Softmax関数𝜎で規格化する. 𝑞 𝜋 = 𝜎 −𝛾𝐺(𝜋) low
精度 • この変換の際に,自由エネルギーは精度𝛾によって重み付けされる. • 𝛾は方策に対する信念(belief)をどれほど確信しているかを表す. • 精度を極端に変えることによって,agentの信念は一つの方策に集約された り,一様に広がったりする. • これは探索と利用を決める上で重要である.良い方策を持っていると確信 するほど(すなわち,精度が高いほど)探索は少なくなり,その逆もまた然り である. 期待自由エネルギー 𝐺 = 𝐾𝐿 𝑞 𝑜𝑡 ∣ 𝜋 ||𝑝 𝑜𝑡 + 𝑞 𝑠𝑡 ∣ 𝜋 𝐻[𝑝 𝑜𝑡 𝑠𝑡 ] 2つ先の行動 方策をとったとき状態𝑝(𝑠 ∣ 𝜋) 1: 満腹 𝜋1 1: 食べる 1: 食べる Precision𝛾をかける. 2: 空腹 1: 満腹 𝜋2 1: 食べる 2: 食べない 2: 空腹 1: 満腹 𝜋3 2: 食べない 1: 食べる 2: 空腹 1: 満腹 𝜋4 𝑞 𝜋 𝑠 2: 食べない 2: 食べない 2: 空腹 Softmax関数𝜎で規格化する. 𝑞 𝜋 = 𝜎 −𝛾𝐺(𝜋) 𝛾 high low 確信を持っていれば, 𝛾が大きくなる.よっ て,探索しなくなる. 𝛾はsoftmaxの温度パ ラメタの逆数だと思え ば良い.
期待自由エネルギーを最小にする方策を選ばない • ここで,期待自由エネルギーを最小にする方策を選ぶこともできる. • しかし,現在最小にすると思われる方策を取ると,真に最小にする方 策を選ぶ機会がなくなる. • その代わりに,Agentは望む観測を得られやすい方策をとるとする. 期待自由エネルギー 2つ先の行動 方策をとったとき状態𝑝(𝑠 ∣ 𝜋) 1: 満腹 𝜋1 1: 食べる 1: 食べる 𝐺 = 𝐾𝐿 𝑞 𝑜𝑡 ∣ 𝜋 ||𝑝 𝑜𝑡 𝑞 𝜋 + 𝑞 𝑠𝑡 ∣ 𝜋 𝐻[𝑝 𝑜𝑡 𝑠𝑡 ] 𝑠 Precision𝛾をかける. 2: 空腹 1: 満腹 𝜋2 1: 食べる 2: 食べない 2: 空腹 1: 満腹 𝜋3 2: 食べない 1: 食べる 2: 空腹 1: 満腹 𝜋4 2: 食べない 2: 食べない 2: 空腹 Softmax関数𝜎で規格化する. 𝑞 𝜋 = 𝜎 −𝛾𝐺(𝜋) 𝛾 high low 確信を持って いれば,𝛾が大 きくなる.よ って,探索し なくなる. 𝛾はsoftmaxの 温度パラメタ の逆数だと思 えば良い.
状態𝑝(𝑠 ∣ 𝜋)と𝑞 𝜋 の積 • まず,方策で生じる状態𝑝(𝑠 ∣ 𝜋)と𝑞 𝜋 の積の和を取る. 期待自由エネルギー 𝐺 = 𝐾𝐿 𝑞 𝑜𝑡 ∣ 𝜋 ||𝑝 𝑜𝑡 + 𝑞 𝑠𝑡 ∣ 𝜋 𝐻[𝑝 𝑜𝑡 𝑠𝑡 ] 𝑠 2つ先の行動 方策をとったとき状態𝑝(𝑠 ∣ 𝜋) 𝑞 𝜋 Precision𝛾をかける. 1: 満腹 𝜋1 1: 食べる 1: 食べる 2: 空腹 Softmax関数𝜎で規格化する. 𝑞 𝜋 = 𝜎 −𝛾𝐺(𝜋) 1: 満腹 𝜋2 1: 食べる 2: 食べない 2: 空腹 𝑞 𝑠 1: 満腹 𝜋3 2: 食べない 1: 食べる 和 2: 空腹 1: 満腹 𝜋4 2: 食べない 2: 食べない 2: 空腹 𝑝 𝑠 𝜋 ×𝑞 𝜋 𝑞(𝑠|𝜋)の𝑞 𝜋 の下での期待値,つまり重み付き和 をとる.その重みは各方策の確率で定義される。 この結果、周辺分布 𝑞 𝑠 が得られる.この分布に は方策が暗黙のうちに組み込まれている。
次に生じる観測の予測 • 次に、期待される観測の確率𝑞 𝑜𝑡+1 を得るために,次の時間ステップ の状態の信念𝑞 𝑠𝑡+1 に𝑝 𝑜 𝑠 を掛ける. • そして,𝑞 𝑜𝑡+1 , 𝑠𝑡+1 を周辺化すると𝑞 𝑜𝑡+1 が求まる. • これは期待自由エネルギーから求まった次に生じる観測に対する信念であ る. 期待自由エネルギー 𝐺 = 𝐾𝐿 𝑞 𝑜𝑡 ∣ 𝜋 ||𝑝 𝑜𝑡 + 𝑞 𝑠𝑡 ∣ 𝜋 𝐻[𝑝 𝑜𝑡 𝑠𝑡 ] 𝑠 2つ先の行動 方策をとったとき状態𝑝(𝑠 ∣ 𝜋) Likelihood state 𝑝 𝑜 𝑠 𝑞 𝜋 1: 満腹 1: 満杯 𝜋1 1: 食べる 1: 食べる 2: 空腹 積 𝜋2 1: 食べる 2: 食べない 2: 空腹 𝑞 𝑠 1: 満腹 𝜋3 2: 食べない 1: 食べる 和 2: 空腹 𝑡+1 1: 満腹 𝜋4 2: 食べない 2: 食べない 2: 空腹 周辺化 2: カラ 1: 満腹 2: 空腹 observation 1: 満腹 積 𝑞 𝑜𝑡+1
ある行動をとったときに生じる観測 • 現在の状態𝑠𝑡 から行動uをとったときに生じる次の状態𝑠𝑡+1 は, 𝑝(𝑠𝑡 ∣ 𝑠𝑡−1 , 𝑢)で決まる. • まず現在の状態に対する信念𝑞(𝑠𝑡 )をとり,行動u1,u2について,次の 状態𝑠𝑡+1 に対する信念 𝑞 𝑠𝑡+1 を求める. • これを𝑝 𝑜 𝑠 にかけて周辺化すると,次の観測の仮説 𝑝 𝑜𝑡+1 を得 る. u1: 食べる 積 𝑝(𝑠𝑡+1 ∣ 𝑠𝑡 , 𝑢) 𝑠𝑡+1 1: 満杯 𝑞 𝑠𝑡+1 Likelihood 𝑝 𝑜 𝑠 積 周辺化 𝑝 𝑜𝑡+1 周辺化 2: カラ 𝑠𝑡 1: 満杯 2: カラ 𝑞(𝑠𝑡 ) 積 u2: 食べない 𝑠𝑡+1 1: 満杯 𝑞 𝑠𝑡+1 周辺化 2: カラ 𝑠𝑡 1: 満杯 2: カラ Likelihood 𝑝 𝑜 𝑠 積 𝑝 𝑜𝑡+1 周辺化
KLダイバージェンスを最小にする行動をとる • 期待自由エネルギーから求めた𝑞 𝑜𝑡+1 と,行動 から求めた𝑝 𝑜𝑡+1 のKLダイバージェンスを計 算する. 𝑞 𝑜𝑡+1 • KLダイバージェンスが最小となる行動をAgent はとる. KL 𝑝 𝑜𝑡+1 u1: 食べる 𝑝 𝑜𝑡+1 u2: 食べない 最小値を 取る行動 u1: 食べる
まとめの図 期待自由エネルギー 𝐺 = 𝐾𝐿 𝑞 𝑜𝑡 ∣ 𝜋 ||𝑝 𝑜𝑡 𝑠 Softmax関数 方策をとったとき状態𝑝(𝑠 ∣ 𝜋) 𝜋1 Likelihood state 𝑝 𝑜 𝑠 𝑞 𝜋 1: 満腹 𝑞 𝑜𝑡+1 1: 満杯 積 2: 空腹 周辺化 2: カラ 1: 満腹 2: 空腹 observation 1: 満腹 𝜋2 + 𝑞 𝑠𝑡 ∣ 𝜋 𝐻[𝑝 𝑜𝑡 𝑠𝑡 ] 2: 空腹 KL 𝑞 𝑠 1: 満腹 𝜋3 𝑡+1 1: 満腹 𝜋4 2: 空腹 u1: 食べる 和 2: 空腹 積 積 Likelihood 𝑝 𝑜 𝑠 𝑠𝑡+1 𝑝(𝑠𝑡+1 ∣ 𝑠𝑡 , 𝑢) 𝑝 𝑠𝑡+1 1: 満杯 周辺化 積 𝑝 𝑜𝑡+1 周辺化 2: カラ 𝑠𝑡 1: 満杯 2: カラ 𝑠𝑡 u2: 食べない 𝑠𝑡+1 1: 満杯 積 𝑝 𝑠𝑡+1 周辺化 2: カラ 𝑠𝑡 1: 満杯 2: カラ Likelihood 𝑝 𝑜 𝑠 積 𝑝 𝑜𝑡+1 周辺化 最小値を 取る行動 u1: 食べる