深層生成モデルの概要と世界モデルへの発展

第33回⽇本神経回路学会全国⼤会サテライトシンポジウム理論と実験の融合のための神経科学チュートリアル深層学習︓深層⽣成モデルの概要と世界モデルへの発展 2023/09/03 鈴⽊雅⼤ 1

⾃⼰紹介鈴⽊雅⼤（東京⼤学⼤学院⼯学系研究科松尾研究室特任助教） ¤ 経歴 ¤ 2015年3⽉北海道⼤学情報科学研究科修了 ¤ 2018年3⽉東京⼤学⼯学系研究科修了 ¤ 2018年4⽉〜 2020年7⽉東京⼤学⼯学系研究科特任研究員 ¤ 2020年8⽉〜東京⼤学⼯学系研究科特任助教その他兼業︓株式会社デンソー技術アドバイザー，⽴命館⼤学客員研究員 ¤ 専⾨分野︓ ¤ 転移学習・深層⽣成モデル・マルチモーダル学習 ¤ その他の活動︓ ¤ 「Deep Learning基礎講座」，「深層⽣成モデル」，「世界モデルと知能」などの講義担当 ¤ 「深層学習」「強化学習」の監訳（翻訳取りまとめ）・分担翻訳 2

3.

⽬次 ¤ 深層学習概論 ¤ 深層⽣成モデル ¤ 世界モデル ¤ 想定する聴講者︓ ¤ ⼈⼯知能や深層学習についてある程度知っている学⽣・研究者 3

4.

⼈⼯知能の歴史 ※縦軸は研究の盛り上がりをイメージ（正確ではない） 4

5.

⼈⼯知能の歴史を知る上でおすすめの本 5

6.

深層学習深層学習︓多層のニューラルネットワークで構成されたモデルを⽤いた機械学習⼈⼯ニューロン[McCulloch&Pitts 43] ¤ ⼊⼒，出⼒，バイアス（閾値）などを単純にモデル化 %! %# %" 1 活性化関数 #! ## ・・・⼊⼒ ! 重み ! " 出⼒ ' #" $ バイアス単純に書くと・・・ 6

7.

ニューラルネットワークの構造 ¤ 現在の深層学習の研究の多くが順伝播型ニューラルネットワーク（情報の流れが⼊⼒→出⼒の⼀⽅向）を扱う． ¤ 順伝播型ニューラルネットワークでは，ネットワークを階層構造にする．⼊⼒出⼒⼊⼒層隠れ層出⼒層ネットワークの流れ 7

8.

表現学習 ¤ なぜ深層学習が注⽬されるようになったのか︖ ook (2018-02-05 15:59) ¤ 階層構造によって特徴量を⾃動的に獲得できるようになった（表現学習） ¤ 実世界は本質的に様々な要素で構成されており，多層はそれらを個々の要素に分解する（もつれを解く）役割を果たしている． 5 ¤ 脳の⼤脳新⽪質でも，視覚野，聴覚野，運動野などは階層構造になっている．図 1.2: 深層学習入力写像学習図．意味理解評価，直接実行，画素値集合表出典︓深層学習(2018) 難．画素集合写像物体同定不可能思．深層学習，求画像関数複雑出典︓https://bit.ly/3Elsu0X ，生，複雑写像，一連．入 8

https://bit.ly/3Elsu0X

9.

Transformer ¤ Transformer[Vaswani+ 17]︓ ¤ Self-attentionとPositional Encodingがポイント（他にも⾊々あるが割愛）． ¤ Positional Encoding︓トークンの位置を埋め込む． ¤ Self-attention︓⽂書内の単語間の類似度（self-attention）に基づく注意メカニズム ¤ 効率的に並列化できるので（RNNなどと⽐べて）⼤規模化が容易． 9

10.

entire sentence. In order to incorporate a continuous global latent sentence representation, we first need a method to map between sentences and distributed representations that can be trained in an unsupervised setting. While no strong generative model is available for this problem, three nongenerative techniques have shown promise: sequence autoencoders, skip-thought, and paragraph vector. 深層⽣成モデル Sequence autoencoders have seen some success in pre-training sequence models for supervised downstream tasks (Dai & Le, 2015) and in generating complete documents (Li et al., 2015a). An autoencoder consists of an encoder function 'enc and a probabilistic decoder model p(x|~z = 'enc (x)), and maximizes the likelihood of a data case x conditioned on ~z , the learned code for x. In the case of a sequence autoencoder, both encoder and decoder are RNNs and data cases are sequences of tokens. There are serious problems with using standard autoencoders to learn feature extractors for global sentence features. In Table 1, we present the results of computing a path or homotopy between the encodings for two sentences and decoding each intermediate code. The intermediate sentences are generally ungrammatical and do not transition smoothly from one to the other. This suggests that these models do not generally learn a smooth, interpretable feature system for sentence encoding. In addition, since these models do not incorporate a prior over ~z , there is no practical way to use them in a generative setting to assign probabilities to sentences or to sample novel sentences. ¤ 深層学習の研究分野では，深層⽣成モデルの研究が進んでいる． ¤ ⽣成系（画像や⽂書）の他に，異常検知，半教師あり学習，表現学習，メタ学習など i went to the store to buy some groceries . i store to buy some groceries . i were to buy any groceries . horses are to buy any groceries . horses are to buy any animal . horses the favorite any animal . horses the favorite favorite animal . horses are my favorite animal . [Zhu + 17] Observation 1 [Ho+ 20] A Table 1: Sentences produced by greedily decoding from points between two sentence encodings with a conventional autoencoder. The intermediate sentences are not plausible English. Neural scene B v1i Two other models have shown promise in learning sentence encodings, but cannot be used in a representation generative setting: Skip-thought models (Kiros et al., 2015) are unsupervised learning models that take the same model r structure as a sequence autoencoder, but are trained to predict the words in Latent z a sentence given an encoded neighboring sentence from the same text, instead of given the target Rendering steps sentence itself. Finally, paragraph vector models (Le & Mikolov, 2014) are non-recurrent sentence representation models. Inr2a paragraph vector model, the hencoding of ah sentence is obtained by h + ··· r1 1 v2i Observation 2 [Li+ 19] [Bowman+ 15] v3i Observation 3 v1i v2i Representation network f Query 2v3 i 2 L Predicted view Generation network g [Eslami+ 18] Fig. 1. Schematic illustration of the Generative Query Network. (A) The agent observes [Saharia+ 22] 10

11.

⽣成モデル ¤ 観測されたデータが未知のデータ分布から⽣成されていると仮定し，その⽣成過程を確率分布によってモデル化する枠組み． ¤ 「データがどのようにできているか︖」を明⽰的に設計することができ，モデルからデータを⽣成（シミュレーション）することができる． !!"#" " データ分布観測変数近似 ! # !" " =$$ !" "|& !(&))& ⽣成観測データ % = '! ⽣成⽣成モデルパラメータ ) 潜在変数⽣成モデル / ) ~ +()) ( ~ +$ ((|)) ( $ !"# 11

12.

⽣成モデルの学習 ¤ ⽬標︓⽣成モデル!" (")がデータ分布!#$%$ (")を近似するようにしたい． ¤ ⽣成モデルの構造を設計した上で，近似を実現するようにパラメータ * を選ぶ． => ⽣成モデルの学習 (&'(' (') 近似 (% (') ¤ 分布間の「距離」にカルバック・ライブラーダイバージェンスを選択すると，尤度最⼤化に対応． ,+ = arg max 2 log (% ' ! % )! ∈+ 12

13.

⽣成モデルだとできること ¤ ⽣成︓ ¤ ⽣成モデルが学習できれば，未知のデータを⽣成できる ¤ 「⽣成」モデルと呼ばれるのはここから生成モデル ¤ 密度推定︓ ¤ データを⼊⼒すると，それがどれだけ⽣成モデルと違うかがわかる． ¤ 外れ値検出や異常検知に⽤いられる． ¤ ⽋損値補完，ノイズ除去︓ ¤ ⽋損やノイズのある⼊⼒を⼊れると，補完してくれる．出典） http://jblomo.github.io/datamining290/slides/2013-04-26-Outliers.html 13

14.

潜在変数 ¤ 観測データに対応する確率変数（観測変数）とは別に，観測データの背後にあると考える要因． ¤ 潜在変数は実際にはデータからは得られない． ¤ 観測データが画像などの場合は，その表現に対応する．潜在変数観測変数 5 ' "~!! ("|&) 例︓ネコの写真を観測データとすると，潜在変数は「ネコ」や「カメラの向き」などの表現に対応 https://www.slideshare.net/lubaelliott/emily-denton-unsupervised-learningof-disentangled-representations-from-video-creative-ai-meetup ※必ずしも潜在変数を明⽰的に持たない⽣成モデルもあります（⾃⼰回帰モデルなど）． 14

https://www.slideshare.net/lubaelliott/emily-denton-unsupervised-learning-

15.

⽣成モデルの推論 ¤ 推論（inference）︓ ¤ 観測変数から潜在変数の事後分布を求める． ¤ 結果から原因を求めることに対応し，⽣成モデルにおける⾮常に重要な概念． (% (5|') 5 "~!! ("|&) ' ¤ 例︓ネコの写真から，写っている動物（ネコ）やカメラの向きなどを求める． 15

16.

深層⽣成モデル ¤ 観測変数が複雑な場合，単純な確率分布では直接表現できない． ¤ 特に観測変数がベクトルで，次元間の依存関係が⾮線形な場合（⾼解像度画像など） ¤ 従来の⽣成モデルは，複雑な観測データを直接⽣成することは意図していなかった．複雑な関係性を表すには︖-> 深層ニューラルネットワーク（DNN） ¤ 深層⽣成モデル（deep generative model） ¤ 確率分布をDNNで表現した⽣成モデル． ) ~ +()) ) ¤ モデルパラメータは勾配情報に基づき学習．⽣成モデルによって明⽰的に⽣成過程をモデル化できる + DNNによって複雑な変数間の関係性を捉えられる ( ~ +$ ((|)) ( 深層ニューラルネットワークによる確率分布の表現 16

17.

深層⽣成モデルの種類モデル⽣成推論 VAE ⽣成モデル︓ " #, % = ∫ " # % " % (% 推論モデル︓ ) % # 低コスト可能（推論モデル） GAN ⽣成器︓ *(%) 識別器︓ -(#) 低コスト不可能（エンコーダを導⼊すれば可能）フロー（可逆な関数）︓ # = .(%) 低コスト可能（逆変換）条件付きモデル︓∏! "(0! |0" , … , 0!#" ) ⾼コスト潜在変数がないエネルギー関数︓3(#) ⾼コスト（反復）モデルの設計によるスコアネットワーク︓4(#) ⾼コスト（反復）潜在変数がない逆過程︓"(# $ ) ∏% "(#%#" |#% ) 拡散過程︓∏% )(#% |#%#" ) ⾼コスト（反復）可能（拡散過程）フローベース⾃⼰回帰モデルエネルギーベーススコアベース拡散モデル 17

18.

Variational Autoencoder ¤ Variational autoencoder（VAE） [Kingma+ 13, Rezende+ 14] ¤ 潜在変数モデルの確率分布をDNNで表現（深層潜在変数モデル）． ¤ 潜在変数0の近似事後分布（推論）を，観測%を⼊⼒とした関数（DNN）で表現（amortized variational inference）推論モデル（近似事後分布） ) " # #& $ % = '($|* = +! % , - = +! (%)) * - ! ~ #" (!|&) 7, (5|') % & ~ #(&) 事前分布 "(#) = 7(0, 9) ⽣成モデル "' # % = ℬ(#|6 = .( % ) % ( 6 ※ /$ %, $ = /$ % $ /($)が⽣成モデルだが，慣例上/$ % $ を⽣成モデルと呼ぶ 18

19.

[beta]

Variational Autoencoder
¤ ⽬的関数︓対数周辺尤度の変分下界（エビデンス下界，evidence lower bound︔ELBO）

log (% (') ≥ 9/0 5 ' log (% '|5 − ;01 [7, 5 ' ∥ ( 5 ]
推論モデルの正則化

負の再構成誤差

¤ 分布のパラメータ化等の話を省略して，情報の流れを確認．

¤ VAEでは推論モデルで⼊⼒-を.にエンコードし，⽣成モデルで.から-をデコード（再構成）する．
¤ 推論モデルと⽣成モデルをオートエンコーダにおけるエンコーダとデコーダとみなせる．

再構成

⼊⼒
(

エンコーダ,: & "

)

デコーダ!! "|&

(

19

20.

rmed through the inverse CDF of the Gaussian to produce h of these values z, we plotted the corresponding generative ⽣成画像 ¤ ランダムな&からデコーダによって画像!をサンプリング ¤ データ集合と同じような画像が⽣成できているが，輪郭等がぼやける傾向がある． [Kingma+ 13] @AlecRad 20

21.

⽣成画像 ¤ Nouveau VAE（NVAE）[Vahdat+ 20] ¤ VAEの潜在変数を階層化する． ¤ 利点︓ ¤ 階層的な表現を獲得できる． ¤ モデル全体の表現⼒を向上させることができる． ¤ より柔軟な推論が可能となる． 21

22.

Generative adversarial network ¤ Generative adversarial network（GAN） [Goodfellow+ 14] ¤ ⽣成モデル*(;)︓潜在変数;から0を⽣成する写像 ¤ 識別器-(0)︓0が⽣成されたものか，真のデータかを識別潜在変数0 生成モデルG %3 真のデータ % 識別器 D ¤ 1と2で次のゲームをする（敵対的学習）． ¤ *はなるべく-を騙すようにする ¤ -はなるべくうまく識別できるようにする． ¤ 最終的に，真のデータ%の分布を1が近似するようになる． 22

23.

⽣成モデルから画像⽣成（GAN） Figure 2: Generated bedrooms after one training pass through the dataset. Theoretically, the model could learn to memorize training examples, but this is experimentally unlikely as we train with a small learning rate and minibatch SGD. We are aware of no prior empirical evidence demonstrating memorization with SGD and a small learning rate. ¤ ランダムなノイズから画像を⽣成 [Radford+ 15] ¤ VAEと⽐べて，はっきりした画像を⽣成できることが特徴 23

24.

learned with AEVB. Since the prior of the latent spa on the潜在空間での表現学習 unit square were transformed through the inv of ¤the latent variables z. For each of these values z, w 潜在変数zの空間上（潜在空間）では，画像情報の「良い表現」が獲得されている（表現学習）． ) with the learned parameters ✓. ¤ 潜在空間（左下）を移動すると，対応する画像を⽣成することができる ¤ 画像情報がより低次元の潜在空間上に射影されている． arned Frey Face manifold ここを変化させる 5 "~!! ("|&) ' [Kingma+ 13]より (b) Learned MNIST manifold 24

25.

良い表現の例︓画像の「演算」 ¤ 潜在空間上で⾜し算や引き算を⾏うと，対応する画像を⽣成することができる（分散表現の獲得）出典）https://slidetodoc.com/variational-autoencoders-alon-oring-28-05-18-recap/ 25

26.

Disentangled representation ¤ Disentangled representation（もつれを解く表現） ¤ データは独⽴に変化する要素から⽣成されているという仮定 ¤ 例) 物体の向き，光源の状態 ¤ 利点︓ https://www.slideshare.net/lubaelliott/emily-denton-unsupervised-learning-of-disentangledrepresentations-from-video-creative-ai-meetup ¤ ⼈間が解釈しやすい表現（「概念」の獲得） ¤ 様々なタスクに転⽤できる可能性 ¤ 推論モデルへの正則化によってdisentangleな表現を獲得可能[Higgins+ 17] 26

https://www.slideshare.net/lubaelliott/emily-denton-unsupervised-learning-of-disentangled-

27.

条件付き深層⽣成モデル ¤ 観測変数) （!と異なる情報）で条件づけられた（conditioned）深層⽣成モデル ¤ 4 から(への⽣成過程を表現．別の情報 5 ' ( ' = ∫ ( ' 5 ( 5 @5 潜在変数 > 5 ' ⼊⼒ ( '|> = ∫ ( ' 5, > ( 5 @5 27

28.

条件付き深層⽣成モデル ¤ 数字ラベル情報から画像を⽣成 [Larsen+ 15] (a) Handwriting styles for MNIST obtained by fixing the class label and varying the 2D latent variable z 元の画像元の画像 (b) MNIST analogies (c) SVHN analogies 28

29.

条件付き深層⽣成モデル ¤ 属性*から画像!の⽣成[Larsen+ 15] ut np I c Re uc str on Autoencoding beyond pixels using a learned similarity metric n tio ld Ba gs n Ba air kh ac Bl air dh on Bl ws bro e ey hy s Bu s sse la eg Ey ay Gr ir ha p eu ak ym av He ale M us M he tac le Pa in sk Published as a conference paper at ICLR 2016 Figure 5. Using the VAE/GAN model to reconstruct dataset samples with visual attribute vectors added to their latent representations. ¤ ⽂書から画像の⽣成[Mansimov+ 15] as demonstrated by Denton et al. (2015); Radford et al. (2015). A stop sign is flying in blue skies. Lately, convolutional networks with upsampling have shown useful for generating images from a latent representation. This has sparked interest in learning image embeddings where semantic relationships can be expressed using simple arithmetic – similar to the suprising results of the word2vec model by Mikolov et al. (2013). First, Dosovitskiy et al. (2015) used supervised training to train convolutional network to generate chairs given highlevel information about the desired chair. Later, Kulkarni et al. (2015); Yan et al. (2015); Reed et al. (2015) have demonstrated encoder-decoder architectures with disentangled feature representations, but their training schemes rely on supervised information. Radford et al. (2015) inspect the latent space of a GAN after training and find directions corresponding to eyeglasses and smiles. As they rely on pure GANs, however, they cannot encode images making it challenging to explore the latent space. A herd of elephants flying in the blue skies. 5. Discussion The problems with element-wise distance metrics are well known in the literature and many attempts have been made at going beyond pixels – typically using hand-engineered measures. Much in the spirit of deep learning, we argue that the similarity measure is yet another component which can be replaced by a learned model capable of capturing high-level structure relevant to the data distribution. In this work, our main contribution is an unsupervised scheme for learning and applying such a distance measure. With the learned distance measure we are able to train an image encoder-decoder network generating images of unprecedented visual fidelity as shown by our experiments. Moreover, we show that our network is able to disentangle factors of variation in the input data distribution and discover visual attributes in the high-level representation of the latent space. In principle, this lets us employ a large set of unlabeled images for training and use a small set of labeled images to discover features in latent space. A toilet seat sits open in the grass field. A person skiing on sand clad vast desert. Figure 1: Examples of generated images based on captions that describe novel scene compositions that are ¤ 今⽇では条件づける⽂書情報は「プロンプト（prompt）」と呼ばれている（後述）． Our idea of a learned similarity metric is partly motivated We regard our method as an extension of the VAE frame- and similar feature correlations as a style image in a pretrained convolutional network. In our VAE/GAN model, alternatively, one could view our method more as an extension of GAN where p(z) is constrained by an additional neural artistic network of Gatys etdescribe al. (2015) work. a Though, it must be noted that the high quality of our highly unlikely to occur in realbywhothelife. Thestylecaptions common object doing unusual things or set in a demonstrate the representational power of deep congenerated images is due to the combined training of Dec as volutional features. They obtain impressive results by optia both a VAE decoder and a GAN generator. This makes strange location. mizing an image to have similar features as a subject image our method more of a hybrid between VAE and GAN, and 29

30.

従来の深層⽣成モデルの課題 ¤ VAEやGANには次の課題がある． ¤ 2つのモデル（推論モデルと⽣成モデル，識別器と⽣成器）を学習する必要があり，学習の安定性に課題がある． ¤ 1回の順伝播で⽣成するので，⽣成のクオリティを学習後に調整できない． ¤ 近年は，単⼀の⽣成モデルを学習後に反復的に⽣成するエネルギーベースモデルや拡散モデルが着⽬されている． 30

31.

拡散モデル拡散モデル（diffusion model）[Sohl-Dickstein+ 15] ¤ ⼊⼒! 1 を画像として，2種類の過程を考える． ¤ 拡散過程︓画像(% から(% → ⋯ → (& … → ( ' のようにランダムノイズ( ' を⽣成する． ¤ 逆過程︓ランダムノイズ( ' から( ' → ⋯ → (& … → (% にように画像(% に戻す． ¤ 拡散過程と逆過程は，それぞれ反復的に⽣成するエンコーダとデコーダとみなせる． 31

32.

ノイズ予測器による逆過程（画像⽣成） ¤ 拡散過程や逆過程をそのままモデル化するのではなく，任意の時刻+の画像! 2 からランダムノイズ8を⽣成するノイズ予測器を学習する[Ho+ 20] ． '( B(' ( , C) ノイズ予測器 ¤ ノイズ予測器によって⽣成したノイズを画像から引くことで，反復的に画像を⽣成する． ( !"# (! ) ! − +() ! , .) ( !"$ ) !"# − +() !"#, .) ・・・・・・ )(( ! , ,) )(( !"# , , − 1) )(( !"$ , , − 2) ※簡単のため，係数や⽣成の際のノイズは割愛． 32

33.

潜在拡散モデル ¤ 潜在拡散モデル（latent diffusion model）[Rombach+ 22] ¤ VAE（正確にはVQ-GAN[Esser+ 20]に近い）の潜在空間で拡散モデルを学習する． ¤ Stable Diffusionのベース研究として知られている． ¤ VAE側で画像特徴に関する学習を⾏い，その表現である低次元の潜在空間で拡散過程を考えるので，計算量を削減することができる．⼊⼒ ( エンコーダ )% 再構成 ( 潜在変数 )! ・・・・・・ )& ・・・・・・ 1%"# )' デコーダ 33

34.

拡散モデルの⽣成例 ¤ ⼤規模⾔語モデルと組み合わせて，⽂書から⾼解像度の画像を条件付き⽣成． 34

35.

拡散モデルの⽣成例 ¤ 画像から物体を除去する． ¤ ⽣成モデルなので，他にも⽋損補完や異常検知などにも利⽤可能． 35

36.

マルチモーダル学習 ¤ 我々はマルチモーダル情報を取り⼊れることで，単⼀のモダリティ情報よりも確実な情報処理を⾏っている． ¤ ロボットも複数のセンサから様々な種類の情報を獲得している ¤ 動画，⾳声，⾓度や加速度情報，距離情報など https://www.softbank.jp/robot/consumer/products/spec/ ¤ 機械学習においても，マルチモーダルデータを活⽤して判断・予測を⾏いたい． ⇒ マルチモーダル学習 36

https://www.softbank.jp/robot/consumer/products/spec/

37.

深層⽣成モデルによる同時モデル ¤ 異なるモダリティの同時分布#(,, ))をモデル化 ¤ 適切に学習できれば，任意の条件付けを⾏って⽣成できるはず（双⽅向⽣成，+ % ' , +('|%)） ¤ 潜在変数は2つのモダリティを統合した表現（共有表現）を獲得できるはず．共有表現 0 % ' ( D, E = F ( D|G ( E G ( G @G ¤ VAEで容易に実現可能（マルチモーダルVAE） ¤ モダリティごとにデコーダを増やす． 37

38.

.9 (a) Base (random) Not Male JMVAE Bald ¤ JMVAE[Suzuki+ 17] Smiling ¤ 単⼀モダリティを推論する際の⽋損モダリティ問題を解決し，モダリティ間の双⽅向変換や共有表現の学習が可能 ¤ e.g., 画像 (2) と属性(3) (a) 58 4 Input Generated attributes Average face Reconstruction Not Male Eyeglasses Not Young Smiling Mouth slightly open Male : 0.95 Eyeglasses : -0.99 Young : 0.30 Smiling : -0.97 ! ! Male : 0.22 Eyeglasses : -0.99 Young : 0.87 Smiling : -1.00 ! ! ! ! 4.10 *6 *7 双⽅向の変換 (b) 共有表現 ¤ 半教師あり学習などへの応⽤． (b) PCA CVAE CelebA MNIST 38

39.

マルチモーダルVAEの発展 ¤ A survey of multimodal deep generative models [Suzuki+ 22] 39

40.

⾃⼰回帰モデルと⼤規模⾔語モデル ¤ ⾃⼰回帰モデル︓データの尤度を条件付き分布の積として表現 ¤ 時系列の場合は，過去の⼊⼒から現在の⼊⼒を予測する． 4 + ( = ; + %2 %! , … , %25! 23! ¤ ⼤規模⾔語モデル（large language model） ¤ データ・計算量・モデルサイズの点で⼤規模な⾔語モデル（主にTransformerをモデルとして利⽤） ¤ ⼊⼒の⼀部をマスクして，残りを補完するように学習（⾃⼰教師あり学習） ¤ ⾃⼰回帰的に学習する（causal language model） Original: World models describe the internal models of an agent. Input: World models describe [mask] LLM Output: the internal models of an agent. 40

41.

プロンプトとコンテキスト内学習 ¤ ⼤規模⾔語モデルは⾔語指⽰（プロンプト）を変えることで様々なタスクに対応できる [Brown+ 20] ¤ ⽣成モデルでの条件付けに対応． ¤ 同⼀の学習済みモデルでも，プロンプトの⼊れ⽅により様々なタスクが実⾏可能 ¤ 左︓いくつかの事例とタスクの説明を⼊れると，対応する答えが返ってくる． ¤ 右︓タイトルを⼊れるとそれに該当する⽂を作成してくれる． ¤ コンテキスト内学習（in-context learning） ¤ あるタスクを解くために，モデルのパラメータを更新せずに，プロンプトに⼊れる説明や事例に基づき出⼒を変更する． 41

42.

思考の連鎖 ¤ 数学や論理の問題などを解くときに，思考の連鎖（chain of thought）をさせると，正答率が向上する[Wei+ 22] ¤ プロンプトの中に具体的な事例を⼊れなくても（zero-shot）「Let‘s think step by step」と⼊れることで回答可能[Kojima+ 22]． 42

43.

基盤モデル ¤ 様々なタスクやモダリティについて同⼀のモデルで解くことができる︖ => 基盤モデル（foundation model）出典︓[Bommasani+ 22] 43

44.

⾔語と画像の基盤モデル ¤ Transformerベースの画像モデルと⾔語モデルを統合することで，画像付きのさまざまな⾔語タスクを解くことができる[Alayrac+ 22] 44

45.

様々な基盤モデルが登場出典︓[Zhao+ 23] 45

46.

世界モデル ¤ ⼈間は世界のあらゆるものを知覚できるわけではない． ¤ 脳に⼊ってくる情報は⾮常に限られている． ¤ したがって脳の内部では，限られた情報から現実世界をモデル化している． ¤ 世界モデル（world model）︓ ¤ 外界からの限られた観測を元に，世界の構造を近似するように学習するモデル． ¤ 観測から要因を推論し，推論した要因から未来や未知のことを予測（⽣成）する．世界モデル環境近似観測推論予測要因 46

47.

世界モデルにおける表現の獲得 ¤ 脳内では，外界からの情報を空間的・時間的な表現に圧縮している． ¤ 例︓⾃電⾞を漕いでいる⼈は「⾃転⾞を漕いでいる」という表現を時間的・空間的に圧縮している．世界モデル推論 ¤ これは，表現の階層的な推論に対応する．予測要因 ¤ 世界モデルは推論による表現学習を⾏っている． 47

48.

世界モデルによる予測 ¤ 学習した世界モデルによって未来をシミュレーションしている． ¤ ⼈間はこれを常に⾏っていると考えられる． ¤ 例︓バットを振ってボールに当てる ¤ 世界モデルによって無意識に予測を⾏い，それにしたがって筋⾁を動かしている．世界モデル推論予測要因 48

49.

世界モデルの定義 ¤ 世界モデルの定義 ¤ 固有のダイナミクスと⾏動によって，世界がどのように発展するかを予測する⾃⼰教師あり学習モデル[Kim+ 20] ¤ 時系列でなくても，限られた情報から外界をモデル化して任意の状況での予測を⾏うモデルを世界モデルと呼ぶ． ¤ 世界モデルはなぜ近年注⽬されるようになった︖ ¤ ⾃⼰教師あり学習や深層⽣成モデルなどの進展，その他計算機性能の向上により，⼤規模かつ複雑な観測データから世界モデルを直接学習できるようになった． ¤ 参考︓世界モデルのサーベイ論⽂[Taniguchi+ 22] 49

50.

深層⽣成モデルを⽤いた世界モデル ¤ World Model[Ha+ 18] ¤ VAEとMDN-RNN[Graves + 13, Ha+ 17]で世界モデルを構成． ¤ VAE (V module) ︓環境から空間的に圧縮した表現を学習 ¤ MDN-RNN (M module) ︓時間遷移を学習 ¤ ゲーム環境の世界モデルを学習 50

51.

世界モデル内での強化学習 ¤ 学習した世界モデルの中で強化学習を⾏う ¤ ⼈間でいうイメージトレーニングや睡眠学習のようなもの ¤ 実世界とは違い，何回でも学習できる． ¤ 実世界（ゲーム）でテストすると，正しく⾏動できていることがわかる． 51

52.

世界モデルと強化学習 ¤ 未知の環境を学習する世界モデルを利⽤して，⽅策を最適化する（モデルベース強化学習）． ¤ 世界モデルを⽤いることで，⾼いサンプル効率やタスク転移が期待される． ¤ 世界モデル + 強化学習で考えるべきこと 1. 強化学習を⾏う上でどのような世界モデルを設計・学習するべきか︖ ¤ 環境としてPOMDPが想定されることが多い（状態空間モデルなどの利⽤）． ¤ 観測<から強化学習にとって良い状態表現4を獲得する（状態表現学習） 2. 世界モデルを⽤いてどのように⽅策を学習するか︖ ¤ 実際には，この２つは独⽴ではない（右図）． ¤ エージェントのタスク次第で最適な世界モデル（状態表現）は変わる． ¤ 世界モデルを適切に学習するような観測を探索する⽅策も考える必要がある． 52

53.

時系列情報からの世界モデルの獲得 ¤ Dreamer [Hafner+ 20] ¤ 時系列情報から（回帰結合型）状態空間モデルによって世界モデルを学習し強化学習を⾏う． ¤ 潜在空間上での想像に基づき，⻑期的な価値を推定． ¤ DNNで⽅策と価値関数をパラメータ化し，交互に学習． ¤ 微分可能な世界モデル上の想像に基づいて計算されるので，⽅策の勾配が計算できる． ¤ 難しい視覚的制御において，⾼いサンプル効率や性能を発揮． 5%&' 4%&' ℎ!"# 4% ℎ! 3%&' 3% 回帰結合型状態空間モデル（RSSM）[Hafner+ 18] 53

54.

時系列情報からの世界モデルの獲得 ¤ エージェントの視点と⾏動から，世界の不変的な構造を学習 [Gregor+ 19] ¤ 状態でどのような表現が獲得されているかを確認 ¤ エージェントが歩き回ることによって，環境の地図が作成される． ¤ 表現空間上で，⼀貫性のある表現が獲得できていることがわかる． https://www.youtube.com/watch?v=dOnvAp_wxv0 54

https://www.youtube.com/watch?v=dOnvAp_wxv0

55.

Dreamerの改良 ¤ Dreamer v2 [Hafner+ 21] (左下) ¤ 離散状態表現への変更や正則化の⼯夫をして，Atariゲームでモデルフリー⼿法よりも⼤幅に向上． ¤ Dreamer v3 [Hafner+ 23] (右下) ¤ モデルサイズを⼤きくし，⼊⼒の標準化の⽅法を変更することで（symlog functionの利⽤）画像や報酬など異なる定義域の⼊⼒でも適切に学習できるようにした． ¤ Minecraftにおけるダイアモンド収集タスクで，⼈間のデモンストレーションを使わずに達成. 55

56.

⼤規模⾔語モデルを⽤いた世界モデル ¤ IRIS（Imagination with auto-Regression over an Inner Speech) [Micheli+ 23] ¤ 離散オートエンコーダ（A, E）で獲得した離散的な潜在空間上で，ダイナミクス（G）をTransformerによって学習する ¤ Atariベンチマークにおいて2時間のゲームプレイで⼈間レベルのスコアを達成． 56

57.

DayDreamer ¤ DayDreamer [Wu+ 22] ︓Dreamer v2の実ロボットへの応⽤ ¤ ロボットが環境と相互作⽤して収集したデータから世界モデルを学習する． ¤ ロボットは⽅策を世界モデル上のみで学習する． ¤ 世界モデルを⽤いることで効率的に学習でき，新しいタスクや摂動に対しても対応できる． 57

58.

[beta]

⽣成モデルにおける推論としての制御
¤ ⽅策最適化（⾏動選択の最適化）も（知覚や認識のように）確率モデルにおける推論とみなす
ことができるのでは︖
¤ Control as Inference （CAI）[Levine+ 18]
¤ 状態<& と⾏動=& が最適なのかを評価する最適性変数（optimality variable）>& ∈ {0,1}を導⼊．
¤ 最適性変数が従う分布は，報酬関数Cを⽤いて+ >& = 1 <& , =& = exp(C(<& , =& ))とする．
¤ すると，最適⽅策+78& =& |<& を求めることは>&:' = 1と<& からの推論と同義．

!=>? -? |.? = ! -? |.? , 0?:A = 1
:!

:!"#
<!"#
;!"#

:!&#
<!&#

1!
0!

;!&#

58

59.

世界モデルにおけるCAI ¤ CAIの枠組みでは，⽅策の最適化と世界モデルの学習を分離することができる． ¤ 以下に⽰している⼿法は，いずれも世界モデルにVAEを⽤いている． ¤ Stochastic Latent Actor-Critic（SLAC）[Lee+ 19] ¤ 世界モデルとして状態空間モデルを利⽤． ¤ 推論にRNNを⽤いず，推論と⽣成で分布を使い回すことで，サンプル効率を良くしている． ¤ [Han+ 19] ¤ 世界モデルとして，VRNN[Chung+ 16] に⾏動=& で条件づけたもの（Variational Recurrent Model，VRM）を利⽤． 59

60.

CAIと能動的推論（AIF）の違いのイメージ ¤ CAIは，⽬標を偏りのない推論における追加の外因的な要素とみなす． ¤ 知覚と制御の⽬標を分離できる． ¤ 知覚︓世界の真の表現を復元する（世界モデルの学習）． ¤ 制御︓⾏動計画のために世界モデルを⽤いる． ¤ 知覚と⾏動で別個のモジュールとなる． ¤ 能動的推論（AIF）は，偏った知覚こそが適応的な⾏動選択にとって重要であるというスタンス． ¤ 偏りのない世界モデルではなく，選好が満たされることを優先的に予測するような偏った⽣成モデルを持つ． ¤ 認知に対する能動的かつ⾝体的なアプローチと密接に関わっている． ¤ ⾏動・知覚のループを，別個の段階の連続ではなく，継続的な流れとしてみる． 60

61.

複雑な環境での世界モデル ¤ Generative Query Network（GQN）[Eslami+ 18] ¤ ある複数の視点における画像を元に，別の視点の画像を予測する世界モデル． ¤ 条件付け深層⽣成モデル（conditional VAE）の利⽤． Observation 1 A Neural scene representation B v1i r r1 v2i Observation 2 v3i Observation 3 v1i Latent + h1 r2 v2i Representation network f 表現ネットワーク z Query v3i Rendering steps h2 ··· hL Predicted view Generation network g ⽣成ネットワーク（⽣成モデル） @ A Fig. 1. Schematic illustration of the Generative Query Network. (A) The agent observes training scene ! from different viewpoints (in this example from &/$ , &$ and &$ ). (B) The inputs 61

62.

An overview of GQN 62

63.

物体中⼼世界モデル ¤ 物体中⼼表現学習（object-centric representation learning） ¤ 画像から物体ごとの表現を教⽰なしで認識（推論）・⽣成する枠組み． [Greff+ 20] ¤ 物体が時間変化する動画から物体ごとの表現と予測モデルを学習する場合は，物体中⼼世界モデル [Lin+ 20, Jiang+ 20]とも呼ばれる． [Lin+ 20] [Veerapaneni + 19] 63

64.

物体中⼼世界モデル ¤ 物体の時間変化する表現（位置など，dynamic表現）と時間に依存しない表現（⾊など， global表現）を分離[Nakano+ 22] ¤ 時間依存しない表現を獲得することに成功（物体の⾊だけを交換することができる）． Global representation Dynamic representation ¤ 時間依存しない表現を分けることで，世界モデル上でのプランニング性能が向上． 64

65.

多視点物体中⼼表現学習 ¤ 複数視点の情報を元に，物体の表現を獲得する（多視点物体中⼼表現学習）[Nanbo+ 2020]． ¤ GQN+物体中⼼表現学習 ¤ 物体ごとの表現だけでなく空間の表現（global表現）も獲得する⽅法を提案[Kobayashi+ 22] ． ¤ 従来⼿法より推論の性能が向上したり，新規のシーン⽣成も可能． 65

66.

世界モデルとマルチモーダル学習 ¤ 従来の世界モデル研究では，単⼀モダリティ（主に画像）のみを扱っていた． ¤ ⼈間は様々なモダリティ情報を元に，脳内に抽象的な表現を獲得している． [Shi+ 19] Þ 世界モデルにおけるマルチモーダル学習の重要性 66

67.

Neuro-SERKET・WB-PGM ¤ Neuro-SERKET [Taniguchi+ 19] ¤ 深層⽣成モデルを含む確率的⽣成モデルによるマルチモーダル認知アーキテクチャの提案 ¤ VAE+GMM+LDA+ASRの例（数字の画像（MNIST）と⾳声から学習） ¤ 同様の枠組みで脳全体を確率的⽣成モデルで構築するwhole-brain PGM（WB-PGM）の提案 [Taniguchi+ 21] ¤ 今後の課題︓ ¤ 複雑な認知アーキテクチャを全て深層⽣成モデルで設計・学習することは可能か︖ ¤ そうした複雑な深層⽣成モデルを簡潔に実装することは可能か︖ 67

68.

[beta]

Pixyz
¤ Pixyz [Suzuki+ 23]︓深層⽣成モデルに特化した確率プログラミングライブラリ
¤ 複雑な深層⽣成モデルを簡潔に実装できることが特徴
¤ PyTorch（深層学習ライブラリ）ベース

¤ 直感的な実装を実現するために，DNNと確率モデルの設計が分離していることが特徴．
¤ DNNを意識せずに確率モデルを実装に集中できる．
¤ Pixyzの構成図（実装の流れ）︓
Model API (pixyz.models)
定義した誤差関数をもとに学習

Loss API (pixyz.losses)

確率モデルの誤差関数を定義

Distribution API (pixyz.distributions)
DNNから確率分布，確率モデルを定義

DNN modules

(torch.nn.modules)

Flow modules
(pixyz.flows)

8 ←8−:

;ℒ(3; 8, >)
;8

ℒ(*; ,, .) = −2!!(#|%)[log

7' (*, 8)
]
9( (8|*)

確率モデル部分

2 3, 4 = 2 3 4 2 4
6(4|3)

Autoregression modules
(pixyz.autoregressions)

DNN部分
68

69.

現状の⼈⼯知能の課題︓システム1とシステム2の統合 ¤ 「ファスト&スロー（by ダニエル・カーネマン）」より https://drive.google.com/file/d/1zbe_N8TmAEvPiKX mn6yZlRkFehsAUS8Z/view ¤ 古典的な⼈⼯知能は，探索やシンボルに基づく推論が中⼼的（システム2） ¤ 深層学習の登場や世界モデルの発展によって，（⼈間でいう）直感的な振る舞いを学習できるようになった（システム1）世界モデルと古典的な⼈⼯知能の融合が重要になるシステム1側からシステム2を再構築する 69

https://drive.google.com/file/d/1zbe_N8TmAEvPiKXmn6yZlRkFehsAUS8Z/view

70.

現状の⼈⼯知能の課題︓時間的抽象化（⾏動抽象化） ¤ 時間的抽象化（temporal abstraction） ¤ 例︓料理をする場合 [Precup, DLRL Toronto 18] ¤ ⼤まかな⼿順︓レシピの選択，⾷料品リストの作成，⾷料品の⼊⼿，料理，など ¤ 中レベルの⼿順︓鍋を⼊⼿，材料を鍋に⼊れる，滑らかになるまで混ぜる，レシピをチェックする，など ¤ 低レベルの⼿順︓⾞の運転中の⼿⾸と腕の動き，かき混ぜる，など ¤ 時間の幅の異なる様々なレベルの⼿順を統合して処理するためにはどうすればいいか︖ ¤ より詳しい課題については「⼈⼯知能研究の新潮流2〜基盤モデル・⽣成AIのインパクト〜」（CRDS）を参照（執筆時に意⾒交換）． 70

71.

まとめ ¤ 深層学習概論 ¤ 深層⽣成モデル ¤ 世界モデル ¤ 今回の話に関連する研究に興味のある⽅はお声がけください︕ 71

深層生成モデルの概要と世界モデルへの発展

masa

関連スライド

Perspectives on World Models and Predictive Coding in Cognitive Robotics

生成AIから世界モデルへ：実世界で動作する知能の実現に向けて

学振特別研究員になるために～2025年度申請版

ZAZA株式会社_会社紹介

StampFlyで学ぶマルチコプタ制御

研究に使える便利なフリーソフト ImageJ

各ページのテキスト