[DL輪読会]Parallel Multiscale Autoregressive Density Estimation

104 Views

October 02, 17

#deep learning #PixelCNN #自己回帰モデル #画像生成 #高速化 #Parallel Multiscale Autoregressive Density Estimation

スライド概要

2017/10/2
Deep Learning JP:
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 87.3K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 59.9K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 58.4K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 41.4K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 37.9K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 37.4K

各ページのテキスト

論文紹介 Parallel Multiscale Autoregressive Density Estimation 東京大学大学院理学系研究科物理学専攻藤堂研究室中西健

Paper information 論文名: Parallel Multiscale Autoregressive Density Estimation 著者: Scott Reed, et. al. (DeepMind) 公開日: 10 Mar 2017 ※スライド中の図表は特に記述のない限り上記の論文から引用

この論文を選んだ動機 • PixelCNNの高速化に興味があった

概要自己回帰モデルでいくつかのピクセル間に条件付き独立性を仮定することで、生成にかかる計算時間を O(N) から O(logN) にした (Nは画像のピクセル数) → 自己回帰モデルで大きな画像が作れるようになった

画像生成画像生成の方法は主に三種類 • 変分推論 (VAEなど) • 敵対的学習 (GAN) • 自己回帰モデル ← 今回はこれ

自己回帰モデル • 自己回帰モデルとは • 分布p(x1:T)をのように書き下し、右辺の因子をNNなどでモデル化

画像における自己回帰モデル • 画像における自己回帰モデルとは (e.g. PixelCNN) • 画像の上から下に、行ごとに左から右に生成 • channel方向はRGBの順に生成 • 生成し終えたデータはすべて次の予測に使ってよい

画像における自己回帰モデル • 画像における自己回帰モデルの良い点 • 画像の密度推定でSOTA • 学習が並列化できるので高速 • 画像における自己回帰モデルの悪い点 • 生成に非常に時間がかかる • (参考)リアルタイム生成動画 https://github.com/PrajitR/fast-pixel-cnn • 画像のピクセル数をNとして、生成にかかる時間はO(N) 本論文: 生成時間を O(logN) にした

https://github.com/PrajitR/fast-pixel-cnn

本論文の手法 PixelCNN 本論文の提案手法粗い画像から緻密な画像にしていくどちらもchannel方向はRGBの順に生成

10.

本論文の手法 (A) Simplest version (B) Sophisticated version spatial feature map

11.

実験 • クラス条件付き画像生成 • Imagenetを使用 • キャプションからの画像生成 (今回は省略) • CUB(鳥の画像データセット)を使用 • 他にもMPII, MS-COCOを用いて同様の実験をしている • アクション条件付き動画生成 (今回は省略) • Robot Pushingを使用

12.

クラス条件付き画像生成実験 dataset: ImageNet (1000クラス, 約100万枚) Sophisticated versionのモデルで画像拡大 • 12層のResNet • 4層のPixelCNN • 隠れ層のユニット数はすべて256 • 8x8の画像から128x128まで拡大していく

13.

結果生成された画像負の対数尤度 )← 計算量 O(N) ← 計算量 O(logN) • 自己回帰モデルでないモデルには勝っている

14.

結果 (計算速度) 計算速度の比較 • 32x32の画像生成ですら100倍程度の高速化

15.

まとめと展望 • PixelCNNの画像生成高速化方法を提案 • 生成速度がO(N)→O(logN)になった (N: ピクセル数) • 応用先 • テキストからの画像生成 • ビデオ生成 • 超解像

16.

追加資料

17.

キャプションからの画像生成実験 • CUB • • • • 200種の鳥の画像 11788枚各画像に10個のキャプション各画像に15個のKeypoints

18.

結果