>100 Views
October 02, 17
スライド概要
2017/10/2
Deep Learning JP:
http://deeplearning.jp/seminar-2/
DL輪読会資料
論文紹介 Parallel Multiscale Autoregressive Density Estimation 東京大学大学院理学系研究科物理学専攻 藤堂研究室 中西 健
Paper information 論文名: Parallel Multiscale Autoregressive Density Estimation 著者: Scott Reed, et. al. (DeepMind) 公開日: 10 Mar 2017 ※スライド中の図表は特に記述のない限り上記の論文から引用
この論文を選んだ動機 • PixelCNNの高速化に興味があった
概要 自己回帰モデル で いくつかのピクセル間に条件付き独 立性を仮定 することで、生成にかかる計算時間を O(N) から O(logN) にした (Nは画像のピクセル数) → 自己回帰モデルで大きな画像が作れるようになった
画像生成 画像生成の方法は主に三種類 • 変分推論 (VAEなど) • 敵対的学習 (GAN) • 自己回帰モデル ← 今回はこれ
自己回帰モデル • 自己回帰モデル とは • 分布p(x1:T)を のように書き下し、右辺の因子をNNなどでモデル化
画像における自己回帰モデル • 画像における自己回帰モデル とは (e.g. PixelCNN) • 画像の上から下に、行ごとに左から右に生成 • channel方向はRGBの順に生成 • 生成し終えたデータはすべて次の予測に使ってよい
画像における自己回帰モデル • 画像における自己回帰モデルの良い点 • 画像の密度推定でSOTA • 学習が並列化できるので高速 • 画像における自己回帰モデルの悪い点 • 生成に非常に時間がかかる • (参考)リアルタイム生成動画 https://github.com/PrajitR/fast-pixel-cnn • 画像のピクセル数をNとして、生成にかかる時間はO(N) 本論文: 生成時間を O(logN) にした
本論文の手法 PixelCNN 本論文の提案手法 粗い画像から緻密な画像にしていく どちらもchannel方向はRGBの順に生成
本論文の手法 (A) Simplest version (B) Sophisticated version spatial feature map
実験 • クラス条件付き画像生成 • Imagenetを使用 • キャプションからの画像生成 (今回は省略) • CUB(鳥の画像データセット)を使用 • 他にもMPII, MS-COCOを用いて同様の実験をしている • アクション条件付き動画生成 (今回は省略) • Robot Pushingを使用
クラス条件付き画像生成実験 dataset: ImageNet (1000クラス, 約100万枚) Sophisticated versionのモデルで画像拡大 • 12層のResNet • 4層のPixelCNN • 隠れ層のユニット数はすべて256 • 8x8の画像から128x128まで拡大していく
結果 生成された画像 負の対数尤度 )← 計算量 O(N) ← 計算量 O(logN) • 自己回帰モデルでないモデルには勝っている
結果 (計算速度) 計算速度の比較 • 32x32の画像生成ですら100倍程度の高速化
まとめと展望 • PixelCNNの画像生成高速化方法を提案 • 生成速度がO(N)→O(logN)になった (N: ピクセル数) • 応用先 • テキストからの画像生成 • ビデオ生成 • 超解像
追加資料
キャプションからの画像生成実験 • CUB • • • • 200種の鳥の画像 11788枚 各画像に10個のキャプション 各画像に15個のKeypoints
結果