[DL輪読会]Colorful Image Colorization

482 Views

June 23, 17

スライド概要

2017/6/23
Deep Learning JP:
http://deeplearning.jp/seminar-2/

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

(ダウンロード不可)

関連スライド

各ページのテキスト
1.

Colorful Image Colorization Richard Zhang, Phillip Isola, Alexei A. Efros University of California, Berkeley https://arxiv.org/pdf/1603.08511.pdf 2017年6月23日 論文輪講 村上 遥

2.

提案手法 *論文外の画像です Ground Truth http://アスカラ.com/?p=221 「それっぽい着色」にこだわる × 色の再現 デモ→ http://demos.algorithmia.com/colorize-photos/

3.

問題 人の干渉が大きい 褪せた色になりがち −予測と実際のユークリッド誤差を縮める←回帰問題の考え方 解決手法 Deep CNNと目的関数の調整で実現 1)取り得る色の確率分布をピクセル単位で予測 2)色の多様化を図るため、クラス分類問題と捉え訓練時に希少色に重みを置 いてクラス再調整を行う

5.

失われた色情報を現実世界のシーンが意味するものや、表 面のテクスチャーを手掛かりにして類推する 空は青、草は緑、てんとう虫は赤など決まった色がある りんごは赤か緑か黄色だが、青はない クリケットボールは何色でもあり得る とにかくデータを突っ込む、データセットは画像をグレー スケールにすれば作れるので楽

6.

1)画像への着色性能の向上 複数の色を持つ可能性があるという点を扱い、幅広い色彩 を取り得る目的関数を設計 着色の「本物っぽさ度」を測定する手法の提案 従来よりかなり多い100万の画像の訓練で高い水準を記録 2)着色タスクを半教師あり表現学習に通用する方法として 導入し、複数の指標でstate-of-the-artを記録したこと

7.

先行・競合研究と比べ、後からの調整なしに それっぽい着色ができていること それっぽい着色を評価する手法を提案したこ と(着色・チューリングテスト)

8.

プーリング層なし 解像度の調整はダウン/アップサンプリング 入力(明度) 最終的な予測 *H, Wは画像の次元

9.

ユークリッド損失 ロバスト性がなく、やや一意的→平均取っ て灰色に

10.

多項クラス分類を行う ab の出力空間をグリッドサイズ:10、 Q = 313の箱に分ける *Q:abチャネルの量子化数 取り得る色の確率分布 実際の色のZベクターへの変換 多項クロスエントロピー誤差 最後に、確率分布→出力へ *v:重み付け

11.

abチャネルの分布は低いレベルに偏る 多く写っている雲、泥、道路、壁などのせい 色を鮮やかにするために、色の希少性を元に重み 付けをし直す 最も近いabの箱空間に割り当てられる因子wで各ピ クセルに重み付け を得るために 経験色確率pをImageNetによる 訓練とガウシアンカーネルによ る分布で求める さらに重みλで均一分布と融合す る

12.

方法1)予測分布の最頻値を当てはめる 鮮やかになるが、バグが出る(染みなど) 方法2)予測分布の平均値を当てはめる 不自然さは減るが、色彩が褪せる →2つの方法を混ぜる、混ぜ具合の指標を温度Tとして

13.

0.38がベストだった

14.

1300万枚のImageNetの画像を訓練データに (うち始めの1万枚はImageNetの調整に用い た) 別の1万枚をテストデータに CNNへの学習には複数の損失を使い、比較

15.

質的な検証: 再調整が有効 よくある失敗例: ・赤と青が変に混ざる ・複雑な室内の情景だとセピ アになりがち

16.

Ours(full):classification loss + rebalancing Ours(class):classification loss Ours(L2):L2 regression loss Ours(L2, ft):L2 regression loss + rebalancing

17.

被験者に1)実画像、2)各アルゴリズムで着色した画像(256×256)のペアを1 秒見せ、どちらが偽物か時間制限なしで判断 はじめに10回練習して正解をフィードバック、その後40回施行する。こ の間試すアルゴリズムは1種類で、被験者はこのセットを1回しかやらな い。 被験者は40人で、どの画像も10人以上に評価されている まともな判断力があるかを判定するため、ランダムでランダム着色した 画像を混ぜ、認識できているか調査 どちらも実画像にした場合の期待値が50%なので、最高値は50%

19.

結果 人 Hypercolumns on VGG Un-rebalanced ・32%強と圧倒的に人を騙せている ・既製のVGGネットワークに当てはめても、クラス分類に役に 立っている

20.

今までのデータセットはどれも近年の画質のいい画像の 色情報を無くしただけのもの 本当の白黒写真じゃ出来ないんじゃないの? 出来ました

21.

結論:セピアになる傾向、アニメに弱い、茶色が多い画像に も弱い、青が出づらい