131 Views
July 21, 17
スライド概要
2017/7/21
Deep Learning JP:
http://deeplearning.jp/seminar-2/
DL輪読会資料
20170721 DL 会 医学系研究科 山口亮平
論文を選んだ理由 • 医療画像の分類をCNNで行なっているが、学習がうまくいかな い • サンプル数の少なさ、データの極端な偏り(正例:負例=20:1 など)が避けられない。 • 異なる領域の画像認識に、ImageNetのような一般画像認識で 学習したネットワークを使用する転移学習が有用かどうか?に 興味があった。 • 転移学習って、どの層まで転移学習すれば良いのか?も知りた い。
論文概要 • 単に「Fine Tuningした方が良いか」ではなく、「どの深さまでFine Tuning(FT)すべきか」まで考察する。 全層FT vs 一部だけFT vs FTなし、で比べる。 • FTの及ぼす影響を、サンプル数を変えて考察する。 • やや一般画像とは性質が異なる医療画像に対して、Alexnetからの FTが有用かどうかを考察する。 • タスクとしては、detection,classification,segmentationを含む、4 種類の実験を行なった。
実験 • 次の四種類のタスクに対して、FTの影響を確認した。 • 全てに対してAlexNetを用いた(caffe使用) • Train80% Validation 20% の cross-validation • Validation accuracyが最小になったら学習終了 • FTしない場合、weightの初期値はガウシアン分布 • 学習の際は、downsamplingして正例負例を同じ数にした • 学習率/減衰率は以下のTableⅡのように固定(探索的に決めた)
実験 • 次の四種類のタスクに対して、FTの影響を確認した。 • 全てに対してAlexNetを用いた(caffe使用) • Train80% Validation 20% の cross-validation • Validation accuracyが最小になったら学習終了 • FTしない場合、weightの初期値はガウシアン分布 • 学習の際は、downsamplingして正例負例を同じ数にした • 学習率/減衰率は以下のTableⅡのように固定(探索的に決めた)
実験1: 内視鏡でポリープdetection
実験A: 内視鏡でポリープdetection • 内視鏡・・・動画になっているので、フレーム画像を選ぶ • 候補領域(candidate)をhandcraftで抽出 • Candidateの中でpatchを少しずつずらしていきながら、ポリー プである確率を平均して算出。 • FROC カーブにて評価 • patch数はtrainingで100,000個。
実験A: 内視鏡でポリープdetection • 内視鏡・・・動画になっているので、フレーム画像を選ぶ • 候補領域(candidate)をhandcraftで抽出 • Candidateの中でpatchを少しずつずらしていきながら、ポリー プである確率を平均して算出。 • FROC カーブにて評価 • patch数はtrainingで100,000個。
実験A: 内視鏡でポリープdetection • 内視鏡・・・動画になっているので、フレーム画像を選ぶ • 候補領域(candidate)をhandcraftで抽出 • Candidateの中でpatchを少しずつずらしていきながら、ポリー プである確率を平均して算出。 • FROC カーブにて評価 • patch数はtrainingで100,000個。
実験A 結果;どの層までFTするとよいか?
実験A 結果 Hand-craftはまったくダメ FTは全層したものがもっとも良い性能を示した。
実験A結果;サンプル数による影響
実験A結果;サンプル数による影響 サンプル数が少なければ少ないほど、 FTの影響は大きい
実験B“ 肺塞栓のdetection • 肺のCTから、病変をdetectionする。 • Augmentationなどを行い、81000枚のtrain画像
実験B“ 肺塞栓のdetection • 肺のCTから、病変をdetectionする。 • Augmentationなどを行い、81000枚のtrain画像 • 2チャンネルの画像を入力とする(AlexNetに合わせるため、二 つ目のチャンネルを二個使用)
実験B“ 肺塞栓のdetection 入力画像
実験B“ 肺塞栓のdetection 3チャンねる
実験B結果
実験B結果 Sensitivityが高いのは、やはりconv1-fc8;FT Handcraftが割と健闘している(handcraft featureの特異 性が高いとのこと)
実験B結果;サンプル数による影響
実験B結果;サンプル数による影響 サンプル数が少なければ少ないほど、 FTの影響は大きい
実験C:内視鏡画像が適切かどうか classification task
実験C:内視鏡画像が適切かどうか classification task ❌❌❌
実験C:内視鏡画像が適切かどうか classification task • Training 40,000枚の画像 • ランダムに切り出し、適切である確率の平均値を算出
実験C 結果
実験C 結果 FT;conv5-fc8が精度がもっとも性能がよかった(全層FTするよりも!) 理由;おそらく、ImageNetで学習されていた浅い層で学習された特徴が、この タスクに適していた→だから浅い層のFTは余計なものだった可能性あり
実験C;サンプル数の影響 サンプル数が少なければ少ないほど、 FTの影響は大きい
結論 • 医療画像へのFTは有用。 • サンプル数がすくなければ少ないほど、FTは有用。 • FTの元になった画像群と、分類しようとする画像群との間との、 類似性が影響している可能性あり。