>100 Views
February 07, 20
スライド概要
020/02/07
Deep Learning JP:
http://deeplearning.jp/seminar-2/2
DL輪読会資料
DEEP LEARNING JP [DL Papers] Adversarial Representation Active Learning Keno Harada, UT, B3 http://deeplearning.jp/ 1
書誌情報 ● 著者情報: ○ ○ ○ Ali Mottaghi, Serena Yeung Stanford University 第一著者はPhD2年目?, 第二著者はCS231nで講師もしていたSerenaさん(2018年にFei-Fei LiのlabでPhD, 今はStanfordでAssistant Professor) ○ この二人はArtificial Intelligence in Healthcare (http://web.stanford.edu/class/biods220/) という授業を行うみ たい(授業のslideは公開されている) ● 論文リンク: https://arxiv.org/pdf/1912.09720.pdf ● 一言で: ○ Variational adversarial acquisition functionをサンプリング関数とし, 半教師あり学習をクラス分類器の学習に組み込んだ Active Learning手法を提案, 画像分類のタスクで既存のactive learning手法の性能を上回った
目次 ● Active Learning ● 提案手法 ○ ○ ○ Variational adversarial acquisition function Semi-supervised framework for incorporating unlabeled data Co-training for full model ● 全体のアルゴリズム ● 実験 ○ 実験結果 ● 所感
Active Learning Image from http://burrsettles.com/pub/settles.a ctivelearning.pdf ● どのようなデータからモデルが学ぶべきかを選択できるという設定で, より少ないラベル付き学 習データで高精度を出せるようにする手法 ○ ラベルなしデータの中でラベル付けされるべきデータを選び, ラベル付け後学習データへ加えていく ● 全てのデータへのラベル付けがコスト面などから難しい場面など
Active Learning 3つの枠組み ● Membership Query Synthesis ○ 生成したデータにラベル付けを行う ● Stream-Based Selective Sampling ○ ある基準を超えたものをラベル付けして加えていく ● Pool-Based Sampling ○ ○ ラベル付けされていないデータ全体から, ある基準でラベル付け優先度をつけ, 優先度の高いものをラベル付けし ていく よくある設定
Active Learning 基準の計算 (Query strategy framework) ● Uncertainty Sampling ○ ラベルの予測分布のエントロピーから算出など ● Query-By-Committe ○ いくつかモデルを用意して予測が食い違ったものを選ぶ ● Expected Model Change ○ 勾配をもとに, どれがモデルに変化をもたらしそうかを選ぶ ● Expected Error Reduction ○ 残りのunlabeledデータでのエラー率が低くなるようなものを選ぶ ● Variance Reduction ○ 出力の分散を最小化するようなものを選ぶ ● Density-Weighted Methods ○ 何らかの情報量の基準に, 他のデータとの類似性を掛け合わせた値で選ぶ
提案手法 Adversarial Representation Active Learning
提案手法 Adversarial Representation Active Learning ● Variational adversarial acquisition functionをサンプリング関数とし, 半教師あり学習を クラス分類器の学習に組み込んだActive Learning手法を提案 ○ ○ acquisition functionと半教師あり学習で用いるconditional GANはencoder, decoderを共有しており, それ ぞれのモデルの向上が相乗効果的に効いてくる(という主張) ラベル無しデータの活用とco-trainが強みだと言っている ● 3つのKey要素 ○ ○ ○ Variational adversarial acquisition function Semi-supervised framework for incorporating unlabeled data Co-training for full model
Variational adversarial acquisition function
Variational adversarial acquisition function Encoder and Decoder(Generator) Loss ● trd_VAAL: β-VAE Loss ● adv_VAAL: VAEのEncoderはラベルあり・無しデータを同じような確率分布になるように潜 在空間に落とし込もうとする
Variational adversarial acquisition function Discriminator (Sampler) Loss ● S(z): 潜在変数がラベルありデータから得られているとする確信度を表す ○ ○ この値が低いとラベル無しデータであると考えられ,ラベル有りデータ空間とは異なるものとみなす ラベル付けする際の基準として用いる ● S_VAAL: Discriminatorは与えられた潜在変数がラベルありデータから得られたものなのか かラベル無しデータから得られたものなのかを判別する
Semi-supervised framework for incorporating unlabeled data ● Decoderを半教師ありのGeneratorとして活用 ○ ラベル無しのデータ構造についての情報を目的のクラス分類器がより得られる ■ Generatorによるデータ拡張の効果 ● BiGAN構造を採用 ○ https://arxiv.org/pdf/1605.09782.pdf
Semi-supervised framework for incorporating unlabeled data ロス関数 ● C(x)が精度を上げる対象のクラス分類器 ● Discriminatorとネットワーク構造を共有している部分があり,クラス分類器はより良い表現 を獲得(?)
Co-training of full model ● Acquisition functionとconditional GANのEncoder, Decoder(Generator)はネットワーク 共通
全体のアルゴリズム 新たなラベル付け EncoderとDecoderの学習 Discriminatorの学習 Samplerの学習
実験 ● MNIST, SVHN, CIFAR-10, CelebA, ImageNetで実験 ● 比較手法 ○ ○ ○ ○ ○ Max-Entropy method Bayesian Active Learning by Disagreement (BALD) Variational Adversarial Active Learning (VAAL) ■ VAALのクラス分類器はラベル付けされたデータのみで学習 Random Full training of our model ■ 全部にラベルを付けて学習 ■ upper bound
実験結果
実験結果
実験結果 どの要素が効いているのか? ● No active learning ○ samplerとEncoderへのadversarial部分を削除,randomにラベル付けを行う ● No encoder ○ Encoderを削除,Bayesian Active Learning by Disagreementをもとにラベル付けを行う ● No co-training ○ Variational Adversarial Active Learning(VAAL)をもとにラベル付け,事前に訓練済みのGANで画像生成 しデータ拡張 ● Random ○ ランダムにラベル付け,ラベル有りデータでクラス分類器を学習
実験結果 どの要素が効いているのか? active learningの効果 Co-trainingの効果 半教師あり学習の効果
実験結果 どの要素が効いているのか? ラベル有り・無しでの表 現学習の効果
所感 ● SegmenationやDetectionのタスクでもうまくいくのか? ● Co-trainingでうまく行く理由が未だによくわからない ○ ○ ネットワーク構造一緒にすれば一般的にうまくいくものなのか? multi-task learning? ● Active learningの欠点って何だろう? ○ ○ チューニング大変そう 別のモデルで得られたラベルデータセットで学習し直すと精度下がる事例があるらしい ● 強化学習でのダイナミクスモデルの効率的な学習との共通点はあるか?
Class conditionalの設定に合わせたvariational acquisition functionのロス