12K Views
January 19, 24
スライド概要
DL輪読会資料
DEEP LEARNING JP [DL Papers] Few-Shot Defect Image Generation via Defect-Aware Feature Manipulation 1 Takumi Ohkuma http://deeplearning.jp/
自己紹介 経歴 • • • • • 2019年 3月 東京大学 工学部 計数工学科卒業 2021年 3月 東京大学 情報理工学系研究科 創造情報学専攻 修士課程 修了 (修了時に研究科長賞受賞) 2021年 4月 同 博士課程 進学 (休学中) 2021年 6月 Airion株式会社 創業 2022年 7月 AI団体「AcademiX」設立 (link) その他 大熊拓海 • • • 東京大学 工学系研究科 講義「深層学習」講師(2020年度-) 松尾研スプリングセミナー講義 監修 (画像認識) 講師 (画像認識/生成モデル) 2021年度未踏アドバンスト事業採択 • Twitter: @shien5963 (link)
3 書誌情報 • 題名:Few-Shot Defect Image Generation via Defect-Aware Feature Manipulation [1] ※ 本資料における出典の記載の無い図表は全て [1] より引用 • 著者:Yuxuan Duan, Yan Hong, Li Niu, Liqing Zhang (上海交通大学の研究チーム) • 出典:AAAI 2023 に採択 • URL: https://arxiv.org/abs/2303.02389 • Code: https://github.com/Ldhlwh/DFMGAN
4 概要 • 欠陥検知における「学習に使える欠陥画像が少ない」問題 に対し、GAN[2]による異常画像生成で解決を試みた研究。 • 比較的大量に手に入る正常画像でStyleGAN2[3]を事前学習 し、その後Few-Shotで転移学習することで欠陥画像生成 を可能とするDFMGANを提案。 • 転移学習では、欠陥領域を示すマスクをベースに、欠陥領 域を正常画像に転移する追加モジュールを学習することで、 高い品質および多様性を持った欠陥画像の生成に成功。 • 生成画像を活用することで、異常検知の精度向上に成功。
5 研究の背景 • 欠陥検知は製造業の検品作業の自動化において重要な役割を果たしており、ここをAI化するこ とで得られるメリットは大きい。 • 一方で、欠陥データは数が乏しいために集まりにくく、現在主流のアプローチとしては以下の 通りであるが欠点も多い。 • 正常画像のみを用いた1クラス異常検知 (欠点)単純なクラス分類しか行えず、欠陥の場所やクラスまで特定したい様なタスクは困難。 • 欠陥画像生成によるデータ拡張 (欠点)学習に使える欠陥画像数が少なく、画像の質・多様性に難あり。 • 本研究では少数データをしか手に入らない場合における、「欠陥画像生成によるデータ拡張」 の質・多様性を高める手法を提案する。
6 欠陥画像生成の先行研究 • Crop&Paste [4] 非生成的な手法であり、欠陥画像の欠陥領域をCNNで 特定し、特定された欠陥領域を正常画像に張り付ける ことで、欠陥画像データを拡張する。 • Defect-GAN [5] 欠陥部分を前景、元々のテクスチャを後景とし、 前景部分を生成・削除するEncoder-Decoderを学習す ることで、欠陥画像の生成を行う。
7 DFMGANの導入 • Few-shotでの高品質の欠陥画像生成を可能にす る為、左図のDFMGANを導入する。 • DFMGANは、StyleGAN2をベースにしている。 • 左側の部分 (Backbone): 正常画像を生成するメインのネットワーク • 右側の部分 (Defect-aware Residual Network): 「欠陥マスク」を生成し、以下の式に基づいて マスク部分に欠陥の特徴量を埋め込む。
8 DFMGANのお気持ち 大量に手に入る正常画像で大きめ のネットワーク (23M) を学習し、 ベースとなる物体の質・多様性を 高めておく。 欠陥画像が少ないのでパラメータ 数を絞り (3.7M)、 また欠陥領域の生成のみに集中さ せることで精度を高める。
9 DFMGANの学習 1. 左のBackbone(=StyleGAN2)を、正常画像 のみで事前学習。 ※ 詳細は割愛 2. 異常画像を用いて右のDefect-aware Residual Blocks を学習。 • Backboneはfixする。 • 学習に際しては「異常画像」と「異常部位を表 すマスクデータ」が必要。 • やや特殊なDiscriminator, Loss関数を用いるので 次のスライドで説明する。
10 Defect-aware Residual Blocksの学習 DFMGANでは一般的なGANと異なり、2つのDiscriminatorを用いる。 1. Discriminator (𝐷): 教師欠陥画像と生成欠陥画像のReal/Fakeを判別する。 (要するに一般的なDiscriminator) 2. Matching Discriminator (𝐷𝑚𝑎𝑡𝑐ℎ): マスクと欠陥画像のペアのReal/Fakeを判別する。 マスクが正確に欠陥領域をコントロール出来るようにする役割 画像自体のReal/Fakeを判別するより簡単なタスクなので、 アーキテクチャは𝐷と同じだがパラメータ数が少ない。 (𝐷 :24M → 𝐷𝑚𝑎𝑡𝑐ℎ :1.5M)
11 Loss関数 • DFMGANのLoss関数では、前スライドの2つのDiscriminatorに加えて、 欠陥マスクのモード崩壊により同じ様な欠陥マスクしか生成されなくなることを防ぐため の”Mode Seeking Loss [6]”(の亜種)が採用されている。 • Defect-aware Residual Blocks の重み 𝑤𝑑𝑒𝑓𝑒𝑐𝑡 が変化に対してにマスクの 𝑀 変化を大きくする。 • DFMGANのLoss関数は、2つのDiscriminatorと上記の項を合わせて以下の様になる。 ※ 最初の2項はそれぞれのDiscriminatorのLossを表す。
12 実験 DFMGANが生成する欠陥画像のクオリティ、及び有用性を示す為、 1. 生成画像の品質 • KID [7]:品質に関する評価指標 • LPIPS [8]:多様性に関する評価指標 2. 生成画像を用いた際の欠陥検知タスクの精度 • 欠陥画像分類 の2つの観点から評価を行った。 学習データとしては “MVTec Anomaly Detection 2 [9]” (MVTec AD) を用いた。
13 MVTec AD による学習 • 15種類のカテゴリ(物体:10, テクスチャ:5)に対する欠陥検知用データセット • 各カテゴリは最大8種類の「欠陥カテゴリ(≒欠陥の種類)」を持つ • 各欠陥画像には、欠陥の場所を示すマスクが付与されている(正常画像には無し) • 各カテゴリは200-400の正常画像と、10-25の各欠陥カテゴリ画像を持ち、 それぞれBackbone, Defect-aware Residual Blocksの学習に用いられる。 • DFMGANは各「欠陥カテゴリ」毎に学習される。 • (例)穴あきヘーゼルナッツを生成するDFMGAN 上の画像は「ヘーゼルナッツ」カテゴリの、Crack ,Cut, Hole, Print の欠陥 カテゴリに属する欠陥画像、及びマスク(左下)である。
14 ベースライン 以下比較対象となるベースライン手法 欠陥画像生成手法 • SDGAN [10]:2つのGeneratorを用いて、欠陥画像と正常画像の片方からもう片方を生成 • Defect-GAN [5]:欠陥を生成 and 削除するEncoder-Decoderを学習 Few-shot の画像生成手法(欠陥画像生成用ではない) • Finetune:StyleGANを単純にPretrain & Finetune • DiffAug [11]:過学習を防ぐため、微分可能なデータ拡張を活用 • CDC [12]: consistency lossを用いてソース/ターゲット画像間のクロスドメイン対応を保持する。 非生成的手法 • Crop&Paste [4]:異常部分を切り抜き、正常部分に張り付ける手法
15 評価指標(画像生成) • Kernel Inception Distance (KID)↓ Fréchet Inception Distance (FID) に似た指標で、学習済みモデルの特徴量空間における生成画像 と学習画像の分布の差を評価。より少数データの評価向き。 多様性よりクオリティを評価する傾向にある。 • Learned Perceptual Image Patch Similarity (LPIPS)↑ 「各画像同士がどの程度特徴量空間上で離れているか」を計算する指標。 本実験では、N個の教師欠陥画像が与えられている場合、1000の欠陥画像を生成し、N個の教師 画像を中心にクラスタリングし、各クラスタ内の各画像ペアのLPIPSを計算して平均を取る。最 後にN個のクラスタのLPIPSを平均する。 本指標では多様性を評価でき、モード崩壊している場合は殆ど0になる。
16 結果(画像生成) • Finetune, DiffAug, CDCは欠陥画像生成に特化したモデルではない為過学習しやすい。 (多様性が損なわれ、LPIPSが低い) • SDGAN, Defect-GANは多様性には優れるものの、DFMGANの様に欠陥部分にフォーカスし た生成は行えないので品質面でDFMGANに劣る(KIDが高い)。 • Crop&Pasteは切り貼りなので生成の品質は高いが(KIDはほぼ0なので省略)、既存の正常 画像・欠陥を組み合わせる事しかできないので、生成出来るバリエーションに限りがある。 • DFMGANはその他の手法よりも品質に優れ(KID)、また多様性を持つ(LPIPS)。
17 生成画像例
18 Few-shot 画像生成 • 更に欠陥画像が少ない場合の性能を確かめる為、5-shot / 1-shot(学習に用いられる欠陥画 像数がそれぞれ5, 1枚)学習を行い精度を確かめた。 • ヘーゼルナッツのHoleカテゴリを用いた。 • 以下の表の様に、枚数が少ない時でもDFMGANは他の手法より優位な精度を実現。 • 実際の生成画像は次スライドで紹介。
19 Few-shot画像生成例
20 欠陥画像分類 • 生成された画像が実際のタスクに有効化どうか検証する。 • ヘーゼルナッツの欠陥クラスを分類し、正答率で比較。 • テストデータは Crack ,Cut, Hole, Print の4 x 12枚 = 合計48枚 • 学習データは各クラス5~6枚をベースにDFMGANで生成した1000枚 x 4クラス ※ 欠陥位置推定等のタスクも考えられるが、多くの手法でマスク・画像ペアを生成しないので学習不可。 • 「Resnet-34 [13]で学習して正答率を評価」をテストと学習をシャッフルして3回繰り返す。 • 以下の表より、DFMGANはその他手法と比較して10%以上精度が高いことがわかる。
21 まとめ • 本研究では、ごく少数の欠陥画像データに基づいて、多様な欠陥画像データを生成出来る 初の画像生成手法”DFMGAN”を提案した。 • Backboneが正常画像の生成を担当し、 Defect-aware Residual Networkが欠陥マスクを生成 とその領域の欠陥特徴量の作成・埋め込みにのみフォーカスすることで、欠陥領域の生成 を容易にした。 • DFMGANはベースライン手法と比較して画像の品質・多様性共に優れ、 また生成画像を用いた欠陥画像分類タスクにおいてもDFMGANにより生成された画像の有 用性が確かめられた。 • DFMGANの弱点としては、「形が変化するタイプの欠陥」への対応力が弱い、「欠陥の種 類ごとに別のモデルを学習する必要がある」などが挙げられ、今後の研究課題としている。 • 一応全ての欠陥に対応したモデルも学習できるが、必ずしも高精度にならないらしい。
22 引用 1. Duan, Yuxuan, et al. "Few-shot defect image generation via defect-aware feature manipulation." Proceedings of the AAAI Conference on Artificial Intelligence. Vol. 37. No. 1. 2023. 2. Goodfellow, Ian, et al. "Generative adversarial nets." Advances in neural information processing systems 27 (2014). 3. Karras, Tero, et al. "Analyzing and improving the image quality of stylegan." Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2020. 4. Lin, Dongyun, et al. "Few-shot defect segmentation leveraging abundant defect-free training samples through normal background regularization and crop-and-paste operation." 2021 IEEE International Conference on Multimedia and Expo (ICME). IEEE, 2021. 5. Zhang, Gongjie, et al. "Defect-GAN: High-fidelity defect synthesis for automated defect inspection." Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision. 2021. 6. Mao, Qi, et al. "Mode seeking generative adversarial networks for diverse image synthesis." Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2019. 7. Bińkowski, Mikołaj, et al. "Demystifying mmd gans." arXiv preprint arXiv:1801.01401 (2018). 8. Zhang, Richard, et al. "The unreasonable effectiveness of deep features as a perceptual metric." Proceedings of the IEEE conf erence on computer vision and pattern recognition. 2018. 9. Bergmann, Paul, et al. "MVTec AD--A comprehensive real-world dataset for unsupervised anomaly detection." Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2019.
23 引用 10. S. Niu, B. Li, X. Wang and H. Lin, "Defect Image Sample Generation With GAN for Improving Defect Recognition," in IEEE Transactions on Automation Science and Engineering, vol. 17, no. 3, pp. 1611-1622, July 2020, doi: 10.1109/TASE.2020.2967415 11. Zhao, Shengyu, et al. "Differentiable augmentation for data-efficient gan training." Advances in neural information processing systems 33 (2020): 7559-7570. 12. Ojha, Utkarsh, et al. "Few-shot image generation via cross-domain correspondence." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021. 13. He, Kaiming, et al. "Deep residual learning for image recognition." Proceedings of the IEEE conference on computer vision and pattern recognition. 2016.
24 付録 • 本研究では、ヘーゼルナッツ以外のMVTec ADの14カテゴリも用いて実験を行っている。 • 参考までにそのうちいくつかの画像生成例、結果を次スライドから紹介する。 • 全ての結果を見たい場合は論文を参照してください。
25 付録(ボトル)
26 付録(ネジ)
27 付録(カプセル)
28 付録(カーペット)