513 Views
April 26, 24
スライド概要
2024/04時点での、CNNやViTの勢力や基礎を振り返るためのスライドです。
【注意書き】:研究室内で発表に利用したものです。解釈に誤りがある可能性がありますので、ご参考いただく際はご注意ください。資料の転用は禁止しております。
人工知能(ディープラーニング)研究者。現在博士課程に在籍。主な実績:CVPR2024主著論文採択。研究テーマ:コンピュータ・ビジョンの分野で深層学習モデルがどのように機能するかを包括的に研究。
画像系深層学習モデルの振り返り CNNやViTの最新論文紹介前にお見せする用スライド
振り返りスライド目次 コンピュータビジョン分野における深層学習モデルの勢力 CNNの概要確認 畳み込みの確認 ViTの台頭 ViTの高性能要因
コンピュータビジョン分野における深層学習モデルの勢力 ViTの成功に触発され、ラージカーネルCNNなどの研究が活発化している。 2017 2018 2019 2020 2021 2022 2023 2024 CV分野をCNNが席巻 ViTの台頭 いくつかの研究は、ViTの強力な性 能は、その大きな受容野によるもの であるとしている。 self-attentionメカニズムにより、 ViTは広い空間範囲から文脈情報を捉 え、長距離の依存関係をモデル化する ことができる。 CNNの対抗 ViTの進展に触発され、CNNはカー ネルサイズの拡大などにより対抗し てきた。 例えばCNNにラージカーネルを装 備する研究が盛ん。これにより、様々 な視覚タスクにおいて、ViTと同等か、 それ以上の性能を発揮できることが明 らかになっている。受容野(正確には 有効受容野)の拡大も確認されている。
CNN(Convolutional Neural Network)の概要確認 CNN:画像認識に特化したディープラーニングモデルの1つ 「畳み込み層」&「プーリング層」を複数回繰り返し、最後に全結合層を用いて結果を出力するモデルが基本形。 3クラス分類の例 畳み込み層 :エッジなどの特徴を抽出する層 プーリング層 :画像サイズを小さくする層 全結合層 :前後の層の全ニューロンを接続する層 特徴マップの枚数 特徴マップの枚数
畳み込みの確認 3×3の畳み込みカーネルを用いて、4×4の特徴マップから2×2の特徴マップを得る例 GIFは「https://www.hellocybernetics.tech/entry/2018/03/10/191024」より引用 3×3の畳み込みカーネルを用いて、 4×4の特徴マップ3枚から2×2の特徴マップ2枚を得る例 重み カーネル バイアス 入力特徴マップ 出力特徴マップ + (補足)層間の重みの数 =入力特徴マップ数×出力特徴マップ数×カーネルサイズ×カーネルサイズ +バイアス数(出力特徴マップ数)
ViTの台頭 引用元:「https://arxiv.org/abs/2101.09336」
ViTの高性能要因 ※だいぶ前に自作