621 Views
October 15, 21
スライド概要
2021/10/15
Deep Learning JP:
http://deeplearning.jp/seminar-2/
DL輪読会資料
DEEP LEARNING JP [DL Papers] Patches Are All You Need? (ConvMixer) 小林 範久 Present Square Co.,Ltd. http://deeplearning.jp/ 1
書誌情報 タイトル: Patches Are All You Need? (ConvMixer) https://openreview.net/pdf?id=TVHS5Y4dNvM (ICLR2022 査読中) 著者: Anonymous authors 概要: • • • 選定理由: • 入力画像に対して、パッチサイズに分割しエンベディングすることは、Attention 機構と同じくらい重要である と提唱。 入力画像をパッチ単位に分割するだけのCNNをベースとしたシンプルなモデル ConvMixer を開発。 シンプルなモデルにもかかわらず、ImageNet-1Kにて、 ResNet 、ViT、MLP-Mixer、といったモデルを上 回る精度を達成。 MLP、Conv、Transformerなど、それぞれ「良いモデルにはどのような機構が必要なのか?」を理解したい。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 2
アジェンダ 1. 導入 2. 先行研究 3. 手法 4. 実験 5. まとめ Copyright (C) Present Square Co., Ltd. All Rights Reserved. 3
1. 導入 背景 • 画像処理の世界は長らくCNNベースのモデルが主流であった。(ResNet やVGG など) • 自然言語処理の世界では、Attention機構を利用したTransformerベースのモデルが目覚ましい性能を発揮し、 現在ではTransformerをベースに設計することがデファクトスタンダードであると言える。 • Vision Transformer(ViT) をはじめとしてTransformer を利用したモデルが画像処理の世界でも作られるよう になった。それらは特に巨大なデータセットで優れた性能を発揮したことで大きな注目を集めている。 • 本論文は、そうした潮流が前提としている Transformer の骨格である Attention 機構が重要であるという論に対し て疑問を投げかけたことで新たな可能性を提示。 • Attention 機構ではなく、Transformer を画像に対して利用するために必要な「画像をパッチ単位に分割すること」が 重要であると仮定し、それらを実証するために、入力画像をパッチ単位に分割すること以外は普通のCNNモデルとほとんど 変わらない ConvMixer を開発。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 4
2. 先行研究 Vision Transformer(ViT, Dosovitskiy et al. 2020) • 画像処理で一般的なCNNなどを利用せずに純粋に Transformerのみを利用しているモデル。 • 画像を「画像パッチが連なったシーケンスデータ」として 扱うことで画像処理にTransformerを適用することに 成功。 • Transformerの「計算効率の良さ」と「スケーラビリ ティ」を画像処理タスクにもたらすことを成功。 • 最先端のCNN型モデルよりも優れた結果(もしくは 同程度)を出したうえで、学習に必要な計算コストを 大幅に減少。 画像パッチ(9つのパッチ)として入力 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 出典:https://arxiv.org/pdf/2010.11929.pdf 5
2. 先行研究 MLP-Mixer: An all-MLP Architecture for Vision ( Tolstikhin et al. 2021) • 畳み込み層やTransformerのような Attention機構を使わず、MLPだけで⾼精 度の画像分類を実現。 • 入力画像を画像パッチに分割し、それらの パッチを、チャンネル方向及び空間方向に関 してMLPで変換する。 • 従来のCNNは、 (1)特定の空間位置での 特徴、(2)異なる空間位置間での特徴、ある いはその両方を一度に混合する層で構成さ れている。 • MLP-Mixerの背景にある考え方は、特定の 位置ごとの操作(channel-mixing)と、ロ ケーションをまたいだ操作(tokenmixing)を明確に分けることにある。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 出典:https://arxiv.org/pdf/2105.01601.pdf 6
3. 手法 ConvMixer の概要 入力画像をパッチサイズp に分割し、Patch Embeddingを行う。 ConvMixer Layer 自体は Depthwise ConvolutionやPointwise Convolutionのシンプルな畳み込みで構成。 パッチサイズ:𝑝 カーネルサイズ:𝑝 埋め込み次元:ℎ ストライド:𝑝 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 入力チャンネル数:𝑐𝑖𝑛 出力チャンネル数:ℎ 7
3. 手法 ConvMixer のモデル詳細 パッチエンベディング Patch embedding パッチサイズがp,エンベディング次元がh、ストライドp、 カーネルサイズp、アウトプット次元がhのような畳み込みと 同じ。なお、通常よりも大きいカーネルサイズが深さ方向の 畳み込みでは有効であることが確認されている。 ConvMixer ConvMixer は基本的にDepthwise Convolution と Pointwise Convolution を利用したものになる。加えて、 ResNet などで使われる残差接続と、Batch Normalizationが適用されている。 最終的に、SoftMax分類機にわたすサイズhの特徴量ベクトルを取得するためにGlobal Average Poolingを行って いる。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 8
3. 手法 ConvMixer の実装 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 9
3. 手法 ConvMixer の280文字で実装 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 10
3. 手法 ConvMixer のモデル概要 ViTとの共通事項 1.パッチ単位で処理すること。 2.解像度とサイズの表現を各層を通して維持すること。 3.連続する層で表現をダウンサンプリングしないこと。 4.情報の空間的融合からチャンネル単位の融合を切り離すこと。 ViT との相違点 Transformerを利用せず、一般的な畳み込みのみ利用。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 11
3. 手法 ConvMixer のパラメータ ConvMixer で重要となるパラメータは以下の4つ。 (1) (2) (3) (4) パッチエンベッディングの次元。 深さd(ConvMixerレイヤーの繰り返し数)。 パッチサイズp(モデルの内部解像度を制御する)。 深さ方向の畳み込みレイヤーのカーネルサイズk。 ConvMixer-h/dのように、ConvMixer に隠れた次元と深さの名前をつけている。 ここでは、元の入力サイズnをパッチサイズpで割ったものを内部解像度としているが、ConvMixer は可変サイズの 入力にも対応している。 ConvMixer のポイント • MLPs と Self-Attention は距離のある空間的位置を効果的に調整する=任意の大きさの受容野になるということ が有用であるとされていますが、ConvMixer も同じように、大きなカーネルサイズの畳み込みを利用することで、距離の ある空間的位相を効果的に調整することが可能となっている。 • Transfomrer系は理論的により柔軟で、より大きな受容野でコンテンツを意識した挙動が可能であることがメリットであ るが、CNNベースのモデルには、画像タスクと⾼いデータ効率性という点で大きなメリットがある。 • ConvMixer は畳み込みの基本的な処理をしているだけであり、このことは畳み込みネットワークの従来のピラミッド型の プログレッシブダウンサンプリング設計とは対照的に、パッチ表現自体の効果も垣間見ることができることを指摘している。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 12
4. 実験 CIFAR-10 を用いた実験 • • CIFAR-10 を用いて行われ、0.7 M パラメータで約96%の精度を達成。 なお、その際にアブレーション実験が行われ、最適な設定が確認されている。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 13
4. 実験 ImageNet-1Kを用いた実験 実験のセットアップ データセット:ImageNet-1K データ拡張:RandAugment、mixup、CutMix、 random erasing、勾配ノルムクリッピング 最適化関数:AdamW(学習率スケジュールラーも利用) • • • • 結果 ConvMixer-1536/20 with 52M parameters:81.37% (なお、k=9→k=3にすると、1%精度が下がる) ConvMixer-768/32 with 21M parameters:80.16% シンプルなモデルにもかかわらず、ImageNet-1Kにて、 ResNet 、 ViT、MLP-Mixer、といったモデルを上回る精度を達成。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 14
5. まとめ 結論 • ConvMixerは最初に「パッチ単位のエンベディング」をすることにより、通常のCNNで段階的に行われるダウンサンプリ ングを一度に実行できるため、内部解像度がすぐに低下し、有効な受容野サイズが増加して、離れた空間情報を簡 単に混合(=Mixer)できるようになる。そのため、パッチエンベディングの使用も、強力で重要なポイントであるといえ る。 • ConvMixer はネットワークを通じて、同じサイズ、シェイプを維持する等方的アーキテクチャ。(等方的とは、ある対 象の性質や分布が方向に依存しないこと。)系統的には、MobileNetに近いもので、ConvMixerのほうがよりシン プルになっているといえる。シンプルなパッチエンベディングを備える「等方性」アーキテクチャ自体が、ディープラーニングの 強力なベースであることを論文は示唆している。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 15
Appendix 参考文献 • Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, et al. An image is worth 16x16 words: Transformers for image recognition at scale. arXiv preprint arXiv:2010.11929, 2020. • Ilya Tolstikhin, Neil Houlsby, Alexander Kolesnikov, Lucas Beyer, Xiaohua Zhai, Thomas Unterthiner, Jessica Yung, Daniel Keysers, Jakob Uszkoreit, Mario Lucic, et al. Mlp-mixer: An all-mlp architecture for vision. arXiv preprint arXiv:2105.01601, 2021. • Hugo Touvron, Matthieu Cord, Matthijs Douze, Francisco Massa, Alexandre Sablayrolles, and Hervé Jégou. Training data-efficient image transformers & distillation through attention. arXiv preprint arXiv:2012.12877, 2020. • Prajit Ramachandran, Niki Parmar, Ashish Vaswani, Irwan Bello, Anselm Levskaya, and Jonathon Shlens. Stand-alone self-attention in vision models. arXiv preprint arXiv:1906.05909, 2019. Copyright (C) Present Square Co., Ltd. All Rights Reserved. 16