[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision

886 Views

January 15, 21

#deep learning #Deep Learning #Natural Language Supervision #Visual Models #Image Classification #Zero-Shot Transfer

スライド概要

2021/01/15
Deep Learning JP:
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 90.7K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 67.4K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 61.1K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 49.4K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 47.1K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 46.9K

各ページのテキスト

DEEP LEARNING JP [DL Papers] Learning Transferable Visual Models From Natural Language Supervision（CLIP:Connecting Text and Images) Present Square Co.,Ltd. 小林範久 http://deeplearning.jp/ 1

http://deeplearning.jp/

書誌情報タイトル： Learning Transferable Visual Models From Natural Language Supervision （https://cdn.openai.com/papers/Learning_Transferable_Visual_Models_From _Natural_Language_Supervision.pdf）著者： Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, Gretchen Krueger, Ilya Sutskever 概要： • カテゴリーを利用者側で自由に設定できる自然言語教師型画像分類モデル。 • 巨大な自然言語教師データ「WebImageText」を構築（４億組のデータセット）。 • 多様なタスクに対するゼロショット転移で優れた精度を達成。選定理由： • OpenAIがDALL・Eと同日に発表した内容でバズっていたから。 • ゼロショット学習の観点で面白いと思ったから。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 2

https://cdn.openai.com/papers/Learning_Transferable_Visual_Models_From_Natural_Language_Supervision.pdf

１. 導入画像処理分野における問題点 • あらかじめ決められたオブジェクトカテゴリ（例：１＝車、２＝飛行機、）を予測するように訓練されている。 • このような形では、ラベル付けされたデータが必要となるため、その汎用性と有用性が制限される。 ① データセット構築にコストがかかる。 ② 基本的なモデルは一つのタスクに最適化されており、別のタスクに応用が効かない。 ③ ベンチマークテストではよい結果をだしても、実地の場でよい結果を残すことが少ない。解決策画像についての生のテキストから直接学習することで代替する。 • インターネットから（画像、テキスト）のデータセットを収集し、どのキャプションがどの画像に合うかを予測するタスクを構築する。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 4

１. 導入モチベーション従来手法 • これまでも自然言語を利用した分類器は構想されてきたが、単純に精度を出すことができず教師ありの分類器を利用した方が精度が良かった。 • 未加工の自然言語を付随しただけの教師なし学習と普通のラベル型教師あり学習との間を補完する形で弱教師学習も行われている。（例えば、Instagram画像上のImageNet関連のハッシュタグを予測する学習など） • これらの試みは、比較的よい精度をベンチマークテストで出すことに成功しているが、予測を実行するために静的なソフトマックス分類器を使用しており、動的な出力メカニズムを欠いている。そのため、柔軟性を著しく制限し、「ゼロショット」の能力を制限することにつながっている。改善観点 • 教師ありモデルと自然言語を利用して直接画像表現を学習するモデルに性能の差を生み出している決定的な違いは、データセットの規模にあると考えた。（前者が100万~10億という単位で画像を利用しているのに対して、後者はおよそ20万程度） • モデルの改良は論文の主眼にはなく、利用しているモデルは、VirTex を参考に、ConVIRTをよりシンプルにしたモデルとなっている。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 5

２. 先行研究 VirTex(Desai & Johnson, 2020) Learning visual representations from textual annotations. • キャプションを用いて視覚表現を学習する事前学習アプローチ。 • 畳み込みネットワークをCOCOキャプション上でスクラッチから訓練し、画像分類、物体検出、インスタンスセグメンテーションなどの下流の認識タスクに適用 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 出典：https://arxiv.org/pdf/2006.06666.pdf 6

https://arxiv.org/pdf/2006.06666.pdf

２. 先行研究 ConVIRT (Zhang et al., 2020) Learning Transferable Visual Models From Natural Language Supervision • 画像とテキストデータの自然発生的なペアリングから直接医用画像表現を学習するための代替的な教師なし学習を提案。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 出典：https://arxiv.org/pdf/2010.00747.pdf 7

https://arxiv.org/pdf/2010.00747.pdf

３. 手法 CLIP（Connecting Text and Images）の特徴カテゴリーを利用者側で自由に設定できる自然言語教師型画像分類モデル • 学習するデータが、一般的な画像とラベル（自由度が低い）の組み合わせで構成されたものではなく、画像と画像を説明するためのテキスト（自由度が高い）であるため、ラベルに設定できるカテゴリーが限定されずカテゴリー設定の自由度が向上している。巨大な自然言語教師データ「WebImageText」の利用 • インターネットを利用して構築された巨大な４億組の自然言語教師データ（Natural Language Supervision：画像と画像を説明する自由テキストのペアのデータセット）「WebImageText」を利用している。多様なタスクに対するゼロショット転移での汎用性の向上 • 多様なタスクに対してゼロショット転移（Zero-Shot Transfer：タスク特有のデータセットで学習をしないで事前学習データで学習したモデルを直接タスクに転用すること）で優れた精度を出した。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 8

３. 手法 CLIPのモデル概要 • テキスト全体がどの画像とペアになっているかだけを予測する。 • N個の（画像、テキスト）ペアのバッチが与えられると、バッチ全体でN×N個の可能性のある（画像、テキスト）ペアリングのうち、どのペアリングが実際に発生したかを予測するように訓練される。 • 画像エンコーダーとテキストエンコーダーを共同で訓練し、バッチ内のN個の実ペアの画像とテキストのエンベッディングのコサイン類似度を最大化する一方で、不正確なペアのエンベッディングのコサイン類似度を最小化する。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 9

10.

３. 手法 CLIPのモデル：（１）対照事前学習＜画像エンコーダ部分＞モデル①（比較のベースモデル） • ResNet-50 ベースのモデル。 • Global Average Pooling層をAttention Pooling機構に置き換えます。Attention Pooling は、クエリが画像のGlobal Average Poolingされた表現に基づいて条件付けされる「Transformerスタイル」のマルチヘッドQKV Attentionの単一レイヤとして実装。モデル②（提案モデル） • Vision Transformer ベースのモデル。 • Transformerの前にパッチと位置の埋め込みを組み合わせたものに追加のレイヤ正規化を追加し、初期化スキームを変更。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 10

11.

３. 手法 CLIPのモデル：（１）対照事前学習＜テキストエンコーダ部分＞ • Transformer ベースのモデル。 • ベースサイズとして、８つのアテンションヘッドを持つ63Ｍパラメータの12層512ワイドモデルを使用。 • 49,152個のボキャブサイズを持つテキストの小文字のバイトペアエンコーディング(BPE)表現で動作。 • 計算効率のため、最大シーケンス長は76に制限。 • テキストシーケンスは[SOS]と[EOS]トークンで括られ、[EOS] トークンにおけるトランスフォーマーの最上位層の活性化は、層を正規化した後、マルチモーダル埋め込み空間に線形投影されたテキストの特徴表現として扱われている。 • 事前に学習した言語モデルで初期化したり、補助的な目的として言語モデルを追加したりする能力を維持するために、マスクドセルフアテンションが使用されている。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 11

12.

13.

14.

３. 手法 Natural Language Supervision • アプローチの中心的な発想は、自然言語に含まれる表現から画像表現が指し示すものを学習するという点。 • 自然言語表現から直接学習する。このメリットは、普通のラベルセットよりも拡張性が高くなることにある。加えて、ゼロショット転移を可能にする言語表現同士の関連性も獲得していることに重要性がある。データセット（WIT：WebImageText） • インターネット上から4億組の画像とテキストをデータセットとして構築。 • タイトルもしくは説明がファイル名とされているものを教師データとして扱う。できるだけ幅広い視覚的概念をカバーするために、50 万個のクエリの中からテキストが含まれている（画像、テキスト）ペアを検索している。 • ベースとなる検索リストは、英語版ウィキペディアで100回以上出現するすべての単語。 • また、クエリリストに含まれていないすべてのWordNetのsynsetを追加。 • ひとつのクエリから約20000万のペアが含まれるようになっている。これはGPT-2で利用したWebTextのワード数に匹敵。評価指標としての「効率性」 • Noisy Studentの効率モデルすら1000程度のクラスでも大変な計算資源を必要とすることから、より大きなクラスを学習することになるCLIPをスケールアップするカギは、「効率性」にあるとしている。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 14

15.

３. 手法訓練モデル：ResNets 5つ（ResNet-50、ResNet-101、RN50x4、 RN50x16、RN50x64） Vision Transformers 3つ（ViT-B/32、ViT-B/16、 ViT-L/14）学習：32 エポック（全学習共通）最適化関数：Adam ハイパーパラメータ：学習可能な温度パラメータτ=0.07に初期化。 100以上でロジットをスケーリングしないようにクリップ。ミニバッチサイズ：32,768 学習時間 • 最大のResNetモデルのRN50x64は、592個のV100 GPUで18日。 • 最大のVision Transformerは256個のV100 GPUで12日。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 15

16.

３. 手法プロンプトエンジニアリング必要となる背景 ⑴多義語問題 • 多義語の意味が定まらないという問題。例）cranes（動物の鶴と重機のクレーン）、boxer (動物の犬種とスポーツ選手) ⑵単語問題 • 与えるカテゴリーリストが単語だけでは高い精度での予測ができないという問題。対応 • プロンプトを“ a photo of a {label}”とする。（ImageNetの場合、1.3％の性能の改善） • ” a photo of a {label}, a type of pet” など、ベンチマークデータセットのタイプがわかっている場合は情報を追加。 • OCRデータセットでは、認識したいテキストや数字の周りに引用符を付けることや、衛星画像の照合データセットでは画像がどの形式のものであるかを特定できる ” a satellite photo of a {label}. “といった工夫が行われている。 • 加えて、プロンプトのアンサンブル学習（80の異なるプロンプトを利用）することで 3.5％の精度上昇が確認された。（両対応で約５％の上昇。） Copyright (C) Present Square Co., Ltd. All Rights Reserved. 16

17.

18.

19.

４. 実験ゼロショット転移の精度について • 完全教師あり学習し、線形分類器をもつResNet-50と比較。 • 27個のデータセットで16勝11敗。良い点 • STL10から最も精度がよい（99.3％）が得られた。 • 動画のデータセット（Kinetics700, UCF101）でもよい結果が得られた。 ※ImageNet の名詞中心の教師データに比べて、WITには動詞を含む視覚的概念が広く含まれているためではないかと推測されている。悪い点特定の分野に特化したもの、複雑なもの、抽象的なものでは精度が出せなかった。 • 衛星画像分類（EuroSAT、RESISC45） • リンパ節腫瘍検出（PatchCamelyon） • 合成シーン内のオブジェクトのカウント（CLEVRCounts） • ドイツの交通標識認識（GTSRB） • 最寄り車までの距離認識（KITTI Distance） Copyright (C) Present Square Co., Ltd. All Rights Reserved. 19

20.

４. 実験ゼロショットと少数ショットの比較 • ゼロショットより少数ショットの方が精度が低く、４ショット目でようやく同程度の精度となった。 ⇒ゼロショットと少数ショットのアプローチの違いが影響していると考えられる。 • CLIPのゼロショット分類器は自然言語を介して生成されるため、視覚的な概念を直接指定（「伝達」）することができる。対照的に、「通常の」教師付き学習では、訓練例から間接的に概念を推論しなければならない。 • そのため、特にワンショット学習の場合では、多くの異なる概念がデータと一致する可能性があるという欠点から、正しい学習が妨げられる可能性が高くなる、と考察。 ⇒ゼロショット学習における概念の伝達の強さと少数ショット学習の柔軟性を組み合わせたより良い方法が、今後の研究で求められている。 • 各データセット毎に、ゼロショット同等の精度を出すために必要な教師データの平均数を表示した図 • データセット毎に大きく効率が異なる（最小1以下～最大184）。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 20

21.

４. 実験ゼロショット転移の効率性 • CLIPのゼロショット性能と完全教師付き線形分類器の性能をデータセット間で比較。 • 破線のy = x線は、完全教師付き線形分類器と同等の性能を持つ「最適な」ゼロショット分類器を表している。 • ほとんどのデータセットにおいて、ゼロショット分類器の性能は完全教師付き分類器を10%から25%も下回っている。 • CLIPはTransformer型のため、学習と精度の向上が比例関係にあると仮定できるはずだが、個々のタスクでは単純な比例関係にあるとはいえない。 • ただし、全体の平均をとると、滑らかな比例関係が見える。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 21

22.

４. 実験表現学習の比較 • • • • 小規模だとEfficientNetの方が精度が高いが、CLIPはスケールを大きくすると他のモデルよりも精度が高くなる。 CLIPのベースモデルは、ResNetよりもVisionTransformerを用いた方が３倍効率が良い。最高の総合モデルViT-L/14は、評価群の中で、既存の最高のモデルよりも平均2.6%優れていた。規模に関係なく、CLIPモデルは計算効率の点ですべてのモデルを上回った。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 22

23.

５. まとめ結論 • • • カテゴリーを利用者側で自由に設定できる自然言語教師型画像分類モデル。巨大な自然言語教師データ「WebImageText」を構築（４億組のデータセット）。多様なタスクに対するゼロショット転移で優れた精度を達成。課題１．SOTAに匹敵する精度の向上 • 現在はResNetをベースにしてないSOATモデルが各タスクごとにある。すべてのタスクでSOATの結果を出そうとした場合、CLIPのタスク学習能力と転移学習能力を向上させる作業が大幅に必要であるが、ゼロショットCLIPが全体的に最先端の性能に到達するには、約1000倍の計算量の増加が必要であると推定されている。（現在のハードウェアで訓練するには無理がある。） • CLIPの計算効率とデータ効率を向上させる必要がある。２．特定タスクでの精度向上 • 細かい分類タスク（自動車、花、航空機の種別など）３．一般化能力の向上 • CLIPは高精度のOCRが可能だが、これはデジタルテキストに限定されたもの。 • MNISTの手書き数字に対しては88%の精度しか達成していない。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 23

24.

５. まとめ課題４．分類以外への応用（キャプションの生成など） • 与えられた概念からのみ選択することに制限されている。５．データ効率の悪さ • 訓練データを大きくスケールすることでデータ効率の悪さを補償しているが、計算時間が増幅している。６．方法論（検証データセット）の問題 • 現実のタスクで真のゼロショットを計測する場合に期待できる検証データが無い。７．データの問題 • 多くの社会的バイアスを含んだデータとなっている。８．自然言語による画像分類の限界 • 多くの複雑なタスクや視覚的な概念を自然言語だけで指定することが難しい。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 24

25.

Appendix 参考文献 • Desai, K. and Johnson, J. Virtex: Learning visual representations from textual annotations. arXiv preprint arXiv:2006.06666, 2020. • Zhang, Y., Jiang, H., Miura, Y., Manning, C. D., and Langlotz, C. P. Contrastive learning of medical visual representations from paired images and text. arXiv preprintarXiv:2010.00747, 2020. • Griewank, A. and Walther, A. Algorithm 799: revolve: an implementation of checkpointing for the reverse or adjoint mode of computational differentiation. ACM Transactions on Mathematical Software (TOMS), 26(1):19–45, 2000. • Micikevicius, P., Narang, S., Alben, J., Diamos, G., Elsen, E., Garcia, D., Ginsburg, B., Houston, M., Kuchaiev, O., Venkatesh, G., et al. Mixed precision training. arXiv preprint arXiv:1710.03740, 2017. • Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, Ł., and Polosukhin, I. Attention is all you need. In Advances in neural information processing systems, pp. 5998–6008, 2017. • Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., Dehghani, M., Minderer, M., Heigold, G., Gelly, S., et al. An image is worth 16x16 words: Transformers for image recognition at scale. arXiv preprint arXiv:2010.11929, 2020. • Brown, T. B., Mann, B., Ryder, N., Subbiah, M., Kaplan, J., Dhariwal, P., Neelakantan, A., Shyam, P., Sastry, G., Askell, A., et al. Language models are few-shot learners. arXiv preprint arXiv:2005.14165, 2020. Copyright (C) Present Square Co., Ltd. All Rights Reserved. 25