20221028勉強会_桧森_画像生成AIまでの道のり

1.3K Views

December 01, 22

#画像生成 #画像チーム #画像生成AI #Transformer #CLIP #DALL-E2 #大規模言語モデル

スライド概要

HEROZ勉強会、技術調査グループ、画像チームの発表

HEROZ株式会社

@heroz

スライド一覧

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

Azure AI Hub meetup #1 Azure AI ことはじめ

azure llm

HEROZ株式会社 15.6K

20221223_技術グループ発表_最適化・探索

探索最適化

HEROZ株式会社 2.6K

20221028勉強会_中井_ODMを利用したドローン動画の加工

ドローン画像チーム

HEROZ株式会社 2.4K

20221223_技術グループ発表_GPU

gpu

HEROZ株式会社 2.2K

20221125勉強会_川島_Video PreTraining (VPT) Learning to Act by Watching Unlabeled Online Videos

強化学習

HEROZ株式会社 2.2K

猫でも分かるUnreal Engineの学び方 - 超初心者向け編 - 2023 v1.0

ue4 ue5 ue-beginner

エピックゲームズジャパン 1.7M

各ページのテキスト

画像生成AIまでの道のり TransformerからDALL・E2まで 2022年10月28日桧森拓真ＨＥＲＯＺ株式会社

概要・Transformerから画像生成AI（txt2img）までの流れを大まかに紹介・代表的なものを取り上げているが一部取り上げ切れていないものや割愛しているものもある・大規模化するモデルについての課題・問題点を紹介 2

テキストから画像生成するAIまでの流れ・自然言語処理分野において、Transformerが登場・Transformerを利用したBERTなどの大規模モデルが登場・ViTが登場し、CVタスクにおいてもTransformerの利用が広がる・CLIPが登場し、画像とテキストの関連を捉えることが可能になる・CLIPを利用したテキストから画像生成するAIが次々に登場自然言語処理分野での発展・Transformerの誕生・BERT、GPT-3など Transformerを利用した大規模モデルが登場・T5（Flan-T5）・PaLM(Flan-PaLM） CVタスクへの応用・ViT ・画像パッチを自然言語の単語とみなして処理・MAEで自己教師あり学習 Vision and Languageのモデル登場・画像とテキストの類似度を出力できるCLIPの登場・画像とテキストの関連を捉えることができるテキストから画像生成するAIへ応用・CLIPを応用した画像生成AIが次々に登場・GLIDE ・DALL・E2 ・Imagen ・Stable Diffusion 3

自然言語処理分野での発展 Transformer ・系列データを一括同時処理（RNNは逐次処理）・GPUの並列計算などにより学習を高速化できる・大規模モデルはTransformerがベースになっているものが多い・self-attentionにより、各単語がどの単語と関連しているかを計算可能に（右下図）出典：https://arxiv.org/pdf/1706.03762.pdf 4

https://arxiv.org/pdf/2103.00020.pdf

自然言語処理分野での発展 BERT ・自己教師あり学習によりラベルなしの文章を学習に利用可能・Masked Language Model（単語を[MASK]に置き換え、元の単語を予測）・Next sentence prediction（二つの文章が連続した文章かどうかを予測）・事前学習モデルをファインチューニングすることで様々なタスクに応用・多くの自然言語処理タスクで当時のSOTA（最高精度）を達成 This is an apple. ランダムに選んだ単語を[MASK]に置き換え This is an [MASK]. [MASK]に入る単語を予測 This is an apple. Masked Language Model 5

CVタスクへの応用 ViT（Vision Transformer）・画像のパッチを自然言語における単語とみなす・CNNを超えたと話題に - 大規模なモデル・学習データで事前学習した場合、CNNも高い性能を示している・ViTでも自己教師あり学習が可能に Masked AutoEncoder(MAE）は画像にマスクをかけ、復元する（右下図）出典: https://arxiv.org/abs/2010.11929 出典: https://arxiv.org/pdf/2111.06377.pdf 6

Vision and Languageのモデル登場 CLIP ・画像とテキストの類似度を出力 - 画像とテキストの関係性を捉えることが可能に・未知の画像に対しても類似度による分類が可能・CLIPを利用した画像生成モデルが次々に登場、白い猫類似度：0.99 CLIP 、黒い犬出典：https://arxiv.org/pdf/2103.00020.pdf 類似度：0.01 7

https://arxiv.org/pdf/2103.00020.pdf

テキストから画像生成するAIへ応用 DALL・E2 ・テキストからCLIPの画像特徴量を生成（text encoder + prior）・CLIPの画像特徴量からdecoderを通して画像を生成（unCLIP）・priorとdecoderには拡散モデルを使用・多様性のある画像生成が可能に出典：https://cdn.openai.com/papers/dall-e-2.pdf 8

https://cdn.openai.com/papers/dall-e-2.pdf

大規模モデルの課題・問題点・scaling law - Transformerの性能はパラメータ数N・データセットサイズD・計算予算Cのべき乗則に従い、3要素同時にスケーリングすると性能が際限なく向上する（仮説） - 今のところ実験的に成立している - 資金・資源のある企業しか開発できなくなる - 各要素を大きくするだけでは資源が枯渇していく（効率化も必要）・学習データの問題（権利・倫理的な） - 独自プラットフォームのデータなど容易に公開できない（google、Metaなど） - 学習データに含まれるバイアスの除去 - 非営利組織が構築したLAIONデータセットが登場（CC-BY 4.0） 9

10.

まとめ・Transformerから画像生成AI（DALL・E2）に至るまでの流れを紹介・CLIP特徴量を利用した画像生成AI(txt2img）が発達・最近では拡散モデルを組み合わせたものが多い・大規模化し、高性能化するモデルだが、課題や問題点も存在する 10