フルスクラッチで作る画像生成AI

76.9K Views

May 11, 23

#コンピュータビジョン #text-to-image #imagen #画像生成AI #Stable Diffusion #Imagen #フルスクラッチ開発 #AI開発

スライド概要

第1回Generative AI勉強会関西で発表した内容になります。個人が0から画像生成AIを作るとどうなるかを知ることができます。よいこのみなさんは真似しないようにしてください。

あるふ

@alfredplpl

スライド一覧

サラリーマン研究員。

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

第11回全日本コンピュータビジョン勉強会前編 Imagenの紹介

コンピュータビジョン text-to-image imagen

あるふ 21K

0から作る動画生成AI

生成ai コンピュータビジョン

あるふ 17K

広告における「信号とシステム」（阪大の招待講演）

コンピュータビジョン信号処理

あるふ 15.2K

エンタメから見る生成AI

コンピュータビジョン生成ai エンタメ chatgpt

あるふ 10K

CVPR 2024とImage Captioningと私

コンピュータビジョン text-to-image 生成ai 拡散モデル aiアート

あるふ 9.9K

画像/動画生成のデータセット

text-to-image 生成ai コンピュータビジョン拡散モデル

あるふ 7.9K

各ページのテキスト

フルスクラッチで作る画像生成AI あるふ

自己紹介 ● あるふ (Twitter: @alfredplpl) ○ ○ もともとロボットやコンピュータビジョンの研究者 ■ Stable Diffusion が出る数ヶ月前に、画像生成 AIがヤバくなり始めていることに発見し、対策のために、いろいろ活動し始めた主な活動 ■ 画像生成AIの研究開発 ■ 画像生成AIのアウトリーチ活動 https://prtimes.jp/main/html/rd/p/000000002.000113219.html https://youtu.be/GwNm-3SXFD0

今日のトピック ● ● ● ● ● ● 私にとってのGenerative AIとは画像生成AIとは Stable Diffusion を作ってみる Imagen を作ってみる画像生成AIがもたらした結果まとめ

私にとってのGenerative AIとは ● 私にとってのGenerative AIとは何かしらを入力して、文章、画像、音楽などのデータを生成してくれるAIである。最近は大規模言語モデルの力が凄まじいので文字入力が多い。 ○ ○ ○ ○ ○ ○ 文章生成AI: ChatGPT 画像生成AI: Stable Diffusion 動画生成AI: Gen-2 3D生成AI: Shap-E 音楽生成AI: AudioLDM など

画像生成AIとは ● ● ● 画像生成AIとは、文章などを入力し、画像を出力するAIである。このスライドでは、入力を文章とした Text-to-Image を画像生成AIと仮に呼ぶことにする。有名な画像生成AIとして、Stable Diffusion とImagen がある。今日はこの2つに共通する仕組みと作り方を説明する

画像生成AIの仕組み(初心者編) ● 画像生成AIは主に大規模言語モデルと拡散モデルの2つで構成されている。 ○ ○ 学習時 ■ 大規模言語モデルは主に学習済みのものを使う。 ■ 画像生成AIを作るときは、入力文章に対する大規模言語モデルの出力 (Embedding)と画像を元に拡散モデルを学習する。 ■ 拡散モデルは Embedding に応じたノイズの取り除き方をひたすら学習する生成時 ■ ただのノイズを生成し、入力文章に応じて拡散モデルがノイズを取り除く生成時文章大規模言語モデル Embedding ノイズ拡散モデル画像

Stable Diffusion を0から作ってみる ● Stable Diffusion はStability AIなどの会社や大学が作った画像生成AI Stable Diffusion は次のリポジトリを使うと作れる。 (なお、筆者は自分でハックした 1.x 系: https://github.com/harubaru/waifu-diffusion 2.x 系: https://github.com/waifu-diffusion/network-trainer ○ ○ ○ ● 方法 ○ ○ ハードウェア: RTX 4090 データ: パブリックドメインの画像 7万枚 https://github.com/CompVis/latent-diffusion

https://github.com/CompVis/latent-diffusion

Stable Diffusion を0から作ってみた結果 ● なんかアニメっぽい海が生成できた ○ ○ ○ https://huggingface.co/alfredplpl/clean-diffusion-2-0-poc 試行錯誤したので、おおよそここまで 4ヶ月程度たぶん個人では世界初

https://huggingface.co/alfredplpl/clean-diffusion-2-0-poc

Stable Diffusion を完全に作るとこれぐらいかかる ● 最初にかかったのは6000万円程度、現在では700万円程度でできるらしい ○ ● ● https://www.mosaicml.com/blog/training-stable-diffusion-from-scratch-part-2 A100 256基 23億枚 https://github.com/Stability-AI/stablediffusion

10.

Imagen を0から作ってみる ● Imagen とはGoogle が作った画像生成AI Google はいまだに公開できていない ○ ● Imagen は次のリポジトリを使うと作れる(再現実装 ○ ● https://github.com/lucidrains/imagen-pytorch 方法 ○ ○ ハードウェア: A100とかデータ: パブリックドメインや加工自由な画像 7万枚 https://imagen.research.google/

11.

Imagen を0から作ってみた結果 ● ● ● なんか浮世絵っぽいのができただいたい1ヶ月程度 512×512以上のまともな画像を出したのは個人ではたぶん世界初

12.

Imagen をまともに作るにはこれくらいかかる ● 実はStability AIの研究機関であるDeepFloydがIFという名前で再現 ○ ● https://huggingface.co/spaces/DeepFloyd/IF 方法 ○ ○ ハードウェア: A100 512基データ: 10億枚 https://github.com/deep-floyd/IF

13.

画像生成AIがもたらした結果 ● AIが画像を創造できるとはどういうことかさっぱりわからなくなった ○ ● 法律的にどう取り扱えばいいのか ■ 特に著作権法的にどうしたらいいのか？そんな問題をどうしたらいいのかを現在解決に取り組んでいます

14.

まとめ ● ● 画像生成AIを0から作る方法を紹介した。結論として、個人で作るものではないので、みなさんは真似しないようにしましょう。

15.

おまけ: ファインチューニングしてみた ● Stable Diffusion をファインチューニングしてみた ○ ● https://huggingface.co/spaces/aipicasso/cool-japan-diffusion-latest-demo IFをファインチューニングしてみた ○ Soon (TM)

https://huggingface.co/spaces/aipicasso/cool-japan-diffusion-latest-demo