画像/動画生成のデータセット

7.2K Views

March 03, 24

#text-to-image #生成ai #コンピュータビジョン #拡散モデル #画像生成AI #動画生成AI #データセット #機械学習 #AI開発

スライド概要

第12回全日本コンピュータビジョン勉強会での発表資料です。現時点での画像/動画生成のデータセットについてまとめました。

あるふ

@alfredplpl

スライド一覧

サラリーマン研究員。

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

フルスクラッチで作る画像生成AI

コンピュータビジョン text-to-image imagen

あるふ 75.3K

第11回全日本コンピュータビジョン勉強会前編 Imagenの紹介

コンピュータビジョン text-to-image imagen

あるふ 20.6K

0から作る動画生成AI

あるふ 15.5K

広告における「信号とシステム」（阪大の招待講演）

コンピュータビジョン信号処理

あるふ 14.8K

エンタメから見る生成AI

コンピュータビジョン生成ai エンタメ chatgpt

あるふ 9.5K

CVPR 2024とImage Captioningと私

コンピュータビジョン text-to-image 生成ai 拡散モデル aiアート

あるふ 9.3K

各ページのテキスト

画像/動画生成のデータセット尾崎安範（あるふ）

自己紹介 ● 尾崎安範（あるふ） ○ ○ ○ AI PicassoにもいるAIエンジニア AIいらすとやなどの画像生成 AIなどを開発した ■ AIいらすとやは情報処理学会の学会誌にのったもともとはロボット屋さんだった (IROSとか通してた) ● 経歴 ○ ○ ○ ○ ○ 2014年修士（情報理工学）取得 2014年 NTT研 2019年 CyberAgent AI Lab / 大阪大学 2023年満期退学（😭） 2024年 AI Picasso ←いまここ https://note.com/ipsj/n/nff43097b0c76

https://note.com/ipsj/n/nff43097b0c76

AI Picassoについて ● 画像生成AIや動画生成AIを使って、アプリやWebサービス、受託開発などを行っている会社 ○ みんなAI Picassoっていうアプリ使ってね

AI Picassoにいて思うこと 1. 2. 3. 4. 画像生成や動画生成ができないと社会課題が解決できないデータセットがないと生成AIは作ることができないデータセットがほしい！ということで、論文とそのデータの収集方法をつらつら紹介していって、まとめセクションで全体の傾向をまとめる

LAION-5B ● ● ● Stable Diffusionのもとになった50億枚の画像テキストペアデータセット下図のとおりの前処理をしている最終的に得られたデータセットは画像リンク先とテキストであり、画像は含まれていない Schuhmann et al., “LAION-5B: An open large-scale dataset for training next generation image-text models”, NeurIPS 2022

CommonCanvas ● ● Creative Commons の画像だけを7000万枚集めた画像テキストデータセットとそれから作ったモデル CCの画像で画像生成する分には倫理的な問題が生じにくい ○ 「CCライセンスの画像は画像生成につかっていい」と CCの人は回答している Gokaslan et al., “CommonCanvas: An Open Diffusion Model Trained with Creative-Commons Images”, 2023, preprint

DALL-E 3 ● ● OpenAIが発表した画像生成画像のテキストにはALT Textのようなメタデータを使わず、機械的にテキストをつけ直すようにしている ○ ○ CLIPベースのイメージキャプション器を用意まず、被写体にフォーカスするような短いキャプションで学習してから、背景などを含めた長いキャプションでイメージキャプション器を微調整している Betker et al., “Improving Image Generation with Better Captions,” 2023, preprint

Sora ● ● OpenAIが発表した自称・世界シミュレータ動画のテキストにはALT Textのようなメタデータを使わず、機械的にテキストをつけ直すようにしている ○ ● DALL-E 3と同じ感じらしいデータ量は不明だが、作者いわく制作に１年かかったらしい ○ Stable Diffusionを作った人は 1000万GPU hours かかったと見ている Brooks, Peebles, et al., “Video generation models as world simulators”, 2024, Website

Lumiere ● ● Googleが公開した動画生成テキスト付きの3000万本の動画を使用して学習されている Bar-Tal et al., “Lumiere: A Space-Time Diffusion Model for Video Generation”, 2024, preprint

10.

Genie ● ● ● Googleが公開した動画内のエージェントを操作できる動画生成インターネットゲーム動画を20万時間使用テキストはなし、行動のラベルは教師なしで学習 Bruce et al., “Genie: Generative Interactive Environments”, 2024, preprint

11.

Panda-70M ● ● ● ● 7000万本以上/合計167時間以上の動画テキストペアが含まれているデータセットライセンスを読む限り、生成でも商用利用可能そう長い動画を短く切って、Video-LLaVAなどのマルチモーダルモデルを使いつつ、動画テキスト検索をかけてテキストを付けた最終的に得られたデータセットは動画リンク先とテキストであり、動画は含まれていない ○ 見た感じYouTubeの動画だが https://snap-research.github.io/ Panda-70M/

https://snap-research.github.io/

12.

感想 ● ● ● なんかデータセットに関して詳しく書くと炎上要素になるのか、全体的にデータの詳しい内訳は公開されていないただし、前処理の工夫などは公開されており、参考になるところは多い動画について言うならばYouTubeを持つGoogleがデータ量で圧勝している ○ ○ ○ Panda-70Mが約200時間に対し、GoogleのGenieは200000時間 YouTubeすべては数百億時間を超えている可能性がある日本で対抗できるのはニコニコ動画だろうか

13.

おまけ: LLaVAによるテキスト付け ● マルチモーダルモデルを使ってテキスト付けする ○ ○ LLaVAはおおよそDALL-E 3のイメージキャプション器に似ている構造をしているバッチ処理用スクリプトを自分の Githubリポジトリに公開中 https://github.com/alfredplpl/LLaVA/blob/main/llava/serve/cli_batch.py

https://github.com/alfredplpl/LLaVA/blob/main/llava/serve/cli_batch.py