【DL輪読会】Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models

315 Views

March 10, 23

#@deep learning jp #Visual ChatGPT #Deep Learning #AI #Microsoft Research Asia #ChatGPT

スライド概要

2023/3/10
Deep Learning JP
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 90.8K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 67.5K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 61.2K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 50K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 47.3K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 47.2K

各ページのテキスト

Visual ChatGPT: Talking, Drawing and Editing DEEP LEARNING JP with Visual Foundation Models [DL Papers] 3/10 今井翔太（松尾研究室） @ImAI_Eruel http://deeplearning.jp/ 1

http://deeplearning.jp/

書誌情報 2 ◼ タイトル：Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models ◼ 出典：https://arxiv.org/abs/2303.04671 ◼ 著者：Microsoft Research Asiaの研究者ら ◼ 日本時間で昨日（正確には3/8）発表された論文 Shota Imai | The University of Tokyo

https://arxiv.org/abs/2303.04671

今回の発表について 3 ◼ ChatGPTのような大規模モデルを一から学習した研究ではない ◼ 研究ではなく，既存のChatGPTや基盤モデルを組み合わせて有益なシステムをつくる，エンジニアリングのお話に近い ◼ そもそもChatGPTを使っていない（使っているのはtext-davinci-003）ほか，論文の内容もかなりざっくりで，ChatGPTの流行に乗っかった商品紹介みがある ◼ 既存の学習済みVisual Foundation ModelとChatGPTを組み合わせたシステムであり，我々にも真似できる手法という点では重要なアイディア ◼ （自分で読むのを選んでおいてアレですが）マイクロソフトが「ChatGPT」の名前を借りて出した割には，ちょっと荒っぽさがある内容 Visual 〇〇というネーミングがマイクロソフト感あり（Visual Stadio,Vscode...） Shota Imai | The University of Tokyo

Visual ChatGPTの概要 ◼ テキストと画像を入力とし，入力画像に対する操作や質問を対話をしながら実行できるシステム - この画像のソファを机に置き換えてください，色を変えてください，背景を変えてください，入力した画像を参考に〇〇な画像を出力してください等 ◼ 言語入力を受け取って操作や応答を出力する言語モデル，画像に対する操作を実行する Visual Foundation Model，画像などの言語でないものを言語モデルへの指示に変換する Prompt Managerからなる Shota Imai | The University of Tokyo 4

Visual ChatGPTのデモ Shota Imai | The University of Tokyo 5

予備知識：ChatGPT ◼ もはや説明不要，去年後半に発表された超性能の対話AI．世界で一番注目されている技術 ◼ 今までの言語モデルと比較して明らかに性能が向上しており，日本語にも対応．ほとんどの質問に対する自然な回答，コピペで動く高度なプログラミングコードの生成，翻訳，文章構成，文章要約，文章校正が可能 ◼ ChatGPTの技術的詳細は以下の資料で解説しているので，興味があれば ChatGPT 人間のフィードバックから強化学習した対話AI https://www.slideshare.net/ShotaImai3/chatgpt-254863623 Shota Imai | The University of Tokyo 6

https://www.slideshare.net/ShotaImai3/chatgpt-254863623

Visual ChatGPT / システム詳細 ◼ 𝑄𝑖 ：ユーザーからの一回の入力．User Query ◼ 𝐴𝑖 ： Q_iに対するGPTの応答 ◼ (Q_1, A_1), (Q_2, A_2)．．．の対話で，ユーザーは所望の画像，あるいは回答を得るようプロンプトを入力し，各対話でGPTがQに対する適切な操作をおこなった画像や言語の回答Aを返す ◼ ユーザーからの言語入力，画像入力，会話の履歴はPrompt Managerに送られて全て言語指示に変換され，ChatGPTへ入力，VFMによる操作，j回の推論から最終的な回答を生成 𝐴 𝑗 ：j回目の中間回答 𝑀：Prompt Manager F: Visual Foundation Model P: System Principles R: 推論の履歴 H：対話の履歴 Shota Imai | The University of Tokyo 7

大雑把な処理の流れ 1. ユーザーが入力Qを画像と一緒に入力 2. Visual ChatGPTのPrompt ManagerがQの言語部分と，事前に準備されているSystem PrincipleやVFMのドキュメントを見て，ChatGPTに入力するプロンプトを作成 3. プロンプトをChatGPTに入力し，言語出力と，VFMを使用するかどうかの決定，VFM に入力する場合にはVFMへのプロンプトや，入力形式を決定 4. VFMを使う必要がなければ，ChatGPTの回答をユーザーに返す．使う必要があれば VFMを呼び出し，ユーザーから入力された画像と，ChatGPTの出力プロンプトを処理 5. VFMの処理結果を見て，さらに処理を行うか決定．処理する場合には現在の出力を参考に，3から繰り返す Shota Imai | The University of Tokyo 8

Visual Foundation Model（VFN） ◼ pix2pixや，text2imageなど，現在よく使われている学習済みの画像関連の基盤モデルの集合𝐹 = {𝑓1 , 𝑓2 , … , 𝑓𝑁 } ◼ Prompt Managerの出力から，現在のユーザーのQに対する回答を生成するのに最も適したVFMを選択し，画像への操作を実行 Shota Imai | The University of Tokyo 9

10.

Prompt Manager 10 ◼ Visual ChatGPTの核 ◼ ChatGPTは画像を入力とできないため，画像などをひとまとめにして言語に変換する機構 ◼ 論文中に詳しく書かれていないが，単一のニューラルネットワークのモデルではなく，いくつかのシステムによる処理をまとめてPrompt Managerと称している Shota Imai | The University of Tokyo

11.

Prompt Manager / System Principleの処理 ◼ ChatGPTに対し，現在必要な操作の基本的方針を出力 ◼ どのVFMを使うか，ファイル名の扱い，推論に使用するフォーマットなどの指示 Shota Imai | The University of Tokyo 11

12.

Prompt Manager / VFMの処理 ◼ ChatGPTに対し，VFMをどのように扱うか，なにをVFMの入出力とするか，などの方針を与える Shota Imai | The University of Tokyo 12

13.

Prompt Manager / 中間出力の処理 ◼ Visual ChatGPTがVFMで出力した結果から，さらなる操作を行うかどうかを決定 ◼ ユーザーの処理が曖昧な場合は，この時点でユーザーに対してさらなる操作の指示を聞く Shota Imai | The University of Tokyo 13

14.

実験 14 ◼ Visual ChatGPTの仕様 - 言語モデル：text-davinci-003（GPT-3.5） LangChain Visual Foundation Model: HuggingFace Transformers，Maskformer, ControlNetなど22個計算リソース：V100 GPU 4個会話履歴の最大トークン数：2000 ◼ System PrincipleのPrompt Managing, VFMのPrompt Managingなどのケーススタディ - 色々載っているが，要するにVisual ChatGPTの処理の失敗例と成功例を並べたもの Shota Imai | The University of Tokyo

15.

実験結果 15 Shota Imai | The University of Tokyo

16.

Visual ChatGPTの限界 ◼ 言語モデルの性能に左右される ◼ プロンプトエンジニアリングへの依存 ◼ リアルタイム処理が難しい ◼ トークン制限 Shota Imai | The University of Tokyo 16

17.

所感 17 ◼ 論文自体はざっくりで，研究・・・？という内容だが，実現しているシステム自体は有用で面白い ◼ そもそも大規模言語モデル自体の本格的な研究が困難なフェーズで，我々ユーザーがどのように面白いシステムを作っていくかを考える上では参考にすべき Shota Imai | The University of Tokyo