1.7K Views
August 16, 23
スライド概要
2023/8/16
Deep Learning JP
http://deeplearning.jp/seminar-2/
DL輪読会資料
DEEP LEARNING JP [DL Papers] マルチモーダル LLM Takaomi Hasegawa http://deeplearning.jp/ ©︎MATSUO INSTITUTE, INC.
自己紹介 DENSO オウンドメディア DRIVEN BASEより引用 https://www.denso.com/jp/ja/driven-base/tech-design/robot/ 車載部品メーカでトマトを収穫するロボットのAI画像認識の技術開発 松尾研でAIの社会実装 ©︎MATSUO INSTITUTE, INC. 2
書誌情報 VideoChat ・タイトル VideoChat ・概要 ・著者 OpenGVLab(Generalized vision-based AI) Shanghai AI Lab, 南京大学、香港大学、 深圳等 - End-to-Endのチャットベースのビデオ理解システム データセットも合わせて提案 コードも公開 出典)https://arxiv.org/abs/2305.06355 ©︎MATSUO INSTITUTE, INC. 3
選定理由 ・ChatGPTでLanguage-to-Languageが注目されているが、個 人的にマルチモーダル(特に画像)に興味があった ・GitHubのStarが2000以上と注目度が高い https://github.com/OpenGVLab/Ask-Anything ©︎MATSUO INSTITUTE, INC. 4
関連発表 マルチモーダル 基盤モデル(原田さん) https://deeplearning.jp/%e3%83%9e%e3%83%ab%e3%83%81%e3%83%a2%e3%83%bc%e3%83%80%e3%8 3%ab-%e5%9f%ba%e7%9b %a4%e3%83%a2%e3%83%87%e3%83%ab/ Visual ChatGPT(今井さん) https://deeplearning.jp/visual-chatgpt-talking-drawing-and-editing-with-visual-foundation-mod els/ 結構被ってました… 動画 + LLMは初めてということでご容赦を ©︎MATSUO INSTITUTE, INC. 5
システム構成 動画の解釈をし対話形式での回答が可能。既存のVoice-to-Text(Whisper), Image-to-Text(GRiT)といったAIとLLMを組み合わせたVideoChat-Textを改良 し、VideoEmbeddingを出力するVideoChat-Embedを開発。論文に書かれているのは主にVideoChat-Embedについて ffmpegで動画を画像に切り出し GRiT(画像タグ付け)、Whisper(音声認識)、T5(文章要 約)といった既存のAIモデルを組み合わせて動画をテキスト 化 動画を基盤モデルを使ってベクトル情報にしている ©︎MATSUO INSTITUTE, INC. 6
ユーザーインターフェース 動画に対して質問すると回答が得られる。動画は1min以内(実際のサンプル動画はほとんど5秒〜10秒) ©︎MATSUO INSTITUTE, INC. 7
VideoChatEmbed VideoChat-Textだと時空間的な情報が抜け落ちてしまうので、アウトプットを言葉でなく特徴量を出力する基盤モデルを使用。 AlignmentとInstruction Tuningの2Stageに分けて学習をする。学習に関しては論文では詳しく触れていないが、それぞれのステージに対するデータセット の作り方に関して記述あり。 ©︎MATSUO INSTITUTE, INC.
データセット 既存のデータセットから、VideoChat-Text。つまり、既存のImage-to-Text, Audio-to-TextといったAIモデルとChatGPTを使ってデータセットを生成する。 WebVid-10Mという既存のデータセットから、VideoChat-Textを使って、以下2つの種類のデータセットを作成 ・Detailed Video Descriptions ・Video Conversations ©︎MATSUO INSTITUTE, INC.
Detailed Video Descriptions VideoChat-Textの出力に対して、ChatGPTの2段階のプロンプトを通す。1段目(Table3)は多彩なラベルを分かりやすいストーリーにする。 2段目(Table4)は、文章をリファインすることでハルシネーションを抑制する。 2段階のプロンプト 出力例 ©︎MATSUO INSTITUTE, INC.
Video Conversations 3種類(descriptive, temporal, casual)のプロンプトを使うことで、動画に対する会話例を得る ©︎MATSUO INSTITUTE, INC.
まとめとFuture work まとめとFuture workと所感 まとめ 以下の2つの手法を提案。VideoChat-Embedの方が時空間の推論と因果関係をよく表している ・VideoChat-Text:テキストベースバージョン ・VideoChat-Embed: end-to-endバージョン Future work 以下3点 ・モデルのスケール(大規模化) ・ベンチマーク ・長時間のビデオ対応 所感 ・データセットChatGPTでつくっている点、プロンプトの工夫(2段階、3種類)は面白い(商用利用は不可?) ・長時間の動画は難しそう。すぐ実用化するとしたら、動画内を自然言語で検索(Appendix 1)して時間特定、他のトリガを使うとい った工夫が必要そう ・言語というインターフェースの限界(情報量の低下)を感じた(Appendix 2) ©︎MATSUO INSTITUTE, INC.
Appendix 1:動画検索システム(Turing) 似たような構成で、動画の検索を実現 ©︎MATSUO INSTITUTE, INC.
Appendix 2: 考察(妄想) 今後の基盤モデルの入出力 言語は抽象化された優れたインターフェースだが、言語に含められない情報によりLLMの限界がきている?? 将来のAIの最適な入出力は?人と同じ(ロボット)なのかそれ以外の形なのか? 映像 言語 音 言語 LLM 言語 人 手触り 身体制御 匂い 味 ? 未来のAI ©︎MATSUO INSTITUTE, INC. ?