【DL輪読会】GPT-4V(ision) for Robotics: Multimodal Task Planningfrom Human Demonstration

4.3K Views

December 08, 23

スライド概要

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

DEEP LEARNING JP GPT-4V(ision) for Robotics: Multimodal Task Planning [DL Papers] from Human Demonstration Ritsuki Matsunagga, NIT,NC Jeong Lab http://deeplearning.jp/ 1

2.

書誌情報 所属:Microsoft, University of Tokyo 論文概要:GPT4Vを利用したマルチモーダルタスクプランナー のパイプライン開発 選定理由:世界モデルの講義を受講しており、最終課題の参考 になると考えたため 特に明示のない場合は紹介論文か以下のページから引用 https://microsoft.github.io/GPT4Vision-Robot-Manipulation-Prompts/ 2

3.

概要 目的:既存LLM・VLMを利用した汎用的に優れたマルチモーダルタスク プランナーのパイプライン開発 3

4.

概要 提案手法の優位性 ・ロボットの種類を問わず汎用的に利用できる ・既存のLLM・VLMを利用するので追加学習が必要ない ・ゼロショットでタスクを実行可能 ・ソースコードやプロンプトがすべて公開されている https://github.com/microsoft/ChatGPT-Robot-Manipulation-Prompts 4

5.

関連研究 従来のLLM・VLMでのタスクプランニング ・LLM・VLMの登場以来、LLM・VLMを利用したタスクプランニング は様々な方策が提案されている 例) RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control →別タスクへの応用、ハードウェアの変更だけでも大量のデータ収集や 追加学習が必要不可欠。 5

6.

関連研究 アフォーダンス ・環境内の物体や状況が個人にどのような行動が可能かを示す →ロボティクス分野では「その環境内で実行可能な行動」という意味や、 「行動可能な領域に関する情報」として利用されている。 LLMとVLMを利用して環境のアフォーダンス情報を抽出する 6

7.

提案手法 • 提案パイプライン 7

8.

提案手法 • 提案パイプライン 8

9.

提案手法 ・Symbolic task planner ①ビデオ分析 →GPT4Vに動画を入力し、人間 への命令口調でタスクを文字起 こしする。HFによって内容の修正 、変更を行う。 9

10.

提案手法 ・Symbolic task planner ②シーンアナライザー →①で得た指示と、実環境の画像 から予想される作業環境を文字起 こしし、オブジェクトのリスト、 特性、関係性を出力する(CoT利用) 10

11.

提案手法 ・Symbolic task planner ③タスクプランナー →①、②で得た指示と、実環境の 情報を元にタスクシーケンスを出 力する。(CoT利用) また、動作後にHFの入力もで きる 11

12.

提案手法 ・Symbolic task planner 12

13.

提案手法 • 提案パイプライン 13

14.

提案手法 ・Affordance task planner →Symbolic task plannerの ③で得られた情報と、人間 のデモ動画を使ってロボッ ト動作に必要なアフォーダ ンス情報。特に、graspと release動作についてを取得 する 14

15.

提案手法 ・Affordance task planner →手の動作に着目するためにYOLOベースの手検出モデルを利用 https://www.ultralytics.com/ 15

16.

提案手法 ・Affordance task planner →オブジェクト検出、命名のためopen-vocabulary object detectornで あるDeticを利用(ECCV2022) https://arxiv.org/abs/2201.02605 16

17.

提案手法 ・Affordance task planner 17

18.

実験結果 • 実際の動作(gif) 18

19.

実験結果 • 実際の動作(gif) 19

20.

実験結果 20

21.

まとめ • 人間のインストラクト動画からゼロショットでタスクに成功 • ハードウェアに縛られないタスクプランナー • Grasp-releaseタスクのみ(長期タスクは課題) • より複雑なタスクに対しては事前、事後条件を工夫する必要がある • 肝心のロボット用のプログラム作成に関しては記述なし… 21