【DL輪読会】PoliFormer: Scaling On-Policy RL with Transformers Results in Masterful Navigators

1.5K Views

November 14, 24

スライド概要

YouTube動画はこちら→https://youtu.be/XmDETEhahOc

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

DEEP LEARNING JP [DL Papers] PoliFormer: Scaling On-Policy RL with Transformers Results in Masterful Navigators (CoRL 2024) 2024.11.14 Ryosuke Takanami, D1, Matsuo-Iwasawa Lab http://deeplearning.jp/ 1

2.

書誌情報 • PoliFormer: Scaling On-Policy RL with Transformers Results in Masterful Navigators • • • • Project Page: https://poliformer.allen.ai/ arXiv: https://arxiv.org/abs/2406.20083 Github: https://github.com/allenai/poliformer 著者:Kuo-Hao Zeng, Zichen "Charles" Zhang, Kiana Ehsani, Rose Hendrix, Jordi Salvador, Alvaro Herrasti, Ross Girshick, Aniruddha Kembhavi, Luca Weihs (PRIOR @ Allen Institute for AI) • 概要: – CoRL2024 採択論文 (Outstanding Paper Award) – RGB画像だけを使ったナビゲーションモデルの構築 – シミュレーション内で大規模にRLすることで解決を目指している – 特に断りのない限り,図表等の出典は本論文、本プロジェクトページからの引用 2

3.

概要 • RLによるナビゲーションモデルの構築は特定の座標をゴールとして移動するPointNavタスク においては成功していたが、特定の物体を探し、その物体まで移動するObjectNavタスクに おいては、学習の不安定性からスケールが難しく困難であった • PoliFormerでは、visual foundation modelを用いたエンコーダと、長期的なメモリを可能 にするcasual transformerデコーダを備えた新しいアーキテクチャを提案し、ObjectNavタ スクにおいてSoTAを達成した 3

4.

RLによるナビゲーション • 代表的なナビゲーションタスク – PointNav:エージェントがGPSの座標情報を用いて指定されたポイントに移動するタスク – ObjectNav:特定の物体の種類(例:本)を識別し、視覚情報をもとにその物体を探してナビゲートするタスク • 従来のRLでは、PointNavのような比較的単純なナビゲーションには高い精度で成功してたが、 ObjectNavのような複雑なタスクでは、環境探索や記憶力の要求が高く、従来の浅いLSTMベース のネットワークでは限界があり、層の深いTransformerの学習は不安定で困難であった PointNavタスク [Wijmans 24] ObjectNavタスク 4

5.

模倣学習によるナビゲーション • 近年、模倣学習 (IL) によるTransformerを使用したナビゲーションモデルも台頭 • 層の深いTransformerモデルを大規模データで学習することでObjectNavタスクが解ける ようになった • しかし、ILは探索空間が限られており、エラーカバレッジ(ミスを修正する能力)が不十 分であるため、成功率も57%程度で停滞 模倣学習ベースのナビゲーションモデル: SPOC [Ehsani 24] 5

6.

RLとTransformerの統合の必要性 • 長期的な依存関係の理解を必要とするObjectNavタスクにおいては層の深い強力な Transformerを活用したいがRLでは不安定になりがち • ILでTransformerを安定的に学習できるが、推論するときにdistrubution shiftの影響を 受けやすい ObjectNavタスクにおいてRLでTransformerをうまく学習できるようにしたい 6

7.

提案手法:PoliFormer • PoliFormer – Visual foundation modelとしてDINOv2を使用し、RGB画像の特徴抽出を強化 – Casual transformerデコーダとKVキャッシュの利用により、過去の情報を効率的に保持し、 長期的な計画を可能に – 大規模な並列ロールアウトと自動生成環境(PROCTHOR)で多様なインタラクションを学習 し、実世界へのゼロショット転送が可能な汎用ナビゲーターの実現 7

8.

PoliFormerのアーキテクチャ • Fully transformer based navigation policy – 現在のRGB画像とゴール指示文がエンコーダーの入力として与えられ、状態表現を生成 – 現在と過去の状態表現をcasual transformerに入力することで時系列を考慮したstate beliefを生成 – 最後にstate beliefを各々線形変換して、actionとvalueを出力 8

9.

PoliFormerのアーキテクチャ • エンコーダー側 – Visual transformer model • DINOv2を使用、Sim2Realギャップに強いモデル • 学習時は重みを固定 – Goal encoder • 物体カテゴリーを指定する場合はone hot embedding • 自然言語で指定する場合はFLAN-T5を使って embedding • Bounding boxで指定する場合はboxの座標と面積 をembedding – Transformer state encoder • Non casual transformerを使用して、goal conditionedな状態表現を生成 9

10.

PoliFormerのアーキテクチャ • デコーダー側 – 現在と過去の状態表現列を入力とすることで長期的 な依存関係を抽出 – 通常のcasual transformerは、各タイムステップで 過去すべての情報を再度計算するため、タイムス テップ数が増えると計算コストが二乗的に増加 – そこでPoliFormerではKVキャッシュという過去の タイムステップで得られたKeyとValueの計算結果 のキャッシュを用いて、次のタイムステップの計算 を新しい状態に対する追加の計算だけに抑えた – これにより、計算時間が線形に抑えられ、トレーニ ングや推論の速度が大幅に向上 10

11.

シミュレーションでの大規模な強化学習 • 並列環境における分散学習の使用 – 32台のA6000 GPUを使用してDD-PPOアルゴリズム によって分散学習を実行 (4.5日、シングルノードだ と15.3日かかる計算) – 具体的な設定:LoCoBotで384並列、Stretch RE-1 で192並列、合計700M step学習 • 多様なシミュレーションシーンの生成 – PROCTHORによる自動生成環境を使用して150,000 シーン以上の環境を用意 – Objaverseも使用してシーン中の物体も多様化 11

12.

実験 • POLIFORMERの有効性と汎化性能を、従来のナビゲーションモデル と比較 – シミュレーション環境でのナビゲーション性能:複数のベンチマークでの成功 率、精度、効率性を測定 • 実世界環境でのゼロショットナビゲーション:シミュレーションのみで学習し たモデルが、現実環境でどれだけ高い成功率を維持できるかを検証 • モデルの拡張性と適応性:マルチターゲットナビゲーションや人間追従タスク での性能 12

13.

実験:シミュレーション環境での評価 • 実験概要 – ベンチマーク • CHORES-S(ObjectNavタスク): エージェントが指定された物体を見つ けるナビゲーションタスク • ProcTHOR-10k:約10,000の自動生 成環境でのランダム配置されたオブ ジェクト間を探索するタスク • AI2-iTHOR:多様な部屋やシーン設定 で、エージェントが目標物体までナビ ゲートするタスク – 結果 • CHORES-Sでは28.5%の精度改善 • ProcTHOR-10kおよびAI2-iTHORで も、POLIFORMERはSoTAを達成 • アブレーションでは、エンコーダをス ケールアップした場合、成功率が 3.2%向上するなどが確認 13

14.

実験:実世界環境での評価 • 実験概要 – 目的 • シミュレーションのみでトレーニング されたPoliFormerを、実際のロボット ム(LoCoBotとStretch RE-1)でテス トし、ゼロショットでのナビゲーショ ン性能を検証 – 実験結果 • LoCoBotでは13.3%の成功率向上、 Stretch RE-1では33.3%の成功率向上 • シミュレーション環境で学習した知識 が、現実環境で高い汎化能力を発揮し、 追加の適応トレーニングなしでシミュ レーションとほぼ同等の性能を実現 14

15.

実験:モデルの拡張性と適応性 • 実験概要 – 手法の拡張 • PoliFormer-BOXNAVという拡張版を 実装 • バウンディングボックス入力によるマ ルチターゲットナビゲーションや、人 間追従タスクなど多様なシナリオに対 応可能な手法 – 結果 • マルチターゲットナビゲーション:複 数のオブジェクトを同時に認識し、そ れぞれに対して効率的に移動すること が可能に • 人間追従:目標を人間に設定し、動的 に移動する対象を追従する実験でも高 い精度を発揮 15

16.

まとめ • まとめ – PoliFormerは、TransformerとRLを組み合わせたナビゲーションモデルで、シミュレーションと実世界 の両方で高い性能を発揮 – DINOv2(Visual foundation model)とKVキャッシュ付きのcasual transformerデコーダーを用い、視 覚情報とゴール情報を統合しつつ、長期的な記憶を効率的に保持 – その結果、従来のRLモデルを上回る成功率を達成し、シミュレーションから実世界へのゼロショット転 送も高精度で実現 • 感想 – 今回ロボットごとにモデルを学習していてロボットに対する汎化性があるのかが気になった – かなりのGPUを使用して、分散しているとはいえ、かなりの時間をかけているのでまだサンプル効率の 問題があるような気がする 16

17.

Reference • Zeng, K. et al. PoliFormer: Scaling On-Policy RL with Transformers Results in Masterful Navigators. CoRL. 2024. • Wijmans, E. et al. DD-PPO: LEARNING NEAR-PERFECT POINTGOAL NAVIGATORS FROM 2.5 BILLION FRAMES. ICLR. 2020. • Ehsani, K. et al. SPOC: Imitating Shortest Paths in Simulation Enables Effective Navigation and Manipulation in the Real World. CVPR. 2024. 17

18.

RLによるナビゲーション • PointNavにおけるSoTAアーキテクチャ – LSTMベースのモデル LSTMベースのナビゲーションモデル [Wijmans 24] 18