1.9K Views
December 07, 22
スライド概要
HEROZ勉強会、技術調査グループ強化学習チームの発表
2022年11月勉強会 Video PreTraining (VPT): Learning to Act by Watching Unlabeled Online Videos HEROZ株式会社 川島馨 2022年11月25日
目次 1. 概要 2. 問題の難易度 3. 手法の新しさ 4. インターネット上の動画 5. 操作のラベル付け 6. モデル構成 7. 強化学習によるファインチューニング 8. 報酬設計 9. 結果 10.応用可能性 11.まとめ 2
概要 • OpenAIが発表したマインクラフトの操作を映像から学習した研究 • 請負業者(フリーランス)に依頼して作成した7000時間分のキーボード・マウス操作のラベル付 き動画からIDM(逆ダイナミクスモデル)を学習 • IDMモデルを使用してインターネット上にあるラベルなしの動画に疑似ラベルを付与 • 疑似ラベルを付与した2万時間の動画から行動クローン(BC)モデル(VPTファンデーションモデ ル)を作成 • VPTファンデーションモデルを、強化学習でファインチューニングすることで、ダイアモンド のつるはしを作成できるようになった https://arxiv.org/abs/2206.11795 3
問題の難易度 • マインクラフトは、報酬が階層的 • ダイアモンドのつるはしを作成できるようになるには、 • • 木を切って、作業台を作って、石のつるはしを作って、・・・・ といった何段階もある目標を達成する必要がある • 通常の強化学習の手法で学習するのはほぼ不可能 • 数年前からマインクラフトの強化学習のコンペティションが行われているが、ダイ アモンドを獲得したエージェントはない • 去年のインターンの取り組みでは、石のつるはしまで 4
手法の新しさ • 少量のラベル付けした動画から、前後のフレーム間で何の操作が行われたかを予測 するモデル(IDM; 逆動力学モデル)を構築 • 過去フレームから次の操作を直接学習するのに比べて、未来のフレームを使うこと で、問題の難易度が大きく下がる • IDMモデルで、疑似ラベルを付与することで、ラベルなしの動画を活用できる • ラベルなしの動画はインターネット上に大量にあるため、データ収集が容易 • 疑似ラベルを付与した大量の動画から、行動を学習することで、人間が行うような 基本動作(木を切る、クラフトする、作業台を作るなど)ができるエージェントを作 ることができる 5
インターネット上の動画 • Youtubeから、キーワードで検索して収集 • • • • • minecraft minecraft minecraft minecraft ・・・ survival longplay gameplay no webcam gameplay survival mode survival tutorial • 動画からゲームのプレイ中の範囲を取得するために、RN50x64 ResNet CLIP Modelの学習済みモデルを使用して、画像の埋め込みを取得し、SVMの分類器を学 習 • 分類のラベルは、Amazon Mechanical Turk (mTurk)で発注して付与 • 発注の方法とか単価や1画像の作業時間とかも書かれていて、実務的な内容で参考に なる 6
操作のラベル付け • UpWorkフリーランスプラットフォームで募集 • 請負業者には、1 時間あたり 20 ドル支払 • バグのために使用できなかったデータも含めると実験すべてで、16万ドルの費用が 掛かっている • 強化学習の元になったモデル構築には、2000ドル相当データのみ使用 • ゲーム内のイベントとビデオのみを記録 • 通常どおりMinecraft のサバイバル モードをプレイ + 特定のタスク 7
モデル構成 - IDMモデル • IDMモデルは、入力層で時系列の画像を扱うため3D畳み込み(3D-CNN)を使用 • 中間層はResNetを使用 • 出力はフレームごとのアクション • 入力画像の解像度は、128×128(内容が判別できる最小の解像度) • ResNetブロックの後ろには、トランスフォーマーブロックがあり、出力層は、フ レームごとに独立した全結合層 • アクションは、マウスの動きをビンに分けて次元を抑える • モデルのパラメータ数は5億(参考までにdlshogiの20ブロック256フィルタのモデル は、約1億) • IDMモデルの学習は、請負業者がラベル付けしたデータセットを20エポック学習 • 32個のA100 GPUで4日 8
モデル構成 -ファウンデーションモデル • IDMモデルとほぼ同じ • 未来のフレームを見ることができないため、最初の層が除かれている • トランスフォーマー層は、因果的にマスク • Transformer-XLスタイルの訓練 • 訓練のテクニックとして、人間は何もしない操作が35%を占めるため、連続して何 も操作していしないフレームを除く、ヌルアクションフィルタリングが有効だった null アクションなしのフィルタリング (青)、すべての null アクションのフィルタリング (緑)、3 つ以上の null アクションのグループのみのフィルタリング (赤) )、お よび 21 以上の null アクションのグループのみをフィル タリングします (紫) 9
強化学習によるファインチューニング • 強化学習によりファウンデーションモデルをファイチューニング • 開始して 10 分以内にダイヤモンドのツルハシを取得するタスクを学習 • 強化学習アルゴリズムには、PPGとPPOを使用 • PPG(Phasic Policy Gradient)は、方策は同じデータを複数回学習すると過剰適合す ることを防ぐために、方策をフェーズと価値を学習するフェーズに分けて学習する 方法 • 価値関数の最適化は、同じデータを複数回使用することに感度が低いという仮説に 基づいた方法 • 強化学習により、人間の操作を忘却することが起きるため、事前学習したモデルの 行動分布とのKLダイバージェンスを損失に加える • ただし、割合を徐々に減らして、新しい探索を促進 10
報酬設計 • ダイアモンドのつるはしを入手するまでの報酬は階層的に設計 • 低い報酬のアイテムが大量に収集されることを防ぐため報酬獲得の最大回数を定め る • 強化学習には、80GPUと56,719CPUを使用して、約6日間(144時間)実行 11
結果 • 初期ゲームの動画をファウンデーションモデルに追加学習したEarly-Game model を使用して強化学習 • 2.5%のエピソードで10分以内にダイアモンドのつるはしを入手 • 人間でダイアモンドのつるはしを入手できたのは、 15分以内で0.1%未満 12
応用可能性 • データのサブセットに追加のテキスト条件付け入力を使用して微調整 • 結果は、一部の条件ではエージェントを操作できた • 「木を切って木の斧を作れ」といった自然言語による指示による操作が可能になる ことを示唆している • ただし、現状ではまだ不十分でこの目標を達成するには至っていない 13
まとめ • マインクラフトという難易度の高いタスクが、比較的少ないラベル付けされた動画 と、ラベルなしの大量の動画により学習できることが示された • この技術が成熟すれば、テキストによるPC操作など実務への応用範囲も広そう 14