【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "

276 Views

July 21, 23

#@deep learning jp #Deep Learning #Reinforcement Learning #Artificial Intelligence #Language Model #Cooperative Games

スライド概要

2023/7/21
Deep Learning JP
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 87.4K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 59.9K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 58.5K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 41.4K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 37.9K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 37.5K

各ページのテキスト

DEEP LEARNING JP [DL Papers] DL輪読会：Language Instructed Reinforcement Learning for Human-AI Coordination Ryoichi Takase http://deeplearning.jp/ 1

http://deeplearning.jp/

書誌情報採録：ICML2023 概要： ➢ 言語でエージェントに指示できる学習フレームワークを提案 ➢ 協調型ボードゲームで提案手法を検証し、人と協調可能な振る舞いを行うことを示した ※注釈無しの図は本論文から抜粋 2

背景研究背景：人と協調可能なAIの開発が望まれているが、学習に必要な正解データが十分ではない場合がある上記の問題点を解決するため、強化学習を用いた協調可能なAIの研究が行われている研究課題：強化学習で得られたエージェントは高性能だが、人が理解できない振る舞いとなるケースが多い → 協調可能なエージェントの学習は難しい言語だったら人は理解できるのにな… 3

研究目的関連研究：プロンプト [1] ゼロ・少数ショット学習で新しいタスクに適応するために、プロンプトを用いたフレームワークが提案されているタスクの説明といくつかの例を入力の接頭辞として付加することで、大規模言語モデルのパラメータを更新せずに新しいタスクに適応させる関連研究：強化学習への応用 [2] 大規模言語モデルを報酬関数として使用する強化学習フレームワークを提案研究目的：プロンプトを用いて言語で指示を与えることで、エージェントに意図した振る舞いをさせたい [1] Brown, Tom, et al. “Language models are few-shot learners.” Advances in neural information processing systems 33 (2020): 1877-1901. [2] Kwon, M. and Sadigh, D. “Reward design with language models.” In International Conference on Learning Representations, 2023. 4

提案手法大規模言語モデル（Large Language Model: LLM）を用いてPrior Policyを構築人の指示と強化学習中の行動・観測を説明したプロンプトにより条件付け → Prior Policyを参照方策として学習が調整される inst：人の指示 lang(𝜏𝑡𝑖)：観測の説明文 lang(𝑎𝑡 )：行動の説明文 𝑝𝐿𝐿𝑀 = SOFTMAX(𝛽 ⋅ logit) logit = 𝑓(inst, lang 𝜏𝑡𝑖 , lang(𝑎𝑡 ) 𝛽：scaling factor 5

提案手法 InstructQ 方策をlog𝑝𝐿𝐿𝑀で拡張： InstructPPO KLペナルティを目的関数に追加：方策の損失関数は次式となる 6

実験1：Say-Select Game ゲーム概要： ➢ アリスとボブで協力して得点を獲得するゲーム ➢ アリスは+1のボールの番号をボブに伝え、ボブはその番号を選択すると1点獲得 ➢ アリスが既出の番号を伝えると、ボブは+1のボールがないと判断してゲーム終了 7

プロンプト設計 InstructQ（提案手法）を用いてボブを学習アリスが伝えた番号を選択し、既出の番号の場合はゲームを終了するように学習プロンプト： ← ボブへの指示 ← アリスの行動（lang(𝜏𝑡𝑖)はボールの番号） ← ボブの行動 ※アリスはVanilla Q-learningで学習 8

実験結果 InstructQ（提案手法）で学習された方策は人にとって理解しやすい → 言語による指示を強化学習に組み合わせるメリットを示唆 1ステップ前のアリスの行動はボブが選択したボールの番号はゲーム終了の行動を示す 2ステップ前のアリスの行動 1ステップ前にアリスが伝えた番号を選択し既出の場合はゲーム終了の行動を選択ベースライン提案手法図：ボブの方策の可視化（3つの方策はself-playでは同等の最適性） 9

10.

実験2：花火（Hanabi）ゲームゲーム概要： ➢ 2~5人で行う協力型のボードゲーム（論文では2人の場合を想定） ➢ 5色のカードがあり、各色で1~5の数字（ランク）が記載（ランク1が3枚、ランク2~4が2枚ずつ、ランク5が1枚） ➢ 他のプレイヤーの手札は把握できるが、自分の手札は分からない ➢ プレイヤー同士でヒントを出しながらカードを場に出し、全色でランクを1から5まで順番につなげていく ← パートナーの手札自分からは全ての手札を把握できるため、適切なヒントをパートナーに与える ← 自分の手札：自分の手札は確認できないため、パートナーからヒントを得る必要がある例では、真ん中のカードのランクは1であることが判明 2人でゲームをプレイした場合の例 10

11.

花火（Hanabi）ゲーム行動は3種類： 1. カードを1枚場に出す合法手の場合は場にカードが残り、非合法手（例、ランクの順番が飛ぶなど）の場合はペナルティが加算される。山札からカードを1枚補充する。 2. カードを1枚捨てるカードを捨てて山札から1枚補充する。ヒントの制限回数が1回復する。 3. 他のプレイヤーにヒントを教える色またはランクと位置を伝えることが可能（ヒントの制限回数は5）スコア：場に出ているランクの合計値（最大スコアは5色×5ランク=25）ゲームの終了条件：山札のカードが全て無くなるか、ペナルティが3回たまるとゲーム終了注）論文にはルールの詳細は記載されていないため、一般的なボードゲームでのルールを記載 11

12.

プロンプト設計プロンプト： ← エージェントへの指示 ← パートナーの行動 ← エージェントの行動ゲームの戦略に関して：本論文では2パターンの戦略を実験 1. Color-based policy: ➢ 色に関するヒントを伝えた場合、そのカードはプレイ可能なカードを意味する ➢ ランクに関するヒントを伝えた場合、そのカードは捨てずに手札に残すべきカードを意味する 2. Rank-based policy: ➢ 上記の色とランクの役割を逆にした戦略 12

13.

プロンプト例 ← エージェントへの指示 Color-based policyの説明 ← パートナーの行動位置Eのカードはプレイ可能であることを color-based policyに基づき伝えている ← エージェントの行動位置Dのカードに関して質問している ← LLMの回答 13

14.

提案手法の性能評価 InstructQとInstructPPO（提案手法）をQ-learningとPPO（ベースライン）と性能比較結果： InstructQとInstructPPOはベースラインと同等の性能を発揮 Self-playとIntra-AXPとのスコアの差が小さい → ランダムシードに依存せず同様の解に収束している同等のスコアが得られていることを確認表：各手法の性能結果 Self-play：同一手法・ランダムシードで学習したエージェントを使用 Intra-AXP：同一手法だが別のランダムシードで学習したエージェント使用 14

15.

指示による行動確率の変化全ての手法において、ヒントの情報に重きをおいてカードをプレイ Q-Learning（ベースライン）：色とランクに関するヒントの情報を混在させてカードをプレイ InstructQとInstructPPO（提案手法）：指示されたヒントに関する情報からカードをプレイ例）color-based policyでは色に関するヒントが得られた際の行動確率が高い時刻𝑡 + 1でプレイしたカード高確率低確率時刻𝑡で与えた色のヒント時刻𝑡で与えたランクのヒント図：action matrix 𝑝(𝑎𝑡+𝑡 |𝑎𝑡 ) の可視化（関連する行動を抜粋して表示） 15

16.

得られたヒントの活用率全ての手法において、約98%の確率でヒントから情報を得たカードをプレイしている Q-LearningとPPO（ベースライン）：色とランクに関するヒントの情報を偏りなく活用してカードをプレイ InstructQとInstructPPO（提案手法）：エージェントに与えられた指示に関するヒントに大きく依存してカードをプレイ → 指示に基づいた方策を学習できている図：エージェントがプレイしたカードに関する情報 16

17.

人による性能評価 10人の評価者が学習したエージェントと実際にゲームをプレイ評価方法：まず、エージェントに与えた指示を人には伝えずにゲームをプレイ（w/o L）つぎに、指示を人にも伝えてゲームをプレイ（with L）結果：指示を伝えた後は、ゲームのスコアとフィードバックのスコアが大幅に向上 → エージェントの振る舞いが人にとって理解しやすいことを示唆表：人がエージェントとゲームをプレイした結果図：評価者によるフィードバック (7段階スコア、結果の一部を抜粋) 17

18.

まとめ提案手法： ➢ 人との協調を実現するために、言語でエージェントに指示できる学習フレームワークを提案 ➢ エージェントの指示やパートナーの行動を言語でプロンプトとして入力実験結果： ➢ Say-Select Gameと花火（Hanabi）で提案手法の性能を検証 ➢ 言語の指示に基づいた方策が得られていることを確認 →エージェントの振る舞いが人にとって理解しやすく協調可能 18