>100 Views
January 15, 26
スライド概要
AI・機械学習を勉強したい学生たちが集まる、京都大学の自主ゼミサークルです。私たちのサークルに興味のある方はX(Twitter)をご覧ください!
2025年後期輪読会 #12 (2026/1/8) Agent57 京都大学工学部情報学科数理工学コース B3 亀山龍汰 0
アジェンダ ◼ 導入 ◼ NGU ◼ Agent57のアイデア 1
使用する指標 Atari57 Arcade Learning Environment (ALE) 上で動作する、Atari 2600の代表的な57タイトルのゲー ムセット。2013年以来、深層強化学習の進歩を測る最も重要な指標として使われている。 幅広いゲームが入った多用性と、探索や信用割当といった実社会での応用性 HNS(Human Normalized Score) Random Score: 学習なしの状態(一様ランダムな行動)で得られる偶然のスコア。これを0 点として定義。1を超えていれば、人間を超えたとみなす。 2
他のモデルの達成状況 R2D2 分散学習+LSTM(記憶付きRNN) →Solarisといった無報酬期間が長く、信用割当が難 しいゲームで学習に失敗 NGU 内発的報酬の導入で探索に特化 →Surroundといったゲームで、「勝って得られる 点数」よりも「負けてリセットされる時の好奇心 報酬」が高くなり学習に失敗 MuZero モデルベース型の強化学習 →Montezuma‘s Revengeといった報酬が疎なゲー ムでモデルがうまく作成できずに学習に失敗 3
アジェンダ ◼ 導入 ◼ 基礎技術(NGU・分散学習) ◼ Agent57のアイデア 4
NGUの仕組み① NGUの合計報酬の定義 : 方策jにおける時刻tの合計報酬 : 外発的報酬 :内発的報酬 : 方策jの重み係数 この値が大きければ探索的な方策、小さければ利用的な方策になる 方策固有の割引率 は に基づいて決定される 内発的報酬の定義 NGUの「好奇心」:エピソード内の新規性 ✕ 生涯を通じた新規性 5
NGUの仕組み② エピソード内新規性 同一エピソード内の各時刻で逆ダイナミクスモデルで行動予測を行い、特徴抽出する 特徴抽出されたベクトルを記憶し、k近傍法で新規性の報酬を決定 生涯を通じた新規性 不必要な探索を避けるため、すべてのエピソードを通しての新規性をRNDを用いて決定する RND:ゲーム画面を入力として、ターゲットネットワーク(固定)が出す値を予測ネットワークに 予測させ、誤差が多ければ新規性の高いゲーム画面であると判断 ゲーム画面 ターゲットネットワーク (パラメータ固定) 予測ネットワーク (ターゲットを学習) 6
分散学習アーキテクチャ R2D2ベースの分散学習 ・様々な重みと割引率 を持つ Actorが並列してゲームをプレイ ・LearnerはActorの結果を見てQネットワーク の重み を更新する ・遷移データを保存し、TD誤差が大きいものを 学習に使用 参考:岡本さんのRainbowスライド4 7
アジェンダ ◼ 導入 ◼ 基礎技術(NGU・分散学習) ◼ Agent57のアイデア 8
工夫①:Q関数の加法的な分解 内発的報酬と外発的報酬を異なるネットワークで学習 :スコア(外発的報酬)獲得を目標とするネットワーク :探索(内発的報酬)専門のネットワーク それぞれの価値観数が影響し合わないため、NGUの問題点であった自爆を回避 9
工夫②:適応的メタコントローラー 学習状況に応じて最適な を選択 :方策jを選んだときのエピソード報酬の移動平均 :方策jが選ばれた回数 成果の出る方策に収束していく&学習の進度に応じた方策を取れる 多腕バンディッド問題を解く 10
工夫③:長期の信用割当の強化 BPTTのウィンドウを増やす RNNの勾配計算範囲を 80ステップ → 160ステップ へ拡大。 極端な割引率の候補の作成 32通りの設定。最大値は =0.9999 Skiing 等の長期的な信用割当が必要なゲームに対処可能に 11