>100 Views
February 22, 17
スライド概要
2017/2/22
Deep Learning JP:
http://deeplearning.jp/seminar-2/
DL輪読会資料
STOCHASTIC NEURAL NETWORKS FOR HIERARCHICAL REINFORCEMENT LEARNING Carlos Florensa† , Yan Duan†‡, Pieter Abbeel†‡ 2017/2/10 発表者:金子貴輝
階層的強化学習 • 報酬を得るまでが長いタスクを分割したい • 従来法の問題 – タスクの分割に固有の知識を必要とする – タスク間で知識を共有せずサンプル効率が低い 2
問題設定 • 事前学習ができる • 状態空間が(共通,タスク固有)に分かれて 相互作用が少ない – 例:把持タスクにおける対象物の位置 3
提案手法 • 確率的ニューラルネット – 同じ状況でも異なる行動を取れるので, 状況の変化に対応できる • 相互情報量基準での正規化 – 新しい場所に行けば報酬になるらしい • タスク特徴の挿げ替えによる階層的RL – タスクを表す特徴で条件付けて事前学習 • 報酬は疎のままでいい – 固定ステップごとにone hotなタスク特徴を 自作する上位のニューラルネット 4