[論文紹介]Best Arm Identification in Multi-Armed Bandits

8.5K Views

April 19, 21

#Machine Learning #Game Theory #Cloud sourcing #Decision Making #Multi-Armed Bandit

スライド概要

サークルの論文紹介で使った資料です。
元論文：https://hal.inria.fr/hal-00654404/

加藤まる

@marbou090

スライド一覧

公立はこだて未来大学複雑系学部３年

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

kaggleハンズオン

加藤まる 4.7K

プログラミング基礎講習１

加藤まる 1.1K

プログラミング基礎講習３

加藤まる 857

プログラミング基礎講習２

加藤まる 438

[Solution]Tweet Sentiment Extraction

加藤まる 299

mRNA-Seq入門【第四回】

バイオインフォマティクス mrna-seq edger

膝栗毛之男 89.9K

各ページのテキスト

Best Arm Identification in Multi-Armed Bandits 加藤まる at FUN AI 輪講

アジェンダ ● ● ● ● ● 前提知識概要手法議論次に読むべき論文

関連するキーワード ● ● ● ● 機械学習ゲームAI クラウドソーシング意思決定

アジェンダ ● ● ● ● ● 前提知識概要手法議論次に読むべき論文

多腕バンディット問題とは一人のギャンブラーが報酬の確率分布が未知の複数台のスロットマシンを繰り返しプレイするときに、どのような方策に従うのがベストなのかを考える問題

多腕バンディット問題とは各段階でギャンブラーが１つの”腕”を選択し、そこから報酬を受取る。確率的バンディット問題では、報酬は固定確率分布から引き出される。（一般の多腕バンディット問題の）目標は「報酬の累積合計を最大化する」こと。

多腕バンディット問題とは「選択肢はいくつもあるけど、どの選択肢が効果が高いのか事前にわからない」「限られた試行回数でできる限り良い選択肢を選んでいき、トータルの報酬を最大化したい」実際に使われる場面：web広告

web広告での使われ方・Webサイトの目的は、ユーザに対して広告や商品・サービスを配信・推薦し、閲覧 /購入/予約（CV）・ユーザに提供する広告/商品/サービスをスロットマシンに見立て、ユーザのCVを報酬と考える →ユーザに広告等を配信により多くのCVを獲得する問題や、CVに至る可能性が最も大きい広告を探す問題は、累積報酬最大化や最適腕識別などの基本的な多腕バンディット問題としてみることができる

“後悔”という概念 regret = [最も報酬が得られる台からの報酬]-[予測した台からの報酬]

10.

アジェンダ ● ● ● ● ● 前提知識概要手法議論次に読むべき論文

11.

概要最適腕識別とは、報酬の期待値が最大である”腕”を探す枠組み。（報酬の最大化ではない） →この最適腕識別について、逐次削除方策を提案する。

12.

累積報酬最大化と最適腕識別（使用用途）・累積報酬最大化→本稼働・最適腕識別→試用期間

13.

累積報酬最大化と最適腕識別（方策）・累積報酬最大化→期待値最大の腕と推定される”腕”を多く探索するため、選択数の偏りが非常に大きい。・最適腕識別→各腕の選択数を同程度のオーダーにする

14.

問題設定 ● ● ● ● ● K : スロットマシンの台数（腕の本数） i : マシンの番号 t : ラウンド数（台数を選べる回数） μi : 報酬の期待値 μ* : max k()

15.

標本複雑度達成可能な性能について理論限界が存在する。所定の誤識別率を達成するのに必要な試行回数の指標を標本複雑度という。

16.

標本複雑度

17.

標本複雑度

18.

アジェンダ ● ● ● ● ● 前提知識概要手法議論次に読むべき論文

19.

UCB-E(Upper Confidence Bound Exploration) スコアを計算し、最も良いスコアの腕を選択するアルゴリズム（既存）

20.

UCB-E(Upper Confidence Bound Exploration) ・信頼上限を腕の選択の基準として用いる・一様選択・探索をするほどに後悔が減る・誤差enに上限がある

21.

UCB-E(Upper Confidence Bound Exploration)

22.

もとになったUCBアルゴリズム Reference : https://jeremykun.com/2013/10/28/optimism-in-the-face-of-uncertainty-the-ucb1-algorithm/

23.

UCB-Eの問題選択された回数が偏る。最適腕識別では各アームの選択数が同程度のオーダーになることが望ましい。

24.

UCB-Eの問題

25.

逐次拒絶アルゴリズム SRは探索範囲を狭めながら、各腕を満遍なく探索するアルゴリズム

26.

逐次拒絶アルゴリズム基準１：期待値の上界μi,nが最適腕の期待値の下界μより小さい腕は最適腕である見込みがないとみなして除外基準２：最適腕の期待値の現時点での下界μに許容幅を加えたものが、それ以外の腕の期待値の上界μを上回った時点で、それを最適腕として出力する。

27.

逐次拒絶アルゴリズム

28.

29.

アジェンダ ● ● ● ● ● 前提知識概要手法議論次に読むべき論文

30.

議論 ● ● 経験的分散を考慮した場合の複雑度の良い尺度はなにか単一のアームだけでなく、上位mのアームを推奨することに関心がある場合、アルゴリズムと分析をどのように変更する必要があるか

31.

アジェンダ ● ● ● ● ● 前提知識概要手法議論次に読むべき論文

32.

次に読む論文バンディット問題関連 ● ● ● ● ● Thompson sampling A modern Bayesian look at the multi-armed bandit Regret Analysis of Stochastic and Nonstochastic Multi-armed Bandit Problems Stochastic Linear Optimization under Bandit Feedback Finite-time Analysis of the Multiarmed Bandit Problem