オッズ比一致による確率調整の理論

1.4K Views

May 07, 24

#データサイエンス #確率調整 #オッズ比 #ロジスティック回帰 #不均衡データ

スライド概要

サンプリング割合の調整、非均衡なデータ、部分的に観測されたデータを学習データとして構築した２値判別モデルの確率を現実的な世界での確率に戻す必要があります。オッズ比一致による確率構成は上記の場合に全て適用できる事を理論と実験で示しています。

mabo

@mabonki0725

スライド一覧

データサイエンティスト

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

Padoc_presen5R

mabo >100

HRBrain 会社説明資料

HRBrain採用 1.2M

イケてる起業の進め方

北原麦郎 1M

ウェルスナビ会社紹介資料

ウェルスナビ株式会社 770.1K

見やすいプレゼン資料の作り方[ドクセル版]

資料デザイン資料作成 powerpoint keynote slide design

モリシゲ 765.6K

iCAREBOOK

icare 採用カルチャーデック採用資料

iCARE,Inc 648.1K

各ページのテキスト

オッズ比一致による確率調整 Mabo Tukuba University Doctor Cource April 2, 2024

Contents 1 自己紹介 2 概要と目的 3 データが不十分な場合の確率調整の課題 4 オッズ比とは 5 オッズ比一致が成立条件 6 ロジステック回帰でのオッズ比一致の解釈 7 オッズ比一致による確率調整 8 まとめ 2 / 26

自己紹介職業：2005 年頃からデータサイエンティスト所属：筑波大学博士課程テーマ：潜在空間上の強化学習開発：SAS ライクなデータ編集分析統合環境 Padoc を公開 URL:https://padoc.info/ twitter(X)：@mabonki0725 3 / 26

概要データサイエンス（以下 DS）では 2 値の識別モデルの作成するにはデータが不十分な場合が多い。少数側と多数側で著しく不均衡な場合データ収集や計測が高価で、十分なデータ得られない場合分析対象の全体平均のみ判明している場合これらは何れも、収集データを工夫して識別モデルを作成してから本来のデータでの確率にする必要がある。 4 / 26

目的これらの確率調整は DS ではよく出会う課題であるが、主な確率調整の方法は必ずしも理論的に定かでないそこで確率調整について 1 2 オッズ比一致は各クラスよりランダムに増幅した場合成り立つ主な確率調整はオッズ比一致と同じであることを示すベイズによる事前確率の変更時の確率是正少数サンプリング調整法（本資料では省略) 3 オッズ比一致の確率調整法ではロジット回帰係数が不変である 4 上記の課題について具体的に確率調整法を示す 5 / 26

データが不十分な場合の確率調整例 (1) 例 1 少数側と多数側の件数が著しく不均衡な場合 (異常値検知等) 不均衡では少数側の特性が大多数側の特性で埋もれて検出され難い少数側をランダムに増幅または多数側を削減して均衡を採る均衡データで作成した識別モデルを元の不均衡データの確率に戻す不均衡データ均衡データ確率の戻し 6 / 26

データが不十分な場合の確率調整例 (2) 例 2 データ収集が高価なため、一部のサンプルの学習結果を使う日本全国で或る商品の世帯構成別の購買率を調査したい日本全国ではデータ収集が高価になる静岡市は全国の平均的でテストマーケッティングに適切とされる https://misuzukaru.blog.fc2.com/blog-entry-109.html 静岡市の結果から日本全国での世帯構成別の購買率を求める Figure: 静岡市の結果を全国に適用する 7 / 26

https://misuzukaru.blog.fc2.com/blog-entry-109.html

データが不十分な場合の確率調整例 (3) 例 3 個別は未詳だが、全体の平均確率は分かっている場合数年間のデータの倒産モデルから年間倒産率を求める年間の倒産先は数年間の倒産データの一部と考える或る会社の倒産モデルの倒産率から年間倒産率に確率調整する（この年間倒産率はこの会社に要求する基準金利となる） Figure: 5 年間の倒産モデルで年間倒産確率を求める 8 / 26

オッズ比の定義 Deﬁnition オッズとは、確率 p を使うと p 1−p Deﬁnition オッズ比とは２つの確率 p と P のオッズの比 p 1−p P 1−P 9 / 26

10.

オッズ比とはオッズ比は一般にコホート分析表から原因の影響度の簡便計算に使われる Table: コホート表の例 (カッコ内は人数) 肺がん患者健常喫煙者非喫煙者計 A(20) C(10) B(80) D(90) A+B(100) C+D(100) 肺がん患者かつ喫煙者の確率を PA 、そのオッズを oddsA とし健常者で喫煙者の確率を PC 、そのオッズを oddsC する A A C C oddsA = A PA = = A+BA = A+B B 1 − PA B 1 − A+B A+B oddsC C PC = C+DC = C+D = D 1 − PC D 1 − C+D C+D = odds rate = オッズ比 AD oddsA = = 2.25 oddsC BC 喫煙者は 2.25 倍の影響 10 / 26

11.

オッズ比一致の定義 (1) 学習データのオッズ比 (x の確率 px のオッズ÷平均確率 pm のオッズ) と調整先データのオッズ比 (x の Px 確率のオッズ÷平均価格率 Pm のオッズ) が一致するオッズ比一致の定義学習データと調整先データのオッズ比が一致 px 1−px pm 1−pm = Px 1−Px Pm 1−Pm (1) odx odm = ODx ODm (2) 11 / 26

12.

オッズ比一致の定義 (2) 両データの識別確率を昇順に並べた場合、両データの平均確率のオッズと要素 x の確率のオッズの比が一致している Figure: 学習データと調整先データのオッズ比一致の関係図 12 / 26

13.

オッズ比一致による確率調整とは調整先データの平均確率 Pm のみ分かっていれば、学習データで作成した識別モデルの或る要素 x の確率 px から調整先データでの要素の x の確率 Px は計算できる。オッズ比一致による確率調整式 px 1−px pm 1−pm = Px 1 − Px = Px = Px 1−Px Pm 1−Pm ) px ( Pm 1−px =A pm 1 − Pm 1−pm A 1+A Px 求めたい調整先の x の確率 px 学習した識別モデルの確率 pm 学習データの平均確率 Pm 調整先データの平均確率 (3) (4) 13 / 26

14.

オッズ比一致の成立条件 (1) オッズ比一致が成立つ条件は、下図の様にクラス別にサンプルをランダムに増減する場合に成立する事を示す。 Figure: Randum sampling by half class1 side and double class2 side 具体的な例としてクラス 1(X1 と Y1 ) の数をランダムに半減させクラス 2(X2 と Y2 ) の数をランダムに倍増する場合変更前データ変更後データ X1 10 5 Y1 30 15 X2 20 40 Y2 40 80 計クラス１の平均確率 100 150 0,4 0.2 14 / 26

15.

オッズ比一致の成立条件 (2) px = p(c1 |X) = 10/(10 + 20) pm = p(c1 ) = (10 + 30)/(10 + 30 + 20 + 40) Px = P (c1 |X) = (5/(5 + 40) Pm = P (c1 ) = (5 + 15)/(5 + 15 + 40 + 80) odx odm = ODx ODm = odx odm = px 10 10 ∗ 60 600 1−px 20 = = 0.75 pm = 40 = 20 ∗ 40 800 1−pm 60 Px 5 5 ∗ 120 600 1−Px 40 = 20 = = = 0.75 Pm 40 ∗ 20 800 120 1−P m ODx = 0.75 ODm オッズ比の両辺が 0.75 で一致している。 15 / 26

16.

クラス別ランダム増減でのオッズ比一致の証明 (1) 両クラス別々にランダムに増減した場合、オッズ一致が成立つ事を証明するクラス 1 とクラス 2 の件数を N1 , N2 とし、ランダム抽出率を α, β とするクラス別にランダム抽出された或る要素 x の件数を nx1 , nx2 とする pm = px = Pm = Px = odx = odm = n1 n1 + n2 nx1 x n1 + nx2 N1 N1 + N2 N1x N1x + N2x px nx = x1 1 − pm n2 n1 pm = 1 − pm n2 (5) 16 / 26

17.

クラス別ランダム増減でのオッズ比一致の証明 (2) ODx = ODm = ODx ODm = Px Nx = 1x 1 − Pm N2 Pm N1 = 1 − Pm N2 N1x ∗ N2 N2x ∗ N1 ランダム抽出率の定義から n1 nx = 1x N1 N1 n2 nx β = = 2x N2 N2 n1 = αN1 nx1 = αN1x α = n2 = βN2 nx2 = βN2x 17 / 26

18.

クラス別ランダム増減でのオッズ比一致の証明 (3) 元データのオッズ比は以下である ODx ODm = N1x ∗ N2 N2x ∗ N1 ランダム抽出率 α, β を使うと n1 = αN1 nx1 = αN1x n2 = βN2 nx2 = βN2x 18 / 26

19.

クラス別ランダム増減でのオッズ比一致の証明 (4) n1 , n2 , nx1 , nx2 を odm , odx に反映するとオッズ比一致が証明できた odx = odm = odx odm odx odm = = αN1x βN2x αN1 βN2 N1x ∗ N2 N2x ∗ N1 ODx ODm 19 / 26

20.

オッズ比一致の成立条件→ロジット回帰係数が一致オッズ比一致の成立条件 → 各クラスの数をランダム増減 px を増減前のロジット確率 Px を増減後のロジット確率とすると logistic 回帰の定義から回帰係数 αk と βk は以下の関係がある [ P ] n n m ∑ ∑ m αk fk + α0 = βk fk + β0 + log 1−P pm k=1 k=1 (6) 1−pm 右辺の最後の 2 項は定数なので、様々なデータ fk でも成り立つのは αk = βk (7) よって logistic 回帰ではオッズ比一致が成立つ場合、両分布 Px と px の識別する特徴量の回帰係数が一致するクラス別にランダムに増減した場合、特徴量の寄与は変動しない 20 / 26

21.

ロジステック回帰でのオッズ比一致の実験マンション販売の DM をして実際に来客した人のデータで実験クラス１の来客側のみランダムに件数を削減する来客数 100 ％ data1:(60/440) Logit 回帰 AR=0.81 来客数 70 ％ data2:(40/440) Logit 回帰 AR=0.80 来客数 50 ％ data3:(29/440) Logit 回帰 AR=0.82 Figure: 横軸は回帰係数の数、縦軸は回帰係数の値来客数が変動しても想定通り殆ど回帰係数は同じ値であることが分かる 21 / 26 但し、データが少ないと一部に歪が出ている

22.

オッズ比一致による確率調整の方法 (0) オッズ比一致はクラス別にランダムに増減した場合に成り立つ Figure: change randum ratio of both class side 一般に取得したデータは膨大なデータからランダムに得られたものが多いまた、何等かの事情で一方のクラスのみデータが取得できる場合も多くこの場合でもオッズ比一致は成立ち、適用できる範囲は広い。以下に具体的な適用例を示す 22 / 26

23.

オッズ比一致による確率調整の方法 (1) 例 1: 不均衡データクラス 1 とクラス 2 の件数が著しく不均衡な場合 (異常値検知等) 少数側の特性は大多数側の特性に覆われ検出し難い少数側をランダムに増幅または多数側を削減して均衡を採る均衡データでの識別モデルを元データの確率に戻す必要がある大多数クラス側をランダムに削減→オッズ比一致の条件を満たす均衡データの点 x の確率 px 、均衡データの平均確率を pm する不均衡データの平均確率が Pm の時、不均衡データの点 x の Px が求まる 23 / 26

24.

オッズ比一致による確率調整の方法 (2) 例 2: 世帯別構成別購買率データ収集や計測が高価で一部のサンプルで学習する日本全国での世帯構成別の購買率のデータ収集は困難全国平均に近い静岡市の世帯構成別の購買率を調査静岡市の結果を全国に適用する静岡のデータは全国でのランダムな一部と考える→オッズ比一致を満たす静岡市の世帯構成別 x の購買率 px 、平均を pm とする。日本全体の平均購買率 Pm から、日本全体での世帯構成別 x の購買率 Px を求める 24 / 26

25.

オッズ比一致による確率調整の方法 (3) 例 3: 年間倒産率分析対象が収集データの一部と判明しているが内容が不詳な場合年間倒産率の算出に数年間のデータで作成した倒産モデルを用いる数年間で作成した倒産率モデルを年間倒産率に確率調整する（この年間倒産率はこの会社に要求する基準金利となる）年間の倒産先は、数年間の倒産先のランダムな一部と見做せる→オッズ比一致の条件を満す数年間の倒産モデルでの x 社の倒産率を px 、平均倒産率を pm とする。年間倒産率 Pm を昨年の (倒産件数÷融資件数) とすると x 社の年間倒産率 Px が計算できる 25 / 26

26.

まとめ 1 DS では２値識別モデルを作成するにはデータが不十分な場合が多い 2 入手できたデータで作成した識別モデルを不十分なデータに適用する事が求められる 3 オッズ比一致が一致すれば、一方の確率から他方の確率が計算できる 4 各クラスがランダムに増減する場合は、オッズ比が一致する事を証明した 5 ロジット回帰ではオッズ比が一致する場合は、回帰係数は一致する 6 具体的な場合について、識別モデルの確率を調整する方法を示した入手できるデータは膨大なデータのランダムな縮約もしくは何等かの理由で一方のクラスのみ制限されて入手できていると考えるとオッズ比一致が適応できる範囲は広い 26 / 26