435 Views
May 07, 24
スライド概要
サンプリング割合の調整、非均衡なデータ、部分的に観測されたデータを学習データとして構築した2値判別モデルの確率を現実的な世界での確率に戻す必要があります。オッズ比一致による確率構成は上記の場合に全て適用できる事を理論と実験で示しています。
データサイエンティスト
オッズ比一致による確率調整 Mabo Tukuba University Doctor Cource April 2, 2024
Contents 1 自己紹介 2 概要と目的 3 データが不十分な場合の確率調整の課題 4 オッズ比とは 5 オッズ比一致が成立条件 6 ロジステック回帰でのオッズ比一致の解釈 7 オッズ比一致による確率調整 8 まとめ 2 / 26
自己紹介 職業:2005 年頃からデータサイエンティスト 所属:筑波大学博士課程 テーマ:潜在空間上の強化学習 開発:SAS ライクなデータ編集分析統合環境 Padoc を公開 URL:https://padoc.info/ twitter(X):@mabonki0725 3 / 26
概要 データサイエンス(以下 DS)では 2 値の識別モデルの作成するには データが不十分な場合が多い。 少数側と多数側で著しく不均衡な場合 データ収集や計測が高価で、十分なデータ得られない場合 分析対象の全体平均のみ判明している場合 これらは何れも、収集データを工夫して識別モデルを作成してから 本来のデータでの確率にする必要がある。 4 / 26
目的 これらの確率調整は DS ではよく出会う課題であるが、 主な確率調整の方法は必ずしも理論的に定かでない そこで確率調整について 1 2 オッズ比一致は各クラスよりランダムに増幅した場合成り立つ 主な確率調整はオッズ比一致と同じであることを示す ベイズによる事前確率の変更時の確率是正 少数サンプリング調整法 (本資料では省略) 3 オッズ比一致の確率調整法ではロジット回帰係数が不変である 4 上記の課題について具体的に確率調整法を示す 5 / 26
データが不十分な場合の確率調整例 (1) 例 1 少数側と多数側の件数が著しく不均衡な場合 (異常値検知等) 不均衡では少数側の特性が大多数側の特性で埋もれて検出され難い 少数側をランダムに増幅または多数側を削減して均衡を採る 均衡データで作成した識別モデルを元の不均衡データの確率に戻す 不均衡データ 均衡データ 確率の戻し 6 / 26
データが不十分な場合の確率調整例 (2) 例 2 データ収集が高価なため、一部のサンプルの学習結果を使う 日本全国で或る商品の世帯構成別の購買率を調査したい 日本全国ではデータ収集が高価になる 静岡市は全国の平均的でテストマーケッティングに適切とされる https://misuzukaru.blog.fc2.com/blog-entry-109.html 静岡市の結果から日本全国での世帯構成別の購買率を求める Figure: 静岡市の結果を全国に適用する 7 / 26
データが不十分な場合の確率調整例 (3) 例 3 個別は未詳だが、全体の平均確率は分かっている場合 数年間のデータの倒産モデルから年間倒産率を求める 年間の倒産先は数年間の倒産データの一部と考える 或る会社の倒産モデルの倒産率から年間倒産率に確率調整する (この年間倒産率はこの会社に要求する基準金利となる) Figure: 5 年間の倒産モデルで年間倒産確率を求める 8 / 26
オッズ比の定義 Definition オッズとは、確率 p を使うと p 1−p Definition オッズ比とは2つの確率 p と P のオッズの比 p 1−p P 1−P 9 / 26
オッズ比とは オッズ比は一般にコホート分析表から原因の影響度の簡便計算に使われる Table: コホート表の例 (カッコ内は人数) 肺がん患者 健常 喫煙者 非喫煙者 計 A(20) C(10) B(80) D(90) A+B(100) C+D(100) 肺がん患者かつ喫煙者の確率を PA 、そのオッズを oddsA とし 健常者で喫煙者の確率を PC 、そのオッズを oddsC する A A C C oddsA = A PA = = A+BA = A+B B 1 − PA B 1 − A+B A+B oddsC C PC = C+DC = C+D = D 1 − PC D 1 − C+D C+D = odds rate = オッズ比 AD oddsA = = 2.25 oddsC BC 喫煙者は 2.25 倍の影響 10 / 26
オッズ比一致の定義 (1) 学習データのオッズ比 (x の確率 px のオッズ÷平均確率 pm のオッズ) と 調整先データのオッズ比 (x の Px 確率のオッズ÷平均価格率 Pm のオッズ) が一致する オッズ比一致の定義 学習データと調整先データのオッズ比が一致 px 1−px pm 1−pm = Px 1−Px Pm 1−Pm (1) odx odm = ODx ODm (2) 11 / 26
オッズ比一致の定義 (2) 両データの識別確率を昇順に並べた場合、両データの 平均確率のオッズと要素 x の確率のオッズの比が一致している Figure: 学習データと調整先データのオッズ比一致の関係図 12 / 26
オッズ比一致による確率調整とは 調整先データの平均確率 Pm のみ分かっていれば、 学習データで作成した識別モデルの或る要素 x の確率 px から 調整先データでの要素の x の確率 Px は計算できる。 オッズ比一致による確率調整式 px 1−px pm 1−pm = Px 1 − Px = Px = Px 1−Px Pm 1−Pm ) px ( Pm 1−px =A pm 1 − Pm 1−pm A 1+A Px 求めたい調整先の x の確率 px 学習した識別モデルの確率 pm 学習データの平均確率 Pm 調整先データの平均確率 (3) (4) 13 / 26
オッズ比一致の成立条件 (1) オッズ比一致が成立つ条件は、下図の様にクラス別にサンプルを ランダムに増減する場合に成立する事を示す。 Figure: Randum sampling by half class1 side and double class2 side 具体的な例として クラス 1(X1 と Y1 ) の数をランダムに半減させ クラス 2(X2 と Y2 ) の数をランダムに倍増する場合 変更前データ 変更後データ X1 10 5 Y1 30 15 X2 20 40 Y2 40 80 計 クラス1の平均確率 100 150 0,4 0.2 14 / 26
オッズ比一致の成立条件 (2) px = p(c1 |X) = 10/(10 + 20) pm = p(c1 ) = (10 + 30)/(10 + 30 + 20 + 40) Px = P (c1 |X) = (5/(5 + 40) Pm = P (c1 ) = (5 + 15)/(5 + 15 + 40 + 80) odx odm = ODx ODm = odx odm = px 10 10 ∗ 60 600 1−px 20 = = 0.75 pm = 40 = 20 ∗ 40 800 1−pm 60 Px 5 5 ∗ 120 600 1−Px 40 = 20 = = = 0.75 Pm 40 ∗ 20 800 120 1−P m ODx = 0.75 ODm オッズ比の両辺が 0.75 で一致している。 15 / 26
クラス別ランダム増減でのオッズ比一致の証明 (1) 両クラス別々にランダムに増減した場合、オッズ一致が成立つ事を証明する クラス 1 とクラス 2 の件数を N1 , N2 とし、ランダム抽出率を α, β とする クラス別にランダム抽出された或る要素 x の件数を nx1 , nx2 とする pm = px = Pm = Px = odx = odm = n1 n1 + n2 nx1 x n1 + nx2 N1 N1 + N2 N1x N1x + N2x px nx = x1 1 − pm n2 n1 pm = 1 − pm n2 (5) 16 / 26
クラス別ランダム増減でのオッズ比一致の証明 (2) ODx = ODm = ODx ODm = Px Nx = 1x 1 − Pm N2 Pm N1 = 1 − Pm N2 N1x ∗ N2 N2x ∗ N1 ランダム抽出率の定義から n1 nx = 1x N1 N1 n2 nx β = = 2x N2 N2 n1 = αN1 nx1 = αN1x α = n2 = βN2 nx2 = βN2x 17 / 26
クラス別ランダム増減でのオッズ比一致の証明 (3) 元データのオッズ比は以下である ODx ODm = N1x ∗ N2 N2x ∗ N1 ランダム抽出率 α, β を使うと n1 = αN1 nx1 = αN1x n2 = βN2 nx2 = βN2x 18 / 26
クラス別ランダム増減でのオッズ比一致の証明 (4) n1 , n2 , nx1 , nx2 を odm , odx に反映するとオッズ比一致が証明できた odx = odm = odx odm odx odm = = αN1x βN2x αN1 βN2 N1x ∗ N2 N2x ∗ N1 ODx ODm 19 / 26
オッズ比一致の成立条件→ロジット回帰係数が一致 オッズ比一致の成立条件 → 各クラスの数をランダム増減 px を増減前のロジット確率 Px を増減後のロジット確率とすると logistic 回帰の定義から回帰係数 αk と βk は以下の関係がある [ P ] n n m ∑ ∑ m αk fk + α0 = βk fk + β0 + log 1−P pm k=1 k=1 (6) 1−pm 右辺の最後の 2 項は定数なので、様々なデータ fk でも成り立つのは αk = βk (7) よって logistic 回帰ではオッズ比一致が成立つ場合、 両分布 Px と px の識別する特徴量の回帰係数が一致する クラス別にランダムに増減した場合、特徴量の寄与は変動しない 20 / 26
ロジステック回帰でのオッズ比一致の実験 マンション販売の DM をして実際に来客した人のデータで実験 クラス1の来客側のみランダムに件数を削減する 来客数 100 % data1:(60/440) Logit 回帰 AR=0.81 来客数 70 % data2:(40/440) Logit 回帰 AR=0.80 来客数 50 % data3:(29/440) Logit 回帰 AR=0.82 Figure: 横軸は回帰係数の数、縦軸は回帰係数の値 来客数が変動しても想定通り殆ど回帰係数は同じ値であることが分かる 21 / 26 但し、データが少ないと一部に歪が出ている
オッズ比一致による確率調整の方法 (0) オッズ比一致はクラス別にランダムに増減した場合に成り立つ Figure: change randum ratio of both class side 一般に取得したデータは膨大なデータからランダムに得られたものが多い また、何等かの事情で一方のクラスのみデータが取得できる場合も多く この場合でもオッズ比一致は成立ち、適用できる範囲は広い。 以下に具体的な適用例を示す 22 / 26
オッズ比一致による確率調整の方法 (1) 例 1: 不均衡データ クラス 1 とクラス 2 の件数が著しく不均衡な場合 (異常値検知等) 少数側の特性は大多数側の特性に覆われ検出し難い 少数側をランダムに増幅または多数側を削減して均衡を採る 均衡データでの識別モデルを元データの確率に戻す必要がある 大多数クラス側をランダムに削減→オッズ比一致の条件を満たす 均衡データの点 x の確率 px 、均衡データの平均確率を pm する 不均衡データの平均確率が Pm の時、不均衡データの点 x の Px が求まる 23 / 26
オッズ比一致による確率調整の方法 (2) 例 2: 世帯別構成別購買率 データ収集や計測が高価で一部のサンプルで学習する 日本全国での世帯構成別の購買率のデータ収集は困難 全国平均に近い静岡市の世帯構成別の購買率を調査 静岡市の結果を全国に適用する 静岡のデータは全国でのランダムな一部と考える→オッズ比一致を満たす 静岡市の世帯構成別 x の購買率 px 、平均を pm とする。日本全体の平均購 買率 Pm から、日本全体での世帯構成別 x の購買率 Px を求める 24 / 26
オッズ比一致による確率調整の方法 (3) 例 3: 年間倒産率 分析対象が収集データの一部と判明しているが内容が不詳な場合 年間倒産率の算出に数年間のデータで作成した倒産モデルを用いる 数年間で作成した倒産率モデルを年間倒産率に確率調整する (この年間倒産率はこの会社に要求する基準金利となる) 年間の倒産先は、数年間の倒産先のランダムな一部と見做せる→オッズ比 一致の条件を満す 数年間の倒産モデルでの x 社の倒産率を px 、平均倒産率を pm とする。 年間倒産率 Pm を昨年の (倒産件数÷融資件数) とすると x 社の年間倒産率 Px が計算できる 25 / 26
まとめ 1 DS では2値識別モデルを作成するにはデータが不十分な場合が多い 2 入手できたデータで作成した識別モデルを不十分なデータに適用する 事が求められる 3 オッズ比一致が一致すれば、一方の確率から他方の確率が計算できる 4 各クラスがランダムに増減する場合は、オッズ比が一致する事を証明 した 5 ロジット回帰ではオッズ比が一致する場合は、回帰係数は一致する 6 具体的な場合について、識別モデルの確率を調整する方法を示した 入手できるデータは膨大なデータのランダムな縮約もしくは 何等かの理由で一方のクラスのみ制限されて入手できていると考えると オッズ比一致が適応できる範囲は広い 26 / 26