1.1K Views
September 05, 24
スライド概要
DL輪読会資料
DEEP LEARNING JP [DL Papers] 夏のICML読み会:AI for Social Good 実データの性質を設定にした研究 Makoto Kawano (@mkt_kwn), Matsuo Lab. http://deeplearning.jp/
全体のアウトライン • テーマ「AI for Social Good」:ICMLの社会実運用想定のトピックを扱う 1. 河野 「実データにおけるラベリングに関する研究」 ü データ周りの制約下に関して取り組む研究を紹介 ü データ効率学習まわり 2. 小川 「LLM社会実装時における課題解決研究」 ü LLM自体ではなく,LLM利活用に関する研究を紹介 ü XAI(説明可能性)まわり 3. 謝 「Position: On the Societal Impact of Open Foundation Models」 ü 基盤モデルのオープンソース化によって社会にもたされる影響について 2
書誌情報 • 実データを想定した際の3種類の問題設定 § 「ラベルの付与状況に応じた問題設定」 1. 大量の教師ありデータが存在する世界 ü DSDM: Model-Aware Dataset Selection with Datamodels 2. 大量の弱教師ありデータが存在する世界(Partial Label Learning) ü Does Label Smoothing Help Deep Partial Label Learning? 3. 大量の教師なしデータしかない世界 ü Active Statistical Inference 3
DSDM: Model-Aware Dataset Selection with Datamodels Logan Engstrom, Axel Feldmann, Aleksander Mądry MIT ICML2024 spotlight paper 4
背景 • 良い大規模モデルを作るには,”高品質な”データを大量に学習すれば良い? § 例:GPT-2やDALL-Eなど § ネット上にある大量のデータを収集,利用することで汎化もするし,良さそう 5
背景 • 良い大規模モデルを作るには,”高品質な”データを大量に学習すれば良い? § 例:GPT-2やDALL-Eなど § ネット上にある大量のデータを収集,利用することで汎化もするし,良さそう • 全てのデータが等しく使えるわけではない § スパムや偽情報,無意味なテキストなど”低品質な”データは取り除いた方が良い § Wikipediaや複数行にわたって書かれた文章だけ使えば良さそう 6
背景 • 良い大規模モデルを作るには,”高品質な”データを大量に学習すれば良い? § 例:GPT-2やDALL-Eなど § ネット上にある大量のデータを収集,利用することで汎化もするし,良さそう • 全てのデータが等しく使えるわけではない § スパムや偽情報,無意味なテキストなど”低品質な”データは取り除いた方が良い § Wikipediaや複数行にわたって書かれた文章だけ使えば良さそう 良質なデータを使えば,性能改善するのだろうか? 7
DSDMの研究目的 • ”高品質な”データとの類似性にもとづいて選んだデータを使っても低下する § PaLMやGPT-4のような類似ベースのデータ選択はランダム選択よりも性能低い 8
DSDMの研究目的 • ”高品質な”データとの類似性にもとづいて選んだデータを使っても低下する § PaLMやGPT-4のような類似ベースのデータ選択はランダム選択よりも性能低い 目的のタスク,学習アルゴリズム,データプールがある時, モデルの性能を改善するようなデータの選び方を見つけたい 9
DSDMの研究目的 • ”高品質な”データとの類似性にもとづいて選んだデータを使っても低下する § PaLMやGPT-4のような類似ベースのデータ選択はランダム選択よりも性能低い 目的のタスク,学習アルゴリズム,データプールがある時, モデルの性能を改善するようなデータの選び方を見つけたい データを選んで,モデルを学習,評価することは可能だが, 全てのデータの組み合わせを検証することは不可能 10
問題設定 タスク最適なデータセット選択 訓練セットをモデルに写像する学習アルゴリズム𝓐(例:NNのSGD)と, 入手可能な集合𝓢の中から𝒌個のターゲットタスク最適なデータセット選択は, ただし,ℓ(𝒙; 𝒈)は,データ点𝒙におけるモデル𝒈の損失(クロスエントロピー) 11
問題設定 タスク最適なデータセット選択 訓練セットをモデルに写像する学習アルゴリズム𝓐(例:NNのSGD)と, 入手可能な集合𝓢の中から𝒌個のターゲットタスク最適なデータセット選択は, 線形回帰やカーネル回帰なら 解析的に求まるが,DNNとかは無理 ただし,ℓ(𝒙; 𝒈)は,データ点𝒙におけるモデル𝒈の損失(クロスエントロピー) 12
問題設定 タスク最適なデータセット選択 訓練セットをモデルに写像する学習アルゴリズム𝓐(例:NNのSGD)と, 入手可能な集合𝓢の中から𝒌個のターゲットタスク最適なデータセット選択は, 線形回帰やカーネル回帰なら Sがわかっていれば,モデル訓練, 𝒙における損失計算は可能 解析的に求まるが,DNNとかは無理 ただし,ℓ(𝒙; 𝒈)は,データ点𝒙におけるモデル𝒈の損失(クロスエントロピー) |𝓢| を全て扱うのは不可能 𝒌 13
提案手法:DSDM(Dataset Selection with Datamodels) • 「訓練モデルの損失を近似し,その近似結果を最小にする部分集合を選ぶ」 § Datamodeling[Ilyas+, 2022]を用いて,訓練誤差を近似する ü 訓練データのサブセット𝑆を学習したモデルによるデータ点𝑥の損失: 14
提案手法:DSDM(Dataset Selection with Datamodels) • 「訓練モデルの損失を近似し,その近似結果を最小にする部分集合を選ぶ」 § Datamodeling[Ilyas+, 2022]を用いて,訓練誤差を近似する ü 訓練データのサブセット𝑆を学習したモデルによるデータ点𝑥の損失: ü 候補データサブセット𝑆 ⊂ 𝒮が与えられたとき, such that 15
提案手法:DSDM(Dataset Selection with Datamodels) • 「訓練モデルの損失を近似し,その近似結果を最小にする部分集合を選ぶ」 § Datamodeling[Ilyas+, 2022]を用いて,訓練誤差を近似する ü 訓練データのサブセット𝑆を学習したモデルによるデータ点𝑥の損失: ü 候補データサブセット𝑆 ⊂ 𝒮が与えられたとき, such that ü データ点𝑥におけるDatamodel 𝜏!! は, where 16
提案手法:DSDM(Dataset Selection with Datamodels) • 「訓練モデルの損失を近似し,その近似結果を最小にする部分集合を選ぶ」 § Datamodeling[Ilyas+, 2022]を用いて,訓練誤差を近似する ü Datamodelの具体的な実装:線形回帰 17
提案手法:DSDM(Dataset Selection with Datamodels) • 「訓練モデルの損失を近似し,その近似結果を最小にする部分集合を選ぶ」 § Datamodeling[Ilyas+, 2022]を用いて,訓練誤差を近似する ü Datamodelの具体的な実装:線形回帰 線型結合のため, 𝜽𝒙 の次元𝒊の値=データ𝒙𝒊 の寄与 18
提案手法:DSDM(Dataset Selection with Datamodels) • 「訓練モデルの損失を近似し,その近似結果を最小にする部分集合を選ぶ」 § Datamodeling[Ilyas+, 2022]を用いて,訓練誤差を近似する 線型結合のため, ü Datamodelの具体的な実装:線形回帰 𝜽𝒙 の次元𝒊の値=データ𝒙𝒊 の寄与 1. 全データ𝒟𝒮 から,候補サブセット𝑆" を𝑚個適当にサンプリングする 2. 候補サブセット𝑆" を使って𝑚個のDNN𝒜(𝑆" )を学習する 3. ターゲットタスクの𝑛個のデータ点𝑥# における損失ℒ$ (𝑆)を計算する 4. 教師データ(𝑆" , ℒ$ 𝑆" )を使って,𝜏%! を学習させる 19
提案手法:DSDM(Dataset Selection with Datamodels) • 「訓練モデルの損失を近似し,その近似結果を最小にする部分集合を選ぶ」 § 学習させたDatamodel 𝜏!! を使って,ターゲットタスクの平均損失を計算する 20
提案手法:DSDM(Dataset Selection with Datamodels) • 「訓練モデルの損失を近似し,その近似結果を最小にする部分集合を選ぶ」 § 学習させたDatamodel 𝜏!! を使って,ターゲットタスクの平均損失を計算する |𝒮|次元のベクトル 21
提案手法:DSDM(Dataset Selection with Datamodels) • 「訓練モデルの損失を近似し,その近似結果を最小にする部分集合を選ぶ」 § 学習させたDatamodel 𝜏!! を使って,ターゲットタスクの平均損失を計算する 22
実験 • 125MパラメータのGPT-2を使って4種類のターゲットタスクで評価 § Colossal Cleaned Common Crawlからデータを選び,GPT-2を学習させて評価 ü 𝑆 ≈ 217,000,000 ü ベースライン:ターゲットタスクの各データと類似したC4データを利用 23
実験 • 125MパラメータのGPT-2を使って4種類のターゲットタスクで評価 § Colossal Cleaned Common Crawlからデータを選び,GPT-2を学習させて評価 選択数が増えるにつれて, ü 𝑆 ≈ 217,000,000 DSDMの精度が下がる ü ベースライン:ターゲットタスクの各データと類似したC4データを利用 24
実験 • 125MパラメータのGPT-2を使って4種類のターゲットタスクで評価 § Colossal Cleaned Common Crawlからデータを選び,GPT-2を学習させて評価 選択数が増えるにつれて, ü 𝑆 ≈ 217,000,000 データ類似性で選択しても DSDMの精度が下がる ランダムにほぼ勝てない ü ベースライン:ターゲットタスクの各データと類似したC4データを利用 25
実験 • 未知のターゲットタスクでのDSDMの性能も評価 § 取り組むことになるであろう15種類のタスクに類似したターゲットタスクでDSDMを適用 ü LAMBADA, SQuAD, Jeopardyを使って,訓練データを選択 26
実験 • 未知のターゲットタスクでのDSDMの性能も評価 § 取り組むことになるであろう15種類のタスクに類似したターゲットタスクでDSDMを適用 ランダムで選ぶのが強い ü LAMBADA, SQuAD, Jeopardyを使って,訓練データを選択 27
実験 • 未知のターゲットタスクでのDSDMの性能も評価 § 取り組むことになるであろう15種類のタスクに類似したターゲットタスクでDSDMを適用 ランダムで2倍の学習 ランダムで選ぶのが強い ü LAMBADA, SQuAD, Jeopardyを使って,訓練データを選択 =DSDM 28
実験 • 代理のターゲットタスクの選び方による影響も検証 § しっかりと類似したタスクでデータを選べば,性能は改善される § 一方で,無関係のタスクでデータを選ぶと性能は悪化してしまう 29
まとめ • DSDM:ターゲットタスクでの損失を近似することで,データを選択する手法 § 損失ではなく,様々なモデルの挙動を近似することが可能 ü モデルのアライメントや公平性など § 本番モデルより小さいモデルでDatamodelを実現したが,大きくすれば改善が期待できる § 計算コストは,本番モデルに比べれば,Datamodelの学習は安価 ü Appendixで,1回の順伝播・逆伝播の数を基準に計算してる ü 元のDataModel論文でも「40,000 models/day on an 8 × A100 GPU machine m=300,000 CIFAR models and m=150,000 FMoW models」とある 30
Does Label Smoothing Help Deep Partial Label Learning? Xiuwen Gong Nitin Bisht Guandong Xu シドニー大学,香港理工大学 ICML2024 Oral paper 31
背景 • 弱教師あり学習の一つである部分ラベル学習に取り組む § 部分ラベル学習:一つの例に対して複数のラベルが付与されている ü 「正しい」ラベルはその中の一つ § 線形回帰やカーネル回帰ではなく,深層学習での部分ラベル学習は最近のトレンド ü DNNは,一つのデータに対して過剰な確信度を持ってしまう特徴がある § ラベルノイズも一様なものから,非一様な写実的な設定に変わっている ü 真のラベルに高い相関があるノイズがのる 32
背景 • 弱教師あり学習の一つである部分ラベル学習に取り組む § 部分ラベル学習:一つの例に対して複数のラベルが付与されている ü 「正しい」ラベルはその中の一つ § 線形回帰やカーネル回帰ではなく,深層学習での部分ラベル学習は最近のトレンド ü DNNは,一つのデータに対して過剰な確信度を持ってしまう特徴がある § ラベルノイズも一様なものから,非一様な写実的な設定に変わっている ü 真のラベルに高い相関があるノイズがのる 写実的なノイズが乗った部分ラベルデータでDNNは学習可能なのか? 33
研究目的 • ノイズ除去と過剰確信を防ぐラベルスムージングに注目 § ラベルスムージングによって,deep PLL問題を解決することはできるのか? § 解決できるならば,どういう状況で有効なのか? 34
研究目的 • ノイズ除去と過剰確信を防ぐラベルスムージングに注目 § ラベルスムージングによって,deep PLL問題を解決することはできるのか? § 解決できるならば,どういう状況で有効なのか? Deep PLLに対し,理論的・実験的にラベルスムージングの有効性を示す 1. DeepPLLのためのラベルスムージングを使った期待リスクを提案 2. ラベルノイズを定量化するgeneralized ambiguity degreeを定義 3. LS-PLLアルゴリズムを提案し,実験を実施 35
前提知識 • PLLの基本的な戦略 § 候補ラベルを平均してそのまま利用 § 真のラベルを特定する 36
前提知識 • PLLの基本的な戦略 § 候補ラベルを平均してそのまま利用 § 真のラベルを特定する この研究はこっちのアプローチ 37
前提知識 • PLLの基本的な戦略 § 候補ラベルを平均してそのまま利用 § 真のラベルを特定する この研究はこっちのアプローチ • ラベルスムージング § 各データ点𝑥について,正解ラベル𝑦のone-hotベクトル𝒚に対するラベルスムージングは § ラベルスムージングレート: 𝑟 ∈ [0, 1],クラス数: 𝐿 ü 例:𝑟 = 0.4で,𝒚 = 0, 1, 0, 0 "があるとき,𝑦 #$ = 0.1, 0.7, 0.1, 0.1 "となる 38
記法
• 部分ラベルデータセット:𝒮 =
𝑥& , 𝑌& ''() = { 𝑥& , 𝑦& ∪ 𝑍& '&()}
• 分布ℙから𝒏個i.i.dでサンプリング
• 各データ点(𝑥& , 𝑌& ):𝑥& ∈ ℝ* ,候補ラベル𝑌& ⊆ 𝒴, 𝒴 = 𝐿 = {1, … , 𝐿}
§ 𝑦% : 𝑥% の真の正解ラベル
§ Z% : false-positiveの候補ラベル
𝑌& = 𝑦& ∪ 𝑍& , 𝑦& ∈ 𝑌& , 𝑍& ⊂ 𝑌& , 𝑦& ∉ 𝑍&
• 𝐗, 𝐘, 𝐘 ∗ , 𝐙: 𝑥& , 𝑌& , 𝑦& , 𝑍& の確率変数
§ 𝐗, 𝐘 ∼ ℙ
§ 𝐗, 𝐘 ∗ ∼ 𝔻
39
部分ラベルのためのスムージング 定義:部分ラベルのスムージング (𝑥, 𝑌)を訓練データとし,𝑌は候補ラベル集合となっている.𝐘 ∈ 0, 1 , をL 次元ラベルベクトル,𝐘,- ∈ ℝ, を𝐘 にラベルスムージングをした結果,𝑌,-,/ を𝐘 01 の𝑗次元めの要素とする.𝑦をデータ𝑥の真のラベルだとすると,ラベ ルをスムージングしたものは, である.ただし,𝕀は指示関数,𝑟はラベルスムージングレート, |𝑌|は候補ラベルサイズである. 40
部分ラベルのためのスムージング 定義:部分ラベルのスムージング 𝑟 = 0.2, 𝑦 = 3であるとき, (𝑥, 𝑌)を訓練データとし,𝑌は候補ラベル集合となっている.𝐘 ∈ 0, 1 , をL 2 をスムージングすると, 𝒀 = 0, 1, 1, 0 次元ラベルベクトル,𝐘,- ∈ ℝ, を𝐘 にラベルスムージングをした結果,𝑌,-,/ 𝒀,- = 0, 0.1, 0.9, 0 2となる を𝐘 01 の𝑗次元めの要素とする.𝑦をデータ𝑥の真のラベルだとすると,ラベ ルをスムージングしたものは, である.ただし,𝕀は指示関数,𝑟はラベルスムージングレート, |𝑌|は候補ラベルサイズである. 41
部分ラベルのためのスムージング 定義:ソフトマックス-クロスエントロピー誤差関数 任意の訓練データ(𝑥& , 𝑌& )におけるDNN𝑓の予測値を𝐟 𝑥& ∈ ℝ, とし,𝑗次元 めの要素を𝑓 / (𝑥& )とすると,ソフトマックス-クロスエントロピー誤差関数は, と表される. 42
部分ラベルのためのスムージング 定義:ソフトマックス-クロスエントロピー誤差関数 任意の訓練データ(𝑥& , 𝑌& )におけるDNN𝑓の予測値を𝐟 𝑥& ∈ ℝ, とし,𝑗次元 めの要素を𝑓 / (𝑥& )とすると,ソフトマックス-クロスエントロピー誤差関数は, と表される. PLLでは,真のラベルは不明のため, 直接SCEを利用できない 43
部分ラベルのためのスムージング 定義:部分ラベルスムージング損失関数 任意の訓練データ(𝑥, 𝑌)において,ラベルスムージングされた部分ラベル 学習のためのソフトマックス-クロスエントロピー誤差関数は, と表される. 44
部分ラベルのためのスムージング 定義:部分ラベルスムージング損失関数 任意の訓練データ(𝑥, 𝑌)において,ラベルスムージングされた部分ラベル 学習のためのソフトマックス-クロスエントロピー誤差関数は, と表される. 期待リスクは, となる 45
部分ラベルのためのスムージング 定理:期待リスクの分解 PLLにおいてスムージングされた 𝒀,- における最小化期待リスクは,綺麗 なデータ上の未観測な正解ラベルにおける期待リスクと観測された部分 ラベルデータ上の候補ラベル𝐘における期待リスクに分解できる: 46
部分ラベルのためのスムージング 定理:期待リスクの分解 PLLにおいてスムージングされた 𝒀,- における最小化期待リスクは,綺麗 𝑟 → 0の時,綺麗なデータでの期待リスクに近似され, なデータ上の未観測な正解ラベルにおける期待リスクと観測された部分 𝑟 → 1の時,観測部分データでの期待リスクに近似される ラベルデータ上の候補ラベル𝐘における期待リスクに分解できる: 47
部分ラベルのためのスムージング 定義:PLLにおける⼀般化曖昧度(Generalized Ambiguity Degree) 分布ℙ(𝐗, 𝐘 ∗ , 𝐙)における一般化曖昧度𝜖は と表される. • 𝑍 = 𝑌 ∖ 𝑦, 𝑌 ⊆ 𝒴, 𝑍 ≥ 1とすると, § 𝜖 = 0の時,𝑍 = 𝜙となり,候補ラベル集合には正解クラスのみの多クラス分類になる § 𝜖 = 1の時,𝑍 = 𝒴 ∖ 𝑦となり,全てのクラスが候補ラベル集合に含まれる教師なし学習になる 48
部分ラベルのためのスムージング 定義:PLLにおける⼀般化曖昧度(Generalized Ambiguity Degree) 分布ℙ(𝐗, 𝐘 ∗ , 𝐙)における一般化曖昧度𝜖は と表される. • 𝑍 = 𝑌 ∖ 𝑦, 𝑌 ⊆ 𝒴, 𝑍 ≥正解クラスと同時に最も生じやすいクラス確率に一致 1とすると, 確率が大きいほど,曖昧度が高い § 𝜖 = 0の時,𝑍 = 𝜙となり,候補ラベル集合には正解クラスのみの多クラス分類になる § 𝜖 = 1の時,𝑍 = 𝒴 ∖ 𝑦となり,全てのクラスが候補ラベル集合に含まれる教師なし学習になる 49
LS-PLLアルゴリズム • モデルの学習と真のラベル推定を交互に行う § ソフトマックスで出力 § 移動平均で𝑞%' を更新 § 更新しても(0,1)に収まるように調整 50
実験 • 擬似的に候補ラベルを付与して,ラベルスムージングの効果検証 § 各データセットでNNを学習させて,真のラベル以外の確率が上位K個のラベルを利用 ü 1個以上,L-1以下で,一つのデータセットでの平均(#CL)に等しくなるように付与 51
実験 • 基本的にスムージングレートは高めの方がうまくいく § 多様体で綺麗に分離できている時が一番精度高い 52
まとめ • DNNにおける部分ラベル学習に対してラベルスムージングを適用する手法 § 期待リスクと一般化曖昧度を導入し,理論的・実験的に有効性を検証 ü 期待リスクのバウンドや推定誤差,最適スムージングレートなどについては省略 § 比較的現実的な問題設定になっており,手法もシンプルで分かりやすい ü 理論面・実験面の両側からバランスよく構成されている ü 大規模化のトレンドに流されすぎず,堅実な印象 53
Active Statistical Inference Tijana Zrnic Emmanuel J. Candès スタンフォード大学 ICML2024 Oral paper 54
背景 • 統計的推論をする際に,機械学習モデルをうまく取り入れたい § 予算の都合やデータ収集の手間などのせいで,高品質なデータ収集ができない § データが取れないと計算できない→機械学習モデルの予測結果を使えばいい 55
背景 • 統計的推論をする際に,機械学習モデルをうまく取り入れたい § 予算の都合やデータ収集の手間などのせいで,高品質なデータ収集ができない § データが取れないと計算できない→機械学習モデルの予測結果を使えばいい 信頼していいのか? 56
背景 • 統計的推論をする際に,機械学習モデルをうまく取り入れたい § 予算の都合やデータ収集の手間などのせいで,高品質なデータ収集ができない § データが取れないと計算できない→機械学習モデルの予測結果を使えばいい 信頼していいのか? • 能動学習を参考にした能動推論を行えば良い § モデルが確信しているところはそのまま使って,不確実なところだけデータを集める § もし同じサンプル数ならば,従来の推論よりも小さな信頼区間と強力なp値が得られる 57
問題設定 • 仮説検定や信頼区間形成を行いたい; § 未観測ラベルの分布に依存するパラメータ𝜃 ∗を推論 § 分布ℙ( からi.i.dでサンプルされた𝑋) , 𝑋* , … , 𝑋+ が観測されている ü 対応するラベル𝑌% は未観測 § パラメータ𝜃 ∗は,ℙ( ×ℙ,|( の関数と言える ü 例:サンプル平均(𝑋% に対応したラベル𝑌% の平均𝜃 ∗ = 𝔼[𝑌% ])の信頼区間の形成 § 予算𝑛. 内で一様ランダムな収集よりも推論を改善する𝑛/0. 個のラベル収集をする ü 𝔼 𝑛/0. ≤ 𝑛. ,通常𝑛. ≪ 𝑛 58
問題設定 • 予測モデル𝑓を使って二種類の設定を考える 1. Batch設定:学習済みの𝑓を使って,複数のデータのラベル収集の有無を同時に決定 2. Sequential設定:1データずつラベル収集の有無を決定しつつ,モデルも学習可能 • 能動推論は,全ての凸M推定に適用することが可能 § 全ての推論対象𝜃 ∗は,𝜃に対して凸である損失関数ℓ! を使って, と書ける 59
凸M推定問題の具体例 具体例1:ラベル平均 損失関数がℓ3 𝑥, 𝑦 = ) 4 𝑦 − 𝜃 4ならば,𝜃 ∗ = 𝔼[𝑌] 具体例2:線形回帰 損失関数がℓ3 𝑥, 𝑦 ) = 4 𝑦 − 𝑥 2𝜃 4ならば,𝜃 ∗ は重みパラメータ(効果) 具体例3:ラベル分位数 𝑞 ∈ (0,1)に対して損失関数がℓ3 𝑥, 𝑦 = 𝑞 𝑦 − 𝜃 1 𝑦 > 𝜃 + 1 − 𝑞 (𝜃 − 𝑦)1{𝑦 ≤ 𝜃}(ピンボール損失)ならば,𝜃 ∗ = inf{𝜃: ℙ 𝑌 ≤ 𝜃 ≥ 𝑞} 60
統計的推論:ラベル平均 1. 古典的な方法:機械学習を一切使わない § 予算𝑛. が与えられた時,適当にラベル付けを行う 61
統計的推論:ラベル平均 • 機械学習モデル𝒇(𝑿)を使って推論 § サンプリングルール 𝜋: 𝒳 → [0, 1]を設計し,𝑋% に確率𝜋(𝑋% )でラベル𝑌% を付与する ü 𝜋は,𝑓の不確実性を測って定める ü 𝜋(𝑥) ≈ 1:モデル𝑓は𝑥について全く確信がない ü 𝜋 𝑥 ≈ 0:モデル𝑓は𝑥について非常に確信がある § 𝜉% ∼ 𝐵𝑒𝑟𝑛(𝜋 𝑋% ):データ点𝑖のラベルを集めるかどうかのフラグ ü 𝑛/0. = ∑+%1) 𝜉% § 𝔼 𝑛/0. = 𝔼 𝜋 𝑋 ⋅ 𝑛 ≤ 𝑛. を必ず満たすようにルールは設定 62
統計的推論:ラベル平均 • 拡張逆確率重み付け推定量)[Robins+, 1994] (Augmented Inverse Propensity Weighting ; AIPW Estimator § モデルが間違った予測をする傾向スコア(処置確率)の逆数で重みづけ ü もしモデル𝑓が完璧(𝑓 𝑋 ≈ 𝑌)ならば, 63
統計的推論:ラベル平均 • 拡張逆確率重み付け推定量)[Robins+, 1994] (Augmented Inverse Propensity Weighting ; AIPW Estimator § モデルが間違った予測をする傾向スコア(処置確率)の逆数で重みづけ ü もしモデル𝑓が完璧(𝑓 𝑋 ≈ 𝑌)ならば, 𝑛= ≪ 𝑛のため,𝑉𝑎𝑟(𝜃h '>?, ) よりずっと小さい 64
統計的推論:ラベル平均 • サンプリングルール:モデル不確実性𝒖(𝒙)を用いて表現される § 回帰における不確実性 ü 𝑋% から|𝑓 𝑋% − 𝑌% |を予測するように𝑢(𝑥)を学習させる ü Batch設定:すでに過去のデータ X, 𝑌 がたくさんある ü Sequential設定:都度学習させる § 分類における不確実性 ü ソフトマックス出力をそのまま使う 65
実験 • アメリカ大統領選挙後の調査(バッチ設定) § 「バイデン(トランプ)の政治発言に対する人々の支持率」を測定 ü 支持:二値変数𝑌% ∈ {0, 1} ü 回答者:年齢/性別/教育/政治的所属などの属性情報をもつ成人国民 ü 属性情報から支持を予測するXGBoostを学習 66
実験 • アメリカ大統領選挙後の調査(バッチ設定) § 「バイデン(トランプ)の政治発言に対する人々の支持率」を測定 ü 支持:二値変数𝑌% ∈ {0, 1} 大きく信頼区間を狭められている ü 回答者:年齢/性別/教育/政治的所属などの属性情報をもつ成人国民 ü 属性情報から支持を予測するXGBoostを学習 67
実験 • アメリカ大統領選挙後の調査(バッチ設定) § 「バイデン(トランプ)の政治発言に対する人々の支持率」を測定 ü 支持:二値変数𝑌% ∈ {0, 1} 大きく信頼区間を狭められている 70-85%の予算を削っても 結果変わらず ü 回答者:年齢/性別/教育/政治的所属などの属性情報をもつ成人国民 ü 属性情報から支持を予測するXGBoostを学習 68
そのほかの実験 • 国勢調査 § 市民権,教育,収入,雇用に関する年次調査 § XGBoostで属性から収入を予測,収入と[年齢|性別]の線形回帰 • AlphaFoldを使ったプロテオミクス研究 § タンパク質の構造によって,リン酸化が変わるかオッズ比で分析 § AlphaFoldのタンパク質構造予測を100%信頼することができない • 選挙後/国勢調査のSequential設定 § データが溜まるたびに,XGBoostをfine-tuningする 69
全体まとめ • データに対するラベルづけの状況に応じた三種類の問題設定を紹介 § 大量のデータから有益なデータを見つける ü DSDM:Datamodelを用いて判断基準を推定する § 一つのデータに(正解を含んだ)複数ラベルが付与された部分ラベル学習 ü LS-PPL:ラベルスムージングを取り入れて学習を可能にする § 大量の教師なしデータから,ラベル付けするデータを選ぶ ü 能動推論:能動学習を参考に,より強力な統計的推論を行う 70
全体まとめ • Oral/Spotlightの中には,まだ他にもデータ周りの設定を扱う論文は多い § 半-弱教師あり学習での研究 § 実験計画法のような,そもそもデータ自体取れない研究 • 下記URLにまとめているので興味ある方はぜひ § https://arc.net/folder/20153736-9D81-4E01-8D5B-16AB14D7F2C9 • こういう実データの設定に興味ある方,是非お声掛けください! 71