[DL輪読会]Invariance Principle Meets Information Bottleneck for Out-of-Distribution Generalization

334 Views

January 14, 22

#deep learning #Deep Learning #論文紹介 #OOD汎化 #線形分類器 #IB-IRM

スライド概要

2022/01/14
Deep Learning JP:
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 90.7K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 67.4K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 61.1K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 49.4K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 47.1K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 46.9K

各ページのテキスト

論文紹介： DEEP LEARNING JP Invariance Principle Meets Information Bottleneck for Out-of[DL Papers] Distribution Generalization Ryosuke Ohashi, bestat inc. http://deeplearning.jp/

http://deeplearning.jp/

書誌情報 ◆ NeurIPS 2021 (2021年12月) spotlight 論文 ◆ ◆ https://openreview.net/forum?id=jlchsFOLfeF 概要 ◆ IRMで訓練した線形分類器がOOD汎化に失敗することがある理由を考察 ◆ 成功するための必要条件と，その条件下での解法IB-IRMを提案 2

https://openreview.net/forum?id=jlchsFOLfeF

論文の主結果 ◆ 線形分類の場合「サポートオーバーラップ条件」が満たされないとOOD汎化は保障されない ◆ 著者らの提案した「IB-IRM」を使うと，上記条件の下で線形分類のOOD汎化が保障される ◆ 「IB-IRM」ではIRM同様，線形回帰のOOD汎化も保障される ◆ 注：実際にはさらにいくつかテクニカルな条件を仮定しているので，表を鵜呑みにしないほうがよいかも 3

定式化：OOD汎化問題 ◆ OOD汎化問題 ◆ 複数の環境から得られた訓練データセットを用いて，それ以外の環境から得られるテストデータセット上でも上手く働く推定モデルを作りたい 4

定式化：データセットに対する仮定 ◆ 訓練・テストデータセットが，ある環境不変な線形SEM（構造方程式モデル）に従うことを仮定する ◆ ◆ 全く仮定なしだとOOD汎化に最大限失敗するテスト環境を（人為的にだが）作れてしまうまずは線形回帰・線形分類から，ということで線形性を仮定している 5

定式化：線形不変推定器 ◆ 入力データXの線形埋め込みΦと線形推定係数wからなる推定器ｗ・Φを考える ◆ ◆ S=idとは限らないので線形埋め込みΦも考えている損失関数として，回帰のときは二乗誤差，二項分類のときは0-1ロスを使い，OOD 汎化問題を解きたい 6

モチベーション：「特定環境固有の特徴」を無視したい ◆ ◆ ERM(経験的リスク最小化)だと，Z_spuがZ_invやYと高い相関を持つとき，Z_spuの回帰係数が0になってくれない（そのほうが訓練環境上でのリスクを下げやすいため） 7

定式化：IRM ◆ IRM (Arjovsky et al., 2019)では以下の目的関数を最小化する 8

定理：線形回帰の場合の汎化定理 ◆ ◆ 定理（informal）[Arjovsky et al., 2019] 線形回帰の場合，|E_tr|>2dかつE_trに属する環境達が「一般の位置関係」にあるとき，Rank(Φ)>0を満たすIRMの最適解があれば，それはE_allにOOD汎化する 9

10.

モチベーション：線形二項分類の場合 ◆ 線形回帰では「データを平面に乗せ」ることを目指すが，線形二項分類では「データを平面で上手く分離」するので，事情がやや異なってくる ◆ ◆ 不変な特徴にしか依存しない分離器をちょっとだけ特定環境固有の特徴に依存するようにしてもIRMの拘束条件を満たし続ける（⇒追加の拘束条件？）分類境界付近に未知のテスト環境の不変特徴が分布しているようだと困るはず（⇒追加の必要条件？） 10

11.

追加の拘束条件：IB ◆ 情報ボトルネック(IB) ◆ ◆ Xをなるべく圧縮しつつ，Yについての情報はなるべく残す（というトレードオフをコントロールする方法） IB-IRMのアイデア ◆ IRMだけだとZ_invだけでなく，Z_spuを「ちょっと使ってもよい」が，Z_invだけ使ったほうがYについての情報量そのままで圧縮率が上がる ◆ 実装上は，Φ(X)のエントロピー最小化の代理としてVariance(Φ(X))を最小化することを提案 11

12.

定理：線形二項分類の場合の必要条件，汎化定理 ◆ 不変特徴のサポートオーバーラップ条件： ◆ （特定環境固有の特徴についても同様） 12

13.

実験結果 ◆ 定理と整合性のある実験結果も得られている 13

14.

まとめ，感想 ◆ ◆ まとめ ◆ 線形分類タスクでのOOD汎化保障の必要条件を示した ◆ 上記条件の下でOOD汎化問題を解くことができる手法「IB-IRM」を提案 ◆ いくつかの小規模なデータセットで効果を実証した感想 ◆ ◆ 理論を厳密には追えてないが，直観的にも納得感のある主結果で，線形推定の場合のIRMの理論的見通しがついた感じがするとは言え，応用上はまだまだこれからだと思うので，トイサンプルや実務データなどで試しながら関連研究をフォローしていきたい 14

15.

雑記 ◆ 応用上気になる点 ⚫ ⚫ トイ環境ですらIRMの拘束条件の最適化が難しい（Φの初期値次第でlocal minimaに詰まってしまうし，ハイパラ調整もシビアな感じ）入力の次元が高くて（画像とか）Φを非線形にせざるを得ないとき，Φが訓練環境達をある不変な線形SEM にマップできていても，テスト環境でもそこにマップしてくれるとは限らない気がする ⚫ ◆ 自己教師ありで表現学習してからIRMをくっつける，みたいなことをやるとどうか？続けて読みたい論文 ⚫ [Rosenfield et al., ICLR 2021] The risks of invariant risk minimization. 15