>100 Views
May 27, 22
スライド概要
2022/05/27
Deep Learning JP:
http://deeplearning.jp/seminar-2/
DL輪読会資料
DEEP LEARNING JP [DL Papers] Which Shortcut Cues Will DNNs Choose? A Study from the Parameter-Space Perspective 発表者:篠田一聡(東大) http://deeplearning.jp/ 1
書誌情報 ICLR2022 (poster) 発表理由:bias, shortcut に興味 ※図は全て論文から抜粋
概要 背景 • 例えば鳥画像の分類で、鳥ではなく背景 (shortcut)を利用して 予測してしまう。 • = Shortcut Learning 明らかにしたいこと • 複数の shortcut (色、形など) が同等に予測に使える時、モデ ルはどの shortcut を優先して利用するか?それはどうしてか?
WCST-MLという実験設定を提案 • 訓練時は対角線上のデータのみを使う。 • テスト時に対角線上にないデータを使うと、モデルが利用している cue が明らかになる
WCST-MLという実験設定を提案 • テスト時は、各データの色、形、サイズのどれかを正解ラベルにした時の精度を見る • 精度が高い=そのcueを利用している、精度が低い=そのcueを利用していない
実験設定 • データセット • Dsprites • 三角や四角などの記号的な画像 • Cue: 色、サイズ、形、方向 • UTKFace • いろいろな民族・性別・年齢の人の顔画像 • Cue: 民族、年齢、性別 • モデル • FFnet, ResNet20, ViT
実験結果 テストセットの画像のラベルを 変えて精度を比較 わかったこと • Dsprites…色>サイズ>形>方向 • UTKFace…民族>性別>年齢 • の順に使われやすい color: 右図の画像のラベルを 色とした時の分類精度
なぜこの順番に使われやすいのか? ①cueが使われやすいほどロス関数は平坦 (→ここに収束しやすい?) 可視化の手順 いずれかのcueを正解ラベル にしたデータセットで訓練 →そのcueを利用するモデルが得られる →パラメータ空間上でそのモデルの周辺 での、対角線上のデータでのロス関数を 可視化
ある cue を使う solution はパラメータ空間上で どれくらい存在しているのか? =色・民族を使うsolutionが多い
なぜこの順番に使われやすいのか? ②コルモゴロフ複雑度が低いcueから順番に使われやすい傾向 ≒使われやすいcueは、少ないパラメータ数のモデルで十分に予 測可能 Cue:予測に必要なパラメータ数(ResNet20) • 色:1.2K • サイズ:4.6K • 形:17.6K • 方向:>273K
“The simplicity bias leads to shortcuts.” • DNN が表現可能な関数のほとんどがシンプルな関数 • =simplicity bias • f: 関数, p(f): 関数が DNN で表現される尤度, a>0 • コルモゴロフ複雑度 K(f)が小さい=シンプルな f が分布の多くを占めている (VallePerez et al., 2019) • そもそもDNNはシンプルな関数を表現していることが多い (simplicity bias) ので、方向など複雑な cue よりも、色などの単純な cue を利用する DNNがパラメータ空間に多く存在していると言える。 • IIDな設定では simplicity bias のおかげでよく汎化できるが、OODな設定 では逆効果
まとめ • 同等に予測に使える情報が複数ある時、DNNのアーキテクチャによらず、色や 民族情報が優先してDNNに使われる傾向 • 使われやすいcueほど • そのcueを使うモデルの近辺のロス関数がフラット • パラメータ空間上でそのcueを使うモデルが多く存在している • コルモゴロフ複雑度の観点で単純 • Simplicity biasとの関連について議論 感想 • 面白い分析だが、これらの知見をどう応用に生かしていけばいい? • ドメイン適応と、shortcutやbiasの問題は似ている?何が違う?