202 Views
August 04, 23
スライド概要
2023/8/4
Deep Learning JP
http://deeplearning.jp/seminar-2/
DL輪読会資料
DEEP LEARNING JP [DL Papers] Gouki Minegishi, Matsuo Lab M1 http://deeplearning.jp/ 1
書誌情報 題名:Can Neural Network Memorization Be Localized? 所属:Carnegie Mellon University, Google 採録:ICML2023 概要 Ø サンプル記憶は特定のモデルの層に局在せず、層を跨いだ少数ニューロンに分散している Ø そのニューロンの特定⽅法を提案 2
背景 • 記憶と汎化 – DNNは訓練データにランダムラベルが⼊っていてもある程度汎化する[5] Ø Overparametrized NNは最後のいくつかの層で難しいサンプルを記憶している Ø 浅い層ではデータの⼤多数に共通するような特徴量を学習している • 応⽤例(セキュリティ、プライバシー) – 学習済みLLMから訓練データを抽出する – 出⼒の活性値から訓練データを再構成する ネットワークのどこに記憶されているのか? 3
関連研究[1] • Prediction depth – 各層のembeddingをKNN分類する – 最初の⽅では簡単なデータのAccが⾼い、最終層付近で難しいデータ(ミスラベル)のAccが ⾼い – 学習の初めの⽅で簡単なサンプルを学習し、後半で難しいサンプルを学習している 4
関連研究[2,3] • タスク特化ニューロン – Noisy dataがあるデータセットでの学習ではスパース性 のバイアスを⼊れるとnoiseに過学習しなくなる • ニューロンの書き換えによるモデルの修正 – GPTの中のニューロンで何かのfactに対応するニューロ ンの特定 5
貢献 • 本当に最終層がサンプル記憶に貢献しているのか? – Gradient accounting – Layer rewinding – Layer retraining • 記憶はモデルのどこに位置しているのか? – How many neurons does it take to predict an example? – Example-Tied Dropout 6
実験 | Gradient accounting 15~20 epoch • データセット – 𝑆 = 𝑆! ∪ 𝑆" = 𝑥# , 𝑦# " , clean data(90%) 𝑆! , noisy data(10%) 𝑆" – noisy dataは正解ラベル以外をランダムにつける • 勾配ノルム – clean, noisyそれぞれに対して各層の勾配のノルムをみる !"($$ ,&) !(% ) , !"($& ,&) !(% ) Ø noisy dataはどこかの層で学習されてるわけではない Ø ただニューロン単位ではわからない Ø noisy dataはclean dataの1桁近く⼤きく影響を与える • 勾配類似度 – 2つのデータの勾配の類似度を計算 Ø cleanとnoisyはレイヤーレベルで互いに学習の邪魔をしている Ø 3~20epochくらいでnoisy data を学習している 7
実験 | Layer Rewinding • ある層の重みを巻き戻す &$ θ"# , … , θ&% , … , θ#$ ℱ! θ"# , … , θ#$ → ℱ • 最終層を20epoch以下に戻してもあまり変わらない Ø 最終層付近で記憶しているわけではない Ø サンプル記憶は層を跨いで⾏われている 8
実験 | Layer Retraining • ある層の重みを再学習 &$ θ"# , … , θ'% , … , θ#$ → ℱ &$ θ"# , … , θ&#% , … , θ#$ ℱ! θ"# , … , θ#$ → ℱ • Noisy dataも⾼いaccuracy Ø 他の層にもnoisy dataの情報が含まれている • ⼀部の層では低い Ø 記憶に重要な層 Ø 同様の極⼩値に辿り着かなかった 9
実験 | How many neurons to predict ? • (𝑥( , 𝑦( )に対してcriticalなneuron – これを出⼒を0にし、予測がflipするまで繰り返す • Flipに必要なニューロン数 Ø 少量のニューロンのサブセットがnoisy dataの記憶を担う • ニューロンを削った時の他のクラスの精度 Ø Noisy dataを記憶しているニューロンは他のクラス分類に影響を与えづらい • 層ごとのcriticalなneuronの数 Ø 偏りはあるがあらゆる層にまたがっている 10
実験 | Example-Tied Dropout 𝑝)*+ : 汎⽤的なニューロン 𝑝,*, : 特定のサンプルの記憶ニューロン • Test時にnoisy data記憶ニューロンの出⼒を0 Ø clean dataにほぼ影響を与えずnoisyだけ精度が落ちる Ø 𝑝!"# の割合が増え、汎化性能の向上 • なぜclean dataも忘れてしまうのか Ø clean dataの中にもミスラベルのようなデータが 含まれていた 11
Atypical Example • 通常のデータセットでも⾮典型的な データが存在する[3] – MNISTで5000枚くらい • Atypical Exampleでもnoisy dataと 同様の結果 12
まとめ • サンプルの記憶はネットワークあらゆる層に散らばっている • ⼀部のニューロン群がサンプルの記憶を担っている • 推論時そのニューロンの出⼒を消すことでそのサンプルに対しての記憶を消すこ とができる 13
参考⽂献 [1] Baldock, Robert, Hartmut Maennel, and Behnam Neyshabur. "Deep learning through the lens of example difficulty." Advances in Neural Information Processing Systems 34 (2021) [2] Meng, Kevin, et al. "Locating and editing factual associations in GPT." Advances in Neural Information Processing Systems 35 (2022) [3] Liu, Sheng, et al. "Robust training under label noise by overparameterization." International Conference on Machine Learning. PMLR, 2022. [4] Jiang, Ziheng, et al. "Characterizing structural regularities of labeled data in overparameterized models." arXiv preprint arXiv:2002.03206 (2020). [5] Zhang, Chiyuan, et al. "Understanding deep learning (still) requires rethinking generalization." Communications of the ACM 64.3 (2021) 14
15