2.8K Views
August 01, 24
スライド概要
DL輪読会資料
DEEP LEARNING JP In-Context Unlearning: Language Models as Few Shot Unlearners [DL Papers] 高城 頌太(東京大学 工学系研究科 松尾研 D1) http://deeplearning.jp/ 1
自己紹介 髙城頌太(東京 ⾨学⾨学院⾨学系研究科 松尾研究室 博士1年) 経歴 2019年3⾔奈良⾔業⾔等専⾔学校 情報⾔学科 修了 2022年3⾔⾔阪⾔学 基礎⾔学部 システム化学科 修了 2022年4⾔〜東京⾔学⾔学系研究科 技術経営戦略学専攻 インターン等 Sony ML R&D intern DeNA backend intern Recruit Data Specialist Intern SanSan Intern 専⾨分野 ⾔規模⾔語モデル,強化学習,ロボティックス その他の活動 「Deep Learning基礎講座」「深層強化学習スプリングセミナー」「⾔規模⾔語モデルサマー スクール」などの講師・TA担当 2
書誌情報 タイトル: In-Context Unlearning: Language Models as Few Shot Unlearners https://icml.cc/virtual/2024/poster/34503 ICML 2024 Poster 著者: Martin Pawelczyk · Seth Neel · Himabindu Lakkaraju Harvard University, US 概要: ブラックボックスモデルにおけるアンラーニング手法 3
大規模言語モデルにおけるアンラーニング • 大規模言語モデルにおいて学習データに意図せず個人情報などのプライバシーデータ が含まれてしまう可能性がある • アンラーニングではプライバシーデータなどの特定の知識をモデル学習後に忘れさせ ることを目的にしている 4
既存のアンラーニング手法 : Gradient Ascent • 負の対数尤度の最大化を行うことでアンラーニングを行う Paris Madrid LLM LLM Where would you find the Eiffel Tower? Where would you find the Eiffel Tower? 5
ブラックボックスモデルにおけるアンラーニング • オープンモデルにおいては既存のアンラーニング手法を用いることができるが,API提 供されているようなブラックボックスなモデルに対してはサービス提供者が対応しない 限り不可能 6
提案手法 : In-Context Unlearning • モデルのアップデートなしでアンラーニングする手法を提案 • 忘れさせたデータの出力を反転させてコンテキストに追加 7
実験設定 Dataset: SST2, Amazon polarity, AG News LLM: Bloom(560M, 1.1B, 3B, 7.1B) Methods: - Baseline(not unlearning) - Gradient ascent(1 epoch, lr={5 · 10−5 , 3 · 10−5 , 1 · 10−5}) - ICUL 8
アンラーニングの有効性の検証方法 : LiRA(Likelihood Ratio Attack) • 機械学習におけるメンバーシップ推論攻撃(Membership Inference Attack)の一種で、 モデルが特定のデータポイントについて学習したかどうかを推定するために用いられる • これをアンラーニング用に修正したものがLiRA-forgot • 方法 1. train dataをsubsetに分割 2. shadow modelの作成 3. 以下のLiRA-forgot statisticを用いて尤度比を計算 4. 閾値を設定し,あるデータが学習に使用されたかを判定 l: loss function, f: model, S: train set, Sf: forgot set, u: unlearning method 9
実験結果 : モデルの大きさによる違い 10
実験結果 : forget setのサイズによる違い 11
実験結果 : クラス分類以外での評価 • QAデータセットのSQuAD datasetを用いて評価 12
まとめ & 感想 • ブラックボックスモデルにおけるアンラーニング手法である,In-Context Unlearningを 提案 • LiRA-forgetという評価指標を提案しアンラーニング手法の有効性を検証 感想 • 実用上使用する場面はシステムプロンプトに追記していく形? – その場合はプライバシーデータを毎回API経由で送信することになるのか • 忘れさせたいデータの限界値がコンテキストサイズ依存になりそう • 単一のデータポイントだけでなく概念レベルの削除はできるのか – 電話番号は全て忘れるなど • そもそもIn-Contextでのアンラーニングは忘れたと言えるのか – 内部挙動の分析が必要になる 13
Thank you. 14