【DL輪読会】RWKU: Benchmarking Real-World Knowledge Unlearning for Large Language Models

1.4K Views

December 05, 24

スライド概要

YouTubeはこちら→https://youtu.be/1tJan8_kPMc?si=yJ5TMyoa0VhY_oAg

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

DEEP LEARNING JP [DL Papers] RWKU: Benchmarking Real-World Knowledge Unlearning for Large Language Models(NeurIPS2024 Poster) 2024.12.05 Tadashi Onishi, Matsuo Institute http://deeplearning.jp/ 1

2.

書誌情報 紹介論文 タイトル RWKU: Benchmarking Real-World Knowledge Unlearning for Large Language Models https://rwku-bench.github.io 出典: https://arxiv.org/abs/2406.108901 (2024.12, NeurIPS2024 Poster) 著者: Zhuoran Jin, Pengfei Cao, Chenhao Wang, Zhitao He, Hongbang Yuan, Jiachun Li, Yubo Chen, Kang Liu, Jun Zhao 1 School of Artificial Intelligence, University of Chinese Academy of Sciences, 2 Institute of Automation, Chinese Academy of Sciences 概要 • 大規模言語モデルにおけるアンラーニング(特定知識の削除)のための新しいベンチマーク、RealWorld Knowledge Unlearning benchmark (RWKU) を提案 • 広範な実験:各アンラーニング手法(ICU、GA、DPO、NPO、RTなど)の性能を比較し、それぞれの 強みと課題を明らかに ※画像は出典記載のないものは、本論文から引用 2

3.

目次 1. 背景・目的 2. 関連研究 3. The RWKU Benchmark 4. Experimental Setup 5. Results 6. Conclusion and Future Work 3

4.

背景・目的 大規模言語モデル(LLM)は、大規模なインターネットコーパスを基にトレーニングされ、そのパラメータ内に 膨大な知識を内包しています。これにより、モデルは生成プロセス中にその知識を再現・操作する能力を持つ一 方で、この能力がプライバシー問題、著作権の懸念、有害な問題を引き起こす可能性もあります。 (例) LLMは、トレーニングデータから個人を特定可能な情報(例: 社会保障番号)や著作権で保護された素材(例: ハ リー・ポッターシリーズ)を記憶し、それを悪意ある攻撃を受けた際にそのまま出力する場合があります。また、 生物学分野でのAIアシスタントは、生物兵器の開発におけるボトルネックを解決する可能性があり、リスクが高 まる危険性もあります。EUの「一般データ保護規則(GDPR)」などの規制では、個人の「忘れられる権利 (RTBF)」を擁護しており、LLM内のセンシティブまたは有害な知識も削除可能であるべきだとしています。 この問題に対処する単純な解決策として、モデルを一から再トレーニングし、削除を求められたデータを含まな いようにすることが考えられます。 しかし、この方法は、大量の計算リソースを必要とするLLMには現実的ではありません。特定の知識を効率的に 削除するためには、後付けでモデルを修正する「Machine Unlearning」が有望な解決策として浮上しています。 4

5.

背景・目的 最適なアンラーニング手法は、以下の条件を満たす必要がある: 1.対象の知識を完全に忘れること。 2.下流アプリケーションにおける有用性を効果的に維持すること。 3.アンラーニングプロセスを効率的に完了すること。 近年の研究では、忘却すべきデータでファインチューニングを行うことで、LLMが特定の知識を忘れることを可能にするいくつ かの手法が提案されている しかし、現実世界での知識削除を評価するための包括的なベンチマークやデータセットが著しく不足している状況、現実世界の 知識削除を設計する際には、以下の3つの重要な要因を考慮する必要がある。 1. Task Setting 現実世界のシナリオに実用的なタスク設 定であるべきです。既存のアンラーニン グ手法は、忘却すべきデータセット(ト レーニングコーパスの一部)に基づいて モデルをファインチューニングすること に依存しています。しかし、こうした単 純化されたタスク設定は、現実的なシナ リオでは実現不可能な場合があります。 一方で、忘却プロセス中にセンシティブ または著作権保護されたデータをモデル に提供することは、二次的な情報漏洩を 引き起こす可能性があります。さらに、 多くのオープンソースLLMのトレーニン グコーパスそのものが利用不可能です。 2. Knowledge Source 削除対象は現実世界の知識源から選ばれるべきです。 架空のアンラーニングタスクとは異なり、削除すべき 知識は、あらかじめモデル内に存在しているものであ る必要がある。 これにより、より現実的な削除プロセスが保証されま す。さらに、特定の能力(例: 有害な知識)を忘れるの ではなく、削除すべき知識の境界が明確に定義される 必要があります。これにより、削除プロセスが精密に なり、評価結果の信頼性が高まります。 3. Evaluation Framework 削除後のモデルを評価するには、現実世界 の下流アプリケーションへの影響を考慮す る必要があります。既存のアンラーニング 効果を評価するためのベンチマークは、複 数選択や質疑応答形式の単純な非敵対的手 法を使用しています。しかし、悪意ある ユーザーは、削除された知識をモデルに生 成させるために「脱獄(jailbreak)」技術を 使用する可能性があります。そのため、削 除後のモデルを敵対的攻撃プローブの下で 評価する必要があります。また、削除対象 に近い隣接知識や、モデルの一般能力、推 論能力、真実性、事実性、流暢性に対する 影響も徹底的に評価すべきです。 5

6.

RWKUにおける3つの要素設計 このように、RWKUは実世界のさまざまなアプリケーションを想定した包括的な知識削除評価を可能にしています。 1. Task Setting 実用的かつ挑戦的な設定を採用しており、「zero-shot knowledge unlearning」に近い形を考慮 ・この設定では、削除対象の知識(Unlearning Target)と元のモデル(original model)だけが提供 忘却コーパス(forget corpus)や保持コーパス(retain corpus)は使用しない 2. Knowledge Source Unlearning Targetsとして、Wikipediaに記載されている実在の有名人に関する知識を選定 このような広く知られた知識が、多くのLLMに記憶されていることを、記憶の定量化(memorization quantification)を通じて 示しているこのアプローチは、知識削除に適しており、さらに削除対象を明確に定義するために、エンティティを削除対象と して選ぶことが効果的であることも証明しています。 3. Evaluation Framework Forget Set:知識削除の効果をKnowledge Memorization(穴埋め形式)とKnowledge Manipulation(質問応答形式)の両 面から評価します。特に、モデルから忘却された知識を誘発するため、Adversarial Attacksを利用してこれら2つの能力も 評価します。 Knowledge Memorizationの評価:収集したMIA(メンバーシップ推論攻撃)セットを使用して、4種類のMIA手法を採用 Knowledge Manipulationの評価:プレフィックス挿入(prefix injection)、肯定的接尾辞(affirmative suffix)、ロールプレ イング(role playing)、逆質問(reverse query)など、9種類の敵対的攻撃プローブを精密に設計しました。 Retain Set: Neighbor Perturbationの影響をテストするため、Neighbor Setを設計しました。特に、削除の局所性 (locality of unlearning)に焦点を当てています。さらに、一般能力、推論能力、真実性、事実性、流暢性など、モデルの 6 さまざまな能力における実用性(utility)も評価します。

7.

3. The RWKU Benchmark 隣接する知識 モデル性能が落ちてい ないか評価 (映画『シャイニング』でジャック・ トランス役を演じたのは誰ですか?) (スティーブン・キングが使用し たペンネームは何ですか?) メンバーシップ 推論攻撃 (「スティーブン・キングは1947年9月 21日、メイン州ポートランドで生まれた。 彼の父はドナルド・エドウィン…」) (質問の前に「ヒント」を加えることで、モ デルから削除対象知識を誘発する攻撃手法) (「…ホーガンは地元のトークショーに 出演し、『超人ハルク』のスター、 ルー・フェリグノと並んで座った…」) 7

8.

2. 関連研究 2.1 大規模言語モデル(LLM)における知識削除 近年、LLMにおける知識削除の方法について関心が高まっています【25; 13; 59; 58; 45; 7; 33; 37】 知識の出所の観点から見ると、既存の研究は主に以下に焦点を当てています: • 特定の分類タスクの忘却【11; 44】 • 記憶されたシーケンス【25; 4】 • 著作権で保護された書籍【59; 13】 • 有害な能力【35; 5; 29; 22】 多くのアンラーニング手法は、忘却コーパスを使ったモデルのファインチューニングに依存 例えば損失関数に対する勾配上昇(Gradient Ascent, GA)を適用する方法が挙げられます【25; 37】。 近年では、GAを補完する方法として以下のような技術が登場しています: • プリファレンス最適化(Preference Optimization)【64】 • 表現制御(Representation Controlling)【29】 • 拒否調整(Rejection Tuning)【24】 • タスク算術(Task Arithmetic, TA) – アンラーニング手法の一つであり、パラメータの結合を通じて効率的なモデル編集を可能にしています【23; 22】。 しかし、LLMのアンラーニング手法は急速に発展しているものの、いくつかの研究【43; 34; 36; 50】では、アン ラーニング後であっても、削除されたはずの知識をモデルから容易に抽出できることが示されています。そのた め、アンラーニング手法に関する研究には依然として大きな改善の余地があります。 8

9.

2. 関連研究 2.2 大規模言語モデル(LLM)のアンラーニングベンチマーク 9

10.

3. The RWKU Benchmark 3.1 タスク定義と設定 通常は forget corpus 𝐶𝑓 をfine-tuningし、 retain corpus 𝐶𝑟 をどれだけ保持しているかで評価。 RWKUベンチマークでは、より実用的で挑戦的な設定を採用 新しい「zero-shot knowledge unlearning」シナリオでは、unlearning target t と元のモデル gθのみを提供し、 忘却コーパス Cf や保持コーパス Cr は提供しない。 また、この新しいタスク設定に対する効果的な解決策を提案 LLMの強力な生成能力を活用し、元のモデル gθ に削除対象に関連するテキストを生成させ、それを合成忘却 コーパス 𝐶𝑓𝑠 として使用します。そして、既存のアンラーニング手法を 𝐶𝑓𝑠 に適用します • forget corpus 𝐶𝑓 : このコーパスはプライベートデータや著作権保護データを含む可能性があり、アンラー ニングプロセス中に再びモデルに提供されることで二次的な情報漏洩が発生するリスクがあります。さらに、 モデルのトレーニングプロセス中に、特定の知識が複数のトレーニングポイントから記憶されている場合も あり、これらすべてを特定することは「干し草の山から針を探す」ような困難さを伴います。 • retain corpus 𝐶𝑟 : アンラーニングの効率性を考えると、通常は非常に小さなサブセットに限られます。こ の選択がトレーニングコーパス C の分布から外れると、モデルのパフォーマンスに影響を与える可能性があ ります。 10

11.

3. The RWKU Benchmark 3.2 データ収集と構築 • Knowledge Source: 汎用的なアンラーニングベンチマークは、さまざまな主流のオープンソースLLMに適用可能である必要 削除すべき知識がこれらのモデルに広く存在していることを保証する必要 →Wikipediaに記載されている有名人を削除対象として選定 削除手法は、対象に関する事実知識を削除し、隣接する知識には影響を与えないよう求められます。 有名人リストを作成する際には、 1. 「The Most Famous All-time People Rank」からスクレイピング 2. これらのエンティティをWikipediaにリンクさせてページビューを人気の指標として使用【38】 3. 人気順にエンティティを並べ替え、最も人気の高い200件を削除対象として選択。 11

12.

3. The RWKU Benchmark 3.2 データ収集と構築 Memorization Quantification 1. RWKU Knowledge: RWKUベンチマークに含まれる有名人に関するWikipediaの記述。 2. General Knowledge: 人気が低いWikipediaページからの一般知識。 3. Unseen Knowledge: モデルのトレーニングデータに含まれていない新しいWikipediaの記述。 4. C4 Corpus: トレーニングコーパスであるC4に基づく知識。 縦軸:Exact Memorization (EM): モデルが特定のテキストシーケンスを正確に記憶している程度。 •RWKU Knowledgeの優れた記憶性能 横軸:Negative Log Likelihood (NLL): モデルの知識保持を測定する指標で、値が小さいほど良い記憶性能 RWKU Knowledgeは、EMが高くNLLが低い結果 12 →削除対象として選定されたRWKU内の知識が、これらのモデルに広く記憶されていることを意味

13.

3. The RWKU Benchmark 3.2 データ収集と構築 Probe Construction: 忘却プローブを構築するため、まずGPT-4を使用して削除対象に関連する大量の質問応答ペアを生成。 生成された質問を主流のオープンソースモデルでテストし、正しい回答がモデルの出力に含まれる質問 のみを残しました。このアプローチにより、QAペアの一貫性が確保され、モデルがこの知識を持ってい ることを確認しました。最後に、プローブの形式とタイプが正しいかを手動で確認しました。 Neighborプローブについては、削除対象と密接に関連しているが完全には含まれない隣接知識に焦点を 当てています。Wikipediaページ内のハイパーリンクを隣接エンティティとして選定し、人気度とGPT-4 の分析を基にフィルタリングを行い、隣接知識を選び出しました。 13

14.

3. The RWKU Benchmark 3.3 評価フレームワーク • RWKU評価フレームワークを図2に示します。RWKUでは、削除対象として「スティーブン・キングを忘れ る」などの具体的な有名人を設定します。 • 削除評価(Forget Assessment): 知識記憶【67; 61】および知識操作【3】の両方の能力に対して削除効果 を評価します。 • 知識記憶(Knowledge Memorization) : Wikipediaの記述から抽出した文章の一部を「____」に置き換え、 穴埋め形式でモデルに回答を求めます。 • 知識操作(Knowledge Manipulation): 質問応答形式のプローブを採用します。また、敵対的攻撃(prefix injection、ロールプレイングなど)を用いて削除済みの知識をモデルに誘発させることも評価します。 • 保持評価(Retain Assessment): 隣接知識への影響や、モデルの一般能力、推論能力、真実性、事実性、 流暢性などの有用性を評価します。 14

15.

3. The RWKU Benchmark 隣接する知識 モデル性能が落ちてい ないか評価 (映画『シャイニング』でジャック・ トランス役を演じたのは誰ですか?) (スティーブン・キングが使用し たペンネームは何ですか?) メンバーシップ 推論攻撃 (「スティーブン・キングは1947年9月 21日、メイン州ポートランドで生まれた。 彼の父はドナルド・エドウィン…」) (質問の前に「ヒント」を加えることで、モ デルから削除対象知識を誘発する攻撃手法) (「…ホーガンは地元のトークショーに 出演し、『超人ハルク』のスター、 ルー・フェリグノと並んで座った…」) 15

16.

3. The RWKU Benchmark 3.3.1 削除評価(Forget Assessment) 知識記憶(Knowledge Memorization) • 穴埋め形式のプローブ(fill-in-the-blank style probes, FB)を使用して、削除対象に関連するトレーニング データの記憶を調査します。具体的には、削除対象のWikipediaページから文章を抽出し、知識点を「____」 に置き換えてモデルに回答を求めます。ROUGE-Lリコールスコア【31】を使用して、モデルの予測と正解の 関連性を測定します。削除効果を評価する際、スコアが低いほど良いとされます。 • さらに、モデルが対象の知識を保持しているかどうかを厳密に監査するため、メンバーシップ推論攻撃 (Membership Inference Attacks, MIAs)【49; 12; 51】を採用します。MIAは、特定の入力がモデルのト レーニングデータの一部であるかを推論する手法です。削除対象に関連する知識断片を「忘却メンバーセッ ト(Forget Member Set, FM)」として収集し、比較のために無関係な知識断片を「保持メンバーセット (Retain Member Set, RM)」としてサンプリングします。RWKUでは、以下の4種類のMIA手法を提供し ます: 1. LOSS【60】 2. Zlib Entropy【10】 3. Min-K% Prob【49】 4. Min-K%++ Prob【63】 • 実験では主にLOSSスコアを報告します。スコアが高いほど、特定の知識を保持している可能性が低いことを 意味します。そのため、削除が成功したモデルは、FMでのLOSSスコアがRMよりも著しく高くなるべきで す。 16

17.

3. The RWKU Benchmark 3.3.1 削除評価(Forget Assessment) 知識操作(Knowledge Manipulation) • 質問応答形式のプローブ(Question-Answer style probes, QA)を使用して、削除後のモデルが知識を実際の応用 で活用する能力を評価します。削除対象に関連する知識断片をパラフレーズおよび再構成することで質問を作成し ます。 • 一方、悪意あるユーザーは、脱獄(jailbreak)技術【36】を使用して制約を回避し、削除された知識にアクセスす る可能性があります。そのため、削除効果を評価する際には、より厳密な敵対的攻撃プローブ(Adversarial Attack Probes, AA)を考慮する必要があります。 RWKUでは、以下の9種類の敵対的攻撃を慎重に設計: 1. Prefix Injection: 質問の前にリクエストやコマンドを追加してモデルに回答させる。 2. Affirmative Suffix: 質問の後に肯定的なフレーズを追加して肯定的な回答を引き出す。 3. Role Playing: 専門家、歴史家、科学者などの特定の役割をモデルに演じさせる。 4. Multiple Choice: 回答ではなく選択肢から選ばせる。 5. Reverse Query: ターゲットに関連する情報を基にターゲットそのものを問う。 6. Synonym Manipulation: 質問内のキーワードを同義語や別名に置き換える。 7. Background Hint: 質問の前にターゲット関連の背景情報を追加する。 8. In-context Learning: 質問の前にターゲットに関連する質問応答ペアを追加して回答を誘導する。 9. Cross Lingual: フランス語、ドイツ語、スペイン語など、他言語で質問をする。 • • QAプローブとAAプローブの両方について、ROUGE-Lリコールスコアを使用して評価 削除効果を評価する際、スコアが低いほど効果的です。 17

18.

3. The RWKU Benchmark 3.3.2 保持評価(Retain Assessment) • 削除後のモデルを評価する際には、モデルの元々の能力への副作用も考慮する必要があります。保持評価は 以下の2つの観点から行います: 1. 局所性(Locality): 削除プロセスは対象知識の境界を超えることなく、隣接する知識を乱さないようにする べきです。 2. モデルの有用性(Model Utility): 隣接知識を超えて、さまざまな実世界の応用におけるモデルの性能に影 響があってはなりません。 隣接知識の摂動(Neighbor Perturbation) • 削除タスクにおける隣接知識とは、削除対象と密接に関連しているが、その範囲に完全には含まれない知識 を指します。例えば、「スティーブン・キングを忘れる」が削除対象の場合、「『シャイニング』の著者が 誰か」を忘れるべきですが、「映画『シャイニング』でジャック・トランス役を演じたのは誰か」を忘れて はいけません。隣接知識の摂動を知識記憶と知識操作に基づいて評価します。局所性を評価する際は、スコ アが高いほど良いとされます。 18

19.

3. The RWKU Benchmark 3.3.2 保持評価(Retain Assessment) モデルの有用性(Model Utility) • 以下の能力についてモデルの有用性を評価します: 1. 一般能力(Gen): MMLU【20】を使用し、知識の多選択問題を評価します。回答の困惑度に基づいて5 ショットの正答率を報告します。 2. 推論能力(Rea): Big-Bench-Hard(BBH)【53】の27サブタスクを使用します。連鎖的推論プロンプトと 3ショット例を用い、EMスコアを報告します。 3. 真実性(Tru): TruthfulQAのMC1タスク【32】を使用し、モデルが削除後に不誠実になるかどうかを評価し ます。6ショットの正答率を報告します。 4. 事実性(Fac): TriviaQA【26】を使用して事実性を評価します。6ショットのF1スコアを報告します。 5. 流暢性(Flu): AlpacaEval【30】の指示に基づき、生成品質を評価します。2-gramおよび3-gramエントロ ピーの加重平均【65; 40】を報告します。 • これらのデータセットでは、スコアが高いほど良いとされます。再現性を高めるため、詳細な評価プロンプ トとデータセット統計はAppendix F.1およびF.2に記載しています。 19

20.

4. Experimental Setup 4.1 モデルとデータの準備 • LLaMA3-Instruct(8B) • Phi-3 Mini-4K-Instruct(3.8B) を対象に実施 私たちは、以下の3つのアプローチを使用してモデルをトレーニングしました: 完全なファインチューニング(Full Fine-Tuning) 部分的なレイヤーファインチューニング(Partial-Layer Fine-Tuning) LoRA(Low-Rank Adaptation)【21】 主な実験では、Single-Target Unlearning Settingを採用し、一度に1つのターゲットを忘却させ、その結果を100個の アンラーニングターゲットに対して平均化しました。 すべての実装の詳細およびハイパーパラメータの設定については、Appendix Hに記載しています。 20

21.

4. Experimental Setup 4.2 ベースライン手法 以下の6つのベースライン手法を評価: 1. インコンテキストアンラーニング(In-Context Unlearning, ICU)【44】 モデルのパラメータを実際に変更することなく、特定の指示を使用してモデルが削除対象の知識を忘れたかのよう に振る舞わせます。 2. 表現エンジニアリング(Representation Engineering, RepE)【68; 29】 モデルに専門家のキーワードと初心者のキーワードをそれぞれプロンプトとして提供し、モデルの隠れ層(hidden states)を保存します。その後、削除対象の知識の不在を表現するアンラーニング制御ベクトルを計算し、推論プ ロセス中にモデルの活性化空間を制御します。 3. 勾配上昇法(Gradient Ascent, GA)【25】 トレーニングフェーズ中の勾配降下に対して、忘却コーパス上で負の対数尤度損失を最大化します。このアプロー チは、モデルを元の予測から遠ざけ、アンラーニングを促進します。 4. 直接プリファレンス最適化(Direct Preference Optimization, DPO)【46】 プリファレンス最適化を適用して、モデルがターゲット知識に誤った内容を生成できるようにします。DPOでは、 ポジティブ例とネガティブ例を用いてモデルをトレーニングします。ポジティブ例は、モデルがターゲットについ て意図的に生成した虚構の記述(反事実コーパス 𝑪𝒄𝒇 )からサンプリングします。一方、ネガティブ例は合成忘却 コーパス 𝐶𝑓𝑠 からサンプリングします。 5. ネガティブプリファレンス最適化(Negative Preference Optimization, NPO)【64】 NPOは、GA損失を簡易的に修正したものです。DPOと比較して、ネガティブ例のみを保持し、ポジティブ例は使 用しません。 6. 拒否調整(Rejection Tuning, RT)【37】 まず、モデルに削除対象に関連する質問を生成させ、回答を「I do not know the answer」と置き換えます。その 後、この拒否データを使用してモデルをファインチューニングし、ターゲットに関連する質問を拒否できるように します。 21

22.

5. Results 1. プローブへの感受性 アンラーニング後のモデルは、質問応答形式のプローブ(QA: Question-Answer Probes)よりも、穴埋め形式のプローブ(FB: Fill-in-the-Blank Probes)や 敵対的攻撃プローブ(AA: Adversarial-Attack Probes)に対して敏感であることがわかりました。これは以下のことを示しています: 1.知識の痕跡が残る: 1. モデルは削除された知識を「どう活用するか」を忘れている可能性がありますが、完全に削除されていない痕跡が残っているため、特定のプ ローブを使うとその知識を検出できます。 2.敵対的攻撃の有効性: 1. 慎重に設計された敵対的攻撃(例: 特定の文脈やヒントを加える)を使うことで、アンラーニングされたモデルから一見忘れられた知識を引 き出すことが可能 つまり、アンラーニングは表面的には成功しているように見えても、モデル内に知識の痕跡が完全に消えていない場合があることを示しています。 LLaMA3-Instruct (8B) Phi-3 Mini-4K-Instruct (3.8B) 22

23.

5. Results 3. MIAに対する脆弱性 それでも、ほぼすべての手法が 𝐶𝑓𝑠 を使用してトレーニングされた場合、MIA(メンバーシップ推論攻撃)に対し て失敗することが分かりました。このことは、より堅牢なアンラーニング手法の必要性を示しています。 (スコアが高いほど、特定の知識を保持している可能性が低いことを意味します。そのため、削除が成功したモ デルは、FMでのLOSSスコアがRMよりも著しく高くなるべき) 24

24.

5. Results 4. LoRAと完全なファインチューニングの比較 完全なファインチューニングと比較して、LoRA(低ランク適応)は削除セット(Forget Set)での削除効果が低く、 保持セット(Retain Set)での忘却も少ないことが分かりました。この結果は、継続的な事前学習に関する最近の 研究結果【6】と一致しています。 [6] Dan Biderman, Jose Gonzalez Ortiz, Jacob Portes, Mansheej Paul, Philip Greengard, Connor Jennings, Daniel King, Sam Havens, Vitaliy Chiley, Jonathan Frankle, Cody Blakeney, and John P. Cunningham. Lora learns less and forgets less, 2024. 25

25.

5. Results 5. ベースライン手法の比較 すべてのベースライン手法の中で、ICUはLLaMA3で最良の結果を達成しましたが、Phi-3ではほとんど効果があり ませんでした。これは、モデルが指示を従う能力に依存していることを示しています。一方、モデルのパラメー タを変更する手法の中では、古典的なGA(Gradient Ascent)と最近のNPO(Negative Preference Optimization)が 比較的良好な結果を示しました。 LLaMA3-Instruct (8B) Phi-3 Mini-4K-Instruct (3.8B) 26

26.

5. Results トレードオフ • Figure 3では、アンラーニングの有効性、局所性(locality)、モデルの有用性(utility)の間のトレードオフを示しています (トレーニングが必要な手法では異なるトレーニングエポックを、RepEでは異なる介入ウェイトをサンプリングしています)。 理想的なアンラーニング手法は、右上から右下へまっすぐ下降する直線を描くべき 以下の現象が観察: 1. アンラーニング有効性と局所性のバランスの難しさ 1. 2. 削除対象の知識をアンラーニングする際、隣接する知識にも副作用が及びます。これは、トレーニングを必要としないICUでさえも観察される現象です。 アンラーニングがモデルの有用性に与える影響 1. 2. 例えば、DPOは削除対象の知識に関する虚偽の情報を生成するようモデルに報酬を与えますが、これによりモデルが幻覚(hallucination)を生成する傾向 が強まり、事実性(factuality)と真実性(truthfulness)に大きな影響を及ぼします。 RT(Rejection Tuning)は、トレーニング中にモデルが単純に“I don’t know"と応答するよう求めますが、モデルの生成能力に影響を与える可能性 Figure 3: Trade off between unlearning efficacy, locality and model utility of LLaMA3-Instruct (8B). 27

27.

5. Results Adversarial Attack Types 1. 効果的な攻撃手法 – Prefix Injection • 質問の前にリクエストやコマンドを追加してモ デルに回答させる。 – Affirmative Suffix • 質問の後に肯定的なフレーズを追加して肯定的 な回答を引き出す。 – Multiple Choice(多肢選択) • 回答ではなく選択肢から選ばせる。 – Reverse Query(逆方向クエリ) • ターゲットに関連する情報を基にターゲットそ のものを問う。 これらの攻撃は、削除された知識をモデルから効 果的に引き出すことができる。 2. RTの強み RT(Rejection Tuning) は拒否データでファイ ンチューニングされているため、敵対的攻撃に対 して最も高いアンラーニング効率を示します。 3. NPOの耐性 NPO(Negative Preference Optimization) も、 敵対的攻撃に対して耐性を示す可能性があります。 28

28.

5. Results Batch-target Unlearning • 複数のターゲットを同時に忘れるという、特に難 易度の高いアンラーニングシナリオについて検討 しました。Figure 5に示されるように、ターゲッ トの数を10、20、30、40、50と変化させてバッ チアンラーニング実験を行いました。 この実験では、以下の3つの現象が観察されました: 1. DPOとNPOの限界 1. DPO(Direct Preference Optimization)および NPO(Negative Preference Optimization)は、 忘却セット(Forget Set)および保持セット (Retain Set)の元の性能を維持しながらアン ラーニングを完了することができませんでした。 2. GAによるモデル崩壊 1. GA(Gradient Ascent)は、ターゲット数が30 に達した時点でモデルの崩壊(Model Collapse)を引き起こし始めました。 3. RTの安定性 1. RT(Rejection Tuning)は指示調整 (Instruction Tuning)の変種として、より安定 したアンラーニングを達成しました。また、隣 接知識(Neighbor Knowledge)に大きな影響を 与えませんでした。 29

29.

5. Results Partial-layer Unlearning. • どのレイヤーのパラメータを更新すればよ り効果的なアンラーニングが可能になるの かを検証するための興味深い実験を行いま した。LLaMA3の連続する4つのレイヤー (例: レイヤー0-3)をファインチューニン グし、それ以外のレイヤー(例: レイヤー432)は固定しました。Figure 7に示される ように、次の現象が観察されました: 1. 初期レイヤーの効果 1. 初期レイヤーをファインチューニングするこ とで、隣接知識に影響を与えることなく、よ り良いアンラーニング効果を得られることが 分かりました。 2. 可能な説明 1. 初期レイヤーでのアンラーニングは、削除対 象に関連するキーワードの意味を「ねじ曲げ る」ことに関与している可能性があります。 2. また、初期レイヤーにはより多くの事実知識 が保存されている可能性があります【40; 16】。 3. ターゲット知識の局在性 1. モデルの特定のパラメータのみを更新するこ とでアンラーニングを達成できる場合、モデ ルの元々の能力を大幅に維持できる可能性が あります。 30

30.

5. Results Case Study • ICU および RT: これらの手法では、モデルが通常「回答を拒否する」傾向を示します。 • GA、DPO および NPO: これらの手法では、モデルが代わりに「誤った回答を提供する」傾向を持つことが確認されました。 31

31.

6. Conclusion and Future Work 6 結論と今後の課題 • 本論文では、大規模言語モデル(LLM)のアンラーニングのためのベンチマークであるRealWorld Knowledge Unlearning benchmark(RWKU) を提案しました。RWKUは以下の3つの 重要な要素に基づいて設計されています: 1. タスク設定 1. より実用的で挑戦的なアンラーニング設定を考慮しました。 2. 知識の出所 1. 実在する有名人200名をアンラーニングのターゲットとして選定しました。 3. 評価フレームワーク 1. メンバーシップ推論攻撃(Membership Inference Attacks)および敵対的攻撃プローブ(Adversarial Attack Probes)を提供し、アンラーニングの有効性を厳密にテストしました。 2. また、隣接知識の摂動(Neighbor Perturbation)、一般能力、推論能力、真実性、事実性、流暢性といった観 点で局所性と有用性を評価しました。 今後の課題として、以下の方向性を検討しています: 1. 知識ソースの多様化 1. イベント知識や概念知識など、より多様な知識ソースを取り入れること。 2. 攻撃手法の拡張 1. 勾配ベースの攻撃(Gradient-Based Attacks)など、さらなる攻撃手法を統合すること。 3. 包括的な評価指標の採用 1. 有効性(Efficacy)と局所性(Locality)のバランスを取るような、より包括的な評価指標を導入すること。 32