699 Views
November 02, 24
スライド概要
M2の中村圭佑さんが「Cross-Modal Safety Mechanism Transfer in Large Vision-Language Models」の紹介を担当しました。本論文ではLVLMs(Large Vision-Language Models)がLLMs(Large Language Models)の有害な出力を制限するためのSafety Mechanismを、視覚情報に関して十分に適用できていないことを指摘しています。その原因はTransformerのLayerレベルで、言語情報と視覚情報のアライメントが取れていないことにあります。論文では、層レベルでアライメントを改善する手法を提案しており、LVLMsがLLMsのSafety Mechanismを視覚情報にも効果的に転移できるようになることが報告されています。
立教大学大学院人工知能科学研究科における瀧雅人准教授が主催する研究室で2020年度からスタートしているまだ若い組織です。 最先端の深層学習について、高度化・説明性向上などをテーマに深く幅広く研究しています。 また医療や神経科学・物理学におけるデータ分析や、産業への社会実装にも携わっています。 研究室内のPaper Reading活動の記録として、研究室学生の発表資料を公開しています。 ご興味をお持ちの方は、HPをご確認ください。
CROSS-MODAL SAFETY CROSS-MODAL SAFETY MECHANISM TRANSFER MECHANISM TRANSFER IN LARGE IN LARGE VISION-LANGUAGE MODELS VISION-LANGUAGE MODELS JC 資料 23VR004P 中村圭佑 2024/10/26 中村圭佑
Abstract • Large Vision-Language Models(LVLMs)における視覚と言語のアラインメントは、LLMが視覚入力を理解することを可能にしている • しかし、既存の視覚言語アラインメント手法では、LLMのテキストに対する Safety Mechanismが視覚に転移できず、toxicのある画像に対 して脆弱性が残ることが判明した • そこで、LVLMsのSafety Mechanismがどこで、どのように機能しているかを説明し、テキストと視覚の比較分析を行った • 解析の結果、特定のTransformer Layersにおける隠れ状態が、Safety Mechanismに重要な役割を果たしていることがわかった • 現在の手法では、隠れ状態レベルでの視覚と言語のアラインメントが不十分であり、これがテキストに対して視覚入力における意味的なずれ を引き起こし、Safety Mechanismを誤作動させる原因となっている • これに対処するために、Text-Guided vision-language Alignment(TGA)手法を提案している • TGAは、入力された視覚情報に関連するテキストを取得し、それを用いて視覚の隠れ状態空間への投影をガイドする • 実験では、TGAが視覚モダリティに対してsafety ne-tuningを行わずに、LLMのテキストに対するSafety Mechanismを視覚にうまく転移 できることが示された fi • また、TGAは様々な視覚タスクにおいて、一般的な性能を維持することも確認された
Introduction 視覚と言語のSafety Mechanismの非対称性 • LVLMsの視覚言語アラインメント手法では、LLMs、軽量な視覚エンコーダ(CLIPなど)、プロジェクタを使用して、比較的 低いトレーニングコストで視覚入力の理解を効率的に実現している • また、最近の研究ではLVLMsの安全性が注目されている • LVLMsでは、視覚と言語が共通の空間にアラインされているため、 Safety Mechanismも両者で共有されるべきである • しかし、実際にはそうではなく、toxicのあるテキスト入力と比較して、LVLMsは毒性のある視覚入力に対してより脆弱であ ることが判明した • 既存の研究では、toxicのある視覚データを使用して、safety ne-tuningを行うことでLVLMsの安全性を向上させている • しかし、根本的な疑問が残っている fi → “Why can’t the safety mechanism for text be shared by vision after vision-language alignment?”
Introduction 引用:CROSS-MODAL SAFETY MECHANISM TRANSFER IN LARGE VISION-LANGUAGE MODELS Figure1
本論文の実験 本論文では三つの実験を行なっている 1. LVLMsにおけるクロスモーダルなSafety Mechanismの移転 • LLMsにおけるSafety Mechanismを、LVLMsにどのように拡張できるかを探る • Safety Mechanismが異なるモダリティ間の移行をどのように扱うかに焦点を当て、視覚モダリティ上で特定のsafety netuningを行うことなく、テキストから視覚へSafety Mechanismを移行する際の課題を明らかにする 2. Transformer layersとSafety Mechanismの関係 • Safety Mechanismの活性化を担う特定のTransformer layersを特定する。toxicなテキストに対するSafety Mechanismの作 動にどの層が関与しているかを調査し、テキストを処理する場合と画像を処理する場合のSafety Mechanismの作動方法の違い を分析する 3. 視覚のsafety ne-tuningを伴わない視覚と言語のアライメント • 視覚モダリティのsafety ne-tuningを追加することなく、テキストから視覚へSafety Mechanismを転送する方法を提示する • TGAは、テキストベースのSafety Mechanismが、LVLMsにおける視覚入力のアライメントをどのようにガイドできるかを示 fi fi fi す
SAFETY MECHANISM CANNOT BE CROSS-MODAL TRANSFERRED 問題設定と実験詳細1 問題設定: • LVLMとそれに用いられているLLMに、同じ意味を持つが異なるモダリティのtoxic入力を与え、異なるモダリティでの安全 性能力を評価し、クロスモーダルなSafety Mechanism転移の評価を行う 実験詳細: • データ構築: • オープンソースのデータセットから実際のtoxic画像を収集。各画像に対してLLaVA-NEXT (Liu et al., 2024b) を使用し てキャプションを生成し、toxicテキスト-画像ペアを作成 • データセットには、アルコール、タバコ、銃、侮辱的なジェスチャー、ナイフを含む毒性画像(10,631枚)のHOD(Ha et al., 2023)や、血まみれやポルノ画像(9,900枚)のToViLaG(Wang et al., 2023)が含まれる • これにより、20,531の毒性テキスト-画像ペアを実験用に作成
SAFETY MECHANISM CANNOT BE CROSS-MODAL TRANSFERRED 実験詳細2 • 評価指標: • 通常の安全テスト手法(Wang et al., 2023)に従い、モデルにtoxicコンテンツを記述させ、toxic反応を拒否できるかどうかを表す 「防御成功率(DSR)」を使用 • LLaMA-2-7Bを使用して生成された応答がtoxicであるかを判断し、防御の成功を評価(Chakraborty et al., 2024) • 実験設定: • 使用モデル • LVLMs(ℳ)とLLMs(ℒ) • LLaVA-1.6-Mistral7BとMistral-7B-Instruct-v0.2 • InstructBlipとVicuna-7B-v1.5 • Qwen-VL-ChatとQwen-7B-Chat。 • GPT-4-vなどのクローズドソースモデルは、詳細な解析ができないため対象外
SAFETY MECHANISM CANNOT BE CROSS-MODAL TRANSFERRED 実験詳細3 • 実験設定: • 使用するLVLMs(ℳ)とLLMs(ℒ) • LLaVA-1.6-Mistral7BとMistral-7B-Instruct-v0.2 • InstructBlipとVicuna-7B-v1.5 • Qwen-VL-ChatとQwen-7B-Chat • 次の三つの方法でSafety MechanismのDSRを比較。 *1に関してはモーダルが異なるのでtoxicなテキスト入力と比較して、 T検定でp値が0.05以下の場合に有意差があるとみなす 1. ℳに毒性画像を入力 2. ℳに毒性テキストを入力 3. ℒに毒性テキストを入力
SAFETY MECHANISM CANNOT BE CROSS-MODAL TRANSFORRED 結果 • LVLMとLLMは、toxicテキストに対するDSRが近く、LLMのテキストに対する Safety MechanismがLVLMの視覚言語アラインメントトレー ニングで引き継がれていることがわかる • 同じSemanticを持つtoxic情報であっても、モダリティが異なる場合、LVLMsの安全性能力に大きな差が見られ、視覚モダリティにおける toxic防御がほとんどできていないことが示された →テキスト向けのSafety Mechanismが視覚に効果的に転移されていないことを意味する 引用:CROSS-MODAL SAFETY MECHANISM TRANSFER IN LARGE VISION-LANGUAGE MODELS Table1
CAUSE OF FAILURE IN CROSS-MODAL TRANSFERRING SAFETY テキストから視覚へのSafety Mechanism転移の失敗原因を二部構成で分析する 1. Safety Mechanism is Activated at Speci c Layers by Hidden States • Safety Mechanismがどの層で活性化されるのかを明らかにする。特定のTransformer layersがSafety Mechanismの発 動に重要な役割を果たしていることを示す • テキスト入力におけるtoxicコンテンツに対してSafety Mechanismがどのように作動するかを分析します 2. Insu cient Alignment at Hidden States Misleads Safety Mechanism • 視覚と言語間の隠れ状態の不十分な整合性が原因で、Safety Mechanismが視覚データに対して正確に機能しないことを 説明している • テキストと画像のSemanticに同一性がある場合でも、隠れ状態レベルでの不整合があると、Safety Mechanismがtoxic fi ffi な画像を正しく検出できなくなることを示す
SAFETY MECHANISM IS ACTIVATED AT SPECIFIC LAYERS BY HIDDEN STATES 問題設定 問題設定 • 先行研究(Tenney, 2019; Dai et al., 2021; Meng et al., 2022)では、LLMsの異なるTransformer layerが、語彙、意味、知識などの 異なる機能を持つことが示されている • 本論文では、LVLMsにおけるSafety Mechanismの活性化に関与するTransformer layersを特定し、これらの層でのtoxicトークン に対するAttention patternを分析する • テキストにおけるLVLMsのSafety Mechanismがどこでどのように活性化されるかについて検証する • それにより、視覚でのSafety Mechanismの破綻の原因を理解する
SAFETY MECHANISM IS ACTIVATED AT SPECIFIC LAYERS BY HIDDEN STATES 実験詳細1 どのlayerで活性化されるか: • Toxic入力に対して、Safety Mechanismが活性化されると、言語モデルは指示に従わず、ユーザーに”謝罪”する応答を生成する(例:「申 し訳ありませんが、私は…できません」) • このため、”謝罪”の応答はSafety Mechanismの活性化の重要な信号とされる • 本論文では、層ごとの”謝罪”に関する語彙分布の変化を検出することで、Safety Mechanismがどこで活性化されるかを特定する • 具体的には、toxicテキストtと指示sをLVLMsに入力し、次のトークン予測に基づいて”謝罪”関連(“sorry”や”apologize”など)の語彙分 布変化を計算する • 各層における語彙分布の変化を計算し、 “謝罪”に関連するトークンが、分布変化のトップ1にランクインする層を特定する • “謝罪”トークンが語彙全体の中で最も顕著な割合を示す層は、入力がtoxicであることを認識し、指示に従わないよう語彙分布を更 新しようとする層であり、Safety Mechanismの活性化を示すとする
SAFETY MECHANISM IS ACTIVATED AT SPECIFIC LAYERS BY HIDDEN STATES 実験詳細2 手順 • テキスト入力として、toxicな内容と指示をLLMに入力する • その後、次のトークンの予測を行う。この予測は、softmax関数で計算される語彙分布に基づいて行われ、各層の隠れ状態からどの単語が選ばれるかが決定される P(x | t, s) = softmax(WH′), x ∈ • ここで、Wは語彙を表す行列、H′は最終的な隠れ状態である • 次に、各Transformer層で “謝罪”に関連する単語の分布がどのように変化するかを観察する Pj(x | t, s) = softmax(WHj), x ∈ • ここで、Pj(x | t, s)は層jにおける”謝罪”関連の単語の分布を示し、層間の分布変化を以下の式とする Dj(x | t, s) = log Pj(x | t, s) Pj−1(x | t, s) • この分布変化に基づいて、”謝罪”に関連する単語が上位に出現し始める層を探す。この層が、Safety Mechanismが活性化される層である  𝒳 𝒳  • Dj(x | t, s)が最大の層がSafety Mechanismが活性化される層となる
実験詳細3 どのように活性化されるか: 毒性トークンに対するアテンションパターンの分析 • 一つ目の実験で構築したデータのtoxicテキストごとに、GPT-4 APIを使用して特定のtoxic単語を抽出し、これをtocixトークン (セットC)とする • j層における語彙分布予測のアテンションマップ jを使い、最後のトークンからtoxicトークンセットCへのAttention Scoreの割合 Rを計算。 j = softmax ( QjKj⊤ , dk ) R= ∑ i∈C i j • Toxicテキスト入力に対してSafety Mechanismがうまく作動したサンプルを選び、活性化場所とAttention patternを分析 𝒜 𝒜 𝒜 SAFETY MECHANISM IS ACTIVATED AT SPECIFIC LAYERS BY HIDDEN STATES
SAFETY MECHANISM IS ACTIVATED AT SPECIFIC LAYERS BY HIDDEN STATES 結果1 • Sefety Mechanismの活性化がtoxicトークンの隠れ状態へのアテンションのピークと一致していることを示している • Safety Mechanismは特定のTransformer layersでのtoxicトークンの隠れ状態の情報によって活性化されることわかる 引用:CROSS-MODAL SAFETY MECHANISM TRANSFER IN LARGE VISION-LANGUAGE MODELS Figure2
SAFETY MECHANISM IS ACTIVATED AT SPECIFIC LAYERS BY HIDDEN STATES 結果2 • さらにtoxicトークンの情報を異なる層でマスクし、LVLMsの安全能力に対する影響をテストする実験を実施 • 特定の層におけるアテンションマップでtoxicトークンにマスクを追加し、7つのシーンでの平均DSRを指標として使用 • Safety Mechanismが活性化されると特定された層を遮断すると、他の層に比べて安全メカニズムが大きく阻害されることを示 している 引用:CROSS-MODAL SAFETY MECHANISM TRANSFER IN LARGE VISION-LANGUAGE MODELS Figure3
INSUFFICIENT ALIGNMENT AT HIDDEN STATES MISLEAD DAFETY MECHANISM 問題設定 問題設定 • LVLMにおいてテキストから視覚へのSafety Mechanism転移が失敗する原因についての分析を行う • 先ほどの実験に基づき、特定のTransformer layersにおける入力トークンの隠れ状態が、Safety Mechanismの成功した活性化に 重要な役割を果たしていることがわかった • 同じSemanticを持つテキストと画像の入力隠れ状態を比較分析し、クロスモーダルSafety Mechanism転移が失敗する根本的な 理由を明らかにする
INSUFFICIENT ALIGNMENT AT HIDDEN STATES MISLEAD DAFETY MECHANISM 検証 検証 • テキストと画像の比較分析 • 同じSemanticを持つテキストと画像の隠れ状態の平均プールベクトル間のコサイン類似度を比較する • 結果 • Safety Mechanismが活性化される層において、Clipスコアがテキストと画像の意味的類似性を示すのに対し、LVLMsのテキストと画像の隠れ状態間のコサイン類似度は大幅に低い • 隠れ状態レベルでのテキストと画像のアラインメントが不十分であり、Transformer layersが画像の意味を正しく把握できないため、toxicを正しく評価できないことが示唆された 引用:CROSS-MODAL SAFETY MECHANISM TRANSFER IN LARGE VISION-LANGUAGE MODELS Figure4
𝕀 𝕋 𝕀 𝕋 𝕀𝕋 INSUFFICIENT ALIGNMENT AT HIDDEN STATES MISLEAD DAFETY MECHANISM Safety Mechanismの再構築 背景 • 先ほどの分析から視覚と言語の隠れ状態のアラインメントが不十分であることが、視覚におけるSafety Mechanism崩壊の原因である可能性が示され た。 実験 • Safety Mechanism再構築実験を実施 • 入力画像 の j 番目のTransformer layersにおける画像トークンの隠れ状態を j = {I1j , I2j , . . . , Inj }と表し、テキスト の隠れ状態を j j j = {T , T , . . . , T j m}とする。 1 2 • 画像 の隠れ状態にテキスト の平均プール隠れ状態を追加し、次の層に入力することで、画像の隠れ状態をテキストに強制的にアラインさせる。 ℐj = {Ikj + mean(Tj) ∣ Ikj ∈ ℐj}, mean( ⋅ ) is mean pooling. • この操作を異なるTransformer layersで実行し、toxic画像入力に対する安全能力を示す。
INSUFFICIENT ALIGNMENT AT HIDDEN STATES MISLEAD DAFETY MECHANISM Safety Mechanismの再構築 結果 • テキストの隠れ状態を画像の隠れ状態に直接追加することで、toxic画像に対するLVLMsの安全能力が大幅に向上したことがわかった。 • Safety Mechanismの活性化層で操作することで顕著な効果がある • 視覚と言語の隠れ状態レベルでのアラインメントが、テキストから視覚へのSafety Mechanism転移において重要な役割を果たしていることが示された。 引用:CROSS-MODAL SAFETY MECHANISM TRANSFER IN LARGE VISION-LANGUAGE MODELS Figure5
CAUSE OF FAILURE IN CROSS-MODAL TRANSFERRING SAFETY まとめ テキストから視覚へのSafety Mechanism転移の破綻の説明 1. Safety Mechanismは、特定のTransformer layersで活性化される。 2. 特定のTransformer layersにおける隠れ状態が、Safety Mechanismの活性化に重要な役割を果たしている。 3. 現在のLVLMの視覚言語アラインメント手法では、特にSafety Mechanismの活性化に関与するTransformer layersにおい て、視覚の隠れ状態が対応するテキストの隠れ状態とアラインできていない。 4. このアラインメントの不十分さにより、Safety Mechanismを活性化するTransformer layersが画像の意味を正しく捉える ことができず、画像のtoxicを正確に評価できないため、視覚におけるSafety Mechanismが崩壊してしまう。
TEXT GUIDED ALIGNMENT AT HIDDEN STATES LEVEL • 先ほどの実験の結果より、 Safety Mechanismが活性化される層において、視覚と言語の隠れ状態のアラインメントが不十分 であることが、テキストから視覚へのSafety Mechanism転移の破綻の主な原因であるとわかった • この問題を解決するために、隠れ状態レベルで視覚と言語を効果的にアラインさせる新しい”text-guided visionlanguage alignment”を実施する
TEXT GUIDED ALIGNMENT AT HIDDEN STATES LEVEL 動機と概要 • 従来のLVLMsにおける視覚アラインメント手法 (”input-to-output alignment”) • 画像-指示-出力の三組をトレーニングデータとして構築 • 言語モデルのクロスエントロピーを損失関数として使用 • LLMが視覚入力を理解できるようにすることで、視覚と言語のアラインメントを達成 • 視覚入力に対してテキスト出力をアラインする非対称的な方法 ← 著者の主張 • この方法の根本的な欠点 • LLMをブラックボックス化した出力のみに焦点を当てている • 視覚入力の内部表現(隠れ状態)がテキストモダリティの隠れ状態とアラインしているかどうかを無視している • この問題への対処 • 隠れ状態レベルでの”text-guided visionlanguage alignment: TGA”を提案 • 入力画像に対して、TGAは意味的に関連するテキストをテンプレートとして取得し、隠れ状態レベルで視覚を言語にアラインさせる。
TEXT GUIDED ALIGNMENT AT HIDDEN STATES LEVEL 手法 1: XcaptionをLVLMsに入力し、各Transformer layerにおけるXcaptionの隠れ状態を取得する。 *勾配計算は無効化されている。 ℂj = {C1j , C2j , …, Cm j }, j = 1,2,3,…, N, • ℂjはj層目のTransformer layerにおけるXcaptionのトークンの隠れ状態のシーケンス、mはXcaption内のトークン数、NはLLMのTransformer layerの数を 表す。 2: Xretrieval,Ximage,Xinstを入力として、視覚指示チューニングを行う。この過程で、各レイヤーでXretrievalとXimageの隠れ状態ℛとℐを取得。 *勾配計算を有効にする。 • 入力は(Xretrieval,Ximage,Xinst)であり、Self AttentionによりℐはXretrievalとXimageの融合された隠れ状態となる。 Xretrievalは、LLMがXimageの隠れ状態をXcaptionの隠れ状態とアラインするようガイドする。これをペアワイズ損失関数で実現。 𝕀 ℒguide = 𝕀 • N ∑ j=1 − cos(¯j, ℂ̄j) + log [1 + exp[ − (cos(¯j, ℂ̄j) − cos(ℝ̄j, ℂ̄j))]],
𝕀 𝕀 𝕀 𝕀 𝕀 𝕀 TEXT GUIDED ALIGNMENT AT HIDDEN STATES LEVEL 手法 ℒguide = N ∑ j=1 − cos(¯j, ℂ̄j) + log [1 + exp[ − (cos(¯j, ℂ̄j) − cos(ℝ̄j, ℂ̄j))]], • ¯j、ℂ̄j、ℝ̄jはそれぞれ、j層目のTransformer layerにおけるXimage,Xcaption,Xretrievalの隠れ状態の平均プールベクトルを表す。 • ペアワイズ損失の直感は、XimageがXretrievalの意味を単にコピーするのではなく、Xretrievalを部分的に類似した意味を持つテンプレートとして使用し、 jがℂjとテキス トモダリティの隠れ状態にアラインすることを促すこと。 • 成功したアラインメントは、 jがℂjに近く、ℝjよりもℂjに近い状態を達成する。これにより、 j、ℂj、ℝjは共通の空間にアラインされ、ℂjと jが一貫した意味を持 つ。 • cos(ℝ̄j, ℂ̄j)は、視覚 ¯jと言語ℂ̄jのアラインメントに対するthe lower bound supervisionとして使用される。 • 総損失関数Lは、ℒguideと言語モデリングのためのクロスエントロピー損失の組み合わせとなる 𝕀 𝕀 1 N ℒ = ℒguide − log P (Xa,i ∣ Xretrieval, Ximage, Xinst, Xa,<i), Xa is the answer for Xinst . ∑ N i=1
TEXT GUIDED ALIGNMENT AT HIDDEN STATES LEVEL 実験詳細:データセット データ構築の構築 • トレーニングデータは、LLaVA (Liu et al., 2024c) から収集されたもので、558Kの画像が事前トレーニング用、665Kの画像が指示チューニング用 に含まれている。 q q 1 1 2 2 (X , X − X , X − X , . . . , X − X 各データサンプルは、マルチターンの会話テンプレート形式で表される: image r r r )。 inst inst • inst • ここで、Ximageは入力画像、Xinst − Xrペアは1回の会話ターンを表し、指示 Xinst とその応答 Xr で構成される。 • トレーニングセット内の各画像 Ximage に対して、BEIT-3 (Wang et al., 2022) という画像-テキスト検索モデルを使用し、大規模なコーパスから関連 するテキスト Xretrievalを取得。このコーパスはLAION/CC/SBU (Schuhmann et al., 2021; Changpinyo et al., 2021) データセットから得られた 1,153Kのテキストキャプションを含み、毒性はほとんどない。 • LLaVA-1.5-13Bを使用して、Ximageに対するテキストキャプション Xcaption を生成し、これをテキストモダリティにおける画像の意味の説明とみなす。 • 視覚の安全性評価に使用するデータセットはアルコール、タバコ、銃、侮辱的なジェスチャー、ナイフ、血まみれ、ポルノに関する20,531のtoxic画 像
TEXT GUIDED ALIGNMENT AT HIDDEN STATES LEVEL 実験詳細:アーキテクチャ • LLMとしてMistral-7B-Instruct-v0.2 (Jiang et al., 2023)、Vision towerとしてclip-vit-large-patch14-336 (Radford et al., 2021)、プロジェクタとして2層のMLPを使用 • 事前トレーニング • LLMを固定し、プロジェクタのみを1エポックトレーニング • 指示チューニング • すべてのパラメータを学習可能にし1エポックトレーニング 引用:CROSS-MODAL SAFETY MECHANISM TRANSFER IN LARGE VISION-LANGUAGE MODELS Figure6
TEXT GUIDED ALIGNMENT AT HIDDEN STATES LEVEL 実験結果: Safety MechanismのVisionへの拡張 • TGAは、視覚に対して追加のsafety ne-tuningを行わずに、主流の視覚言語アラインメント手法よりもtoxic画像に対する LVLMsの安全性能力を大幅に向上させた • TGAが隠れ状態レベルで視覚と言語のアラインメントを改善することで、LLMに存在するテキスト向けのSafety Mechanism を視覚にうまく転移できたためである • TGAは、toxic領域に対するtoxicな文脈を回避するためにテキストのアンラーニングをLLMからLVLMsに転移するUnlearnFigSよりも優れている。これは、TGAによるSafety Mechanismの直接的な転移がより効果的な手法であることを示している fi 引用:CROSS-MODAL SAFETY MECHANISM TRANSFER IN LARGE VISION-LANGUAGE MODELS Table2
TEXT GUIDED ALIGNMENT AT HIDDEN STATES LEVEL 実験結果:一般的なLVLMsとしての能力 • TGAが様々な視覚タスクで比較可能な性能を示していることがわかる • TGAはLVLMのトレーニングにおいてsafetyかつ高性能な視覚言語アラインメント手法であることがわかる。TGAは、テキス トから視覚へのSafety Mechanismを転移するだけでなく、様々な視覚タスクでの一般的な性能も維持している *LLaVA-1.6のトレーニングデータは公開されていないが、我々が使用したLLaVA-1.5のデータよりも効果的である。そのため、公平な比較を保つために、LLaVA-1.5をMistralで再現して代用 している 引用:CROSS-MODAL SAFETY MECHANISM TRANSFER IN LARGE VISION-LANGUAGE MODELS Table3
TEXT GUIDED ALIGNMENT AT HIDDEN STATES LEVEL 実験詳細:Ablation Study 引用:CROSS-MODAL SAFETY MECHANISM TRANSFER IN LARGE VISION-LANGUAGE MODELS Figure7
結論 • 本論文では、”Cross-Modal Safety Mechanism Transfer”という新しい視点を提案し、LVLMがtoxicテキストに比べて toxic視覚に対して脆弱である問題を再考し、説明し、解決を図る • 詳細な分析により、現在の視覚言語アラインメント手法が効果的なCross-Modal Safety Mechanism Transferを達成でき ていないことが示された。その理由は、隠れ状態レベルでの視覚と言語のアラインメントが不十分であるためである • この問題を解決するために、新しい視覚言語アラインメント手法を提案している。この手法は、LLMにおけるtoxicテキスト に対するSafety Mechanismを視覚に転移するだけでなく、既存の最先端LVLMと比較して様々な視覚タスクにおける一般 的な性能を維持できる