186 Views
January 13, 23
スライド概要
2023/1/13
Deep Learning JP
http://deeplearning.jp/seminar-2/
DL輪読会資料
DEEP LEARNING JP [DL Papers] Non-Linguistic Supervision for Contrastive Learning of Sentence Embeddings 言語モデル学習のマルチモーダル対照推定法で、モーダル間の対応例が不要な手法 山本 貴之(ヤフー株式会社) http://deeplearning.jp/ 1
書誌情報 タイトル: Non-Linguistic Supervision for Contrastive Learning of Sentence Embeddings 言語モデル学習のマルチモーダル対照推定法で、モーダル間の対応例が不要な手法 NeurIPS 2022 https://arxiv.org/abs/2209.09433 著者: 概要: 言語意味理解モデルSimCSEに画像や音声のモーダルを追加した対照推定で精度向上 ポイントは、モーダル間の対応例が「不要」である点 選定理由: マルチモーダル学習で、対応例「不要」という事に対する興味 公式実装: https://github.com/yiren-jian/NonLing-CSE ※出典記載の無い図表は本論文からの引用 2
はじめに 現状 ▍ 言語意味埋込学習 現在の最高性能は SimCSE ▍ SimCSEは 教師なしで学習可能だが 最高精度は教師ありモデル ※「教師なし」=「自己教師あり」 課題 解決策 ▍ 教師ありは ラベル付データの質が重要 ▍ ラベル付きは 低資源言語では厳しい ▍ 画像や音声の 他モーダルデータも活用 し精度を向上 ▍ 教師なしで 精度と汎化性能を上げたい 3
研究の貢献 VisualCSEの概要 【提案手法】 ▊ 研究の貢献 ▊ ▍ 学習済SimCSEをさらに改善する ▍ 画像などの他モーダルデータも活用し ファインチューニング ▍ モーダル間で意味的な「対」が不要 ▍ マルチタスク損失で汎化性能向上 4
前提となる関連研究 5
関連研究 Supervised Contrastive Learning (2020) https://arxiv.org/abs/2004.11362 6
関連研究 Supervised Contrastive Learning (2020) 提案手法Supervised Contrastive(=SupCon)損失関数を用いたAccuracy SupCon損失 提案手法 SupCon損失は一貫してクロスエントロピーを上回る https://arxiv.org/abs/2004.11362 7
関連研究 Supervised Contrastive Learning (2020) 輪読論文で 使われるので重要 【既存手法】 自己教師あり対照推定 【提案手法】 Supervised Contrastive(SupCon) この犬の扱いが違う ▍ 正例ペアは点線部の2枚 Anchor画像からAugmentationしたもの ▍ 正例クラスタは点線部の3枚(図の場合) 左記に加え、正解ラベルで同クラスタのもの https://arxiv.org/abs/2004.11362 8
関連研究 Supervised Contrastive Learning (2020) 学習用データセットの作り方 N個のデータセット 「バッチ」 2N個に拡張 「マルチビューバッチ」 dog dog dog cat cat dog elephant cat https://arxiv.org/abs/2004.11362 Augument Augument cat dog ⋮ マルチビューバッチを2回作成 iとjの2系列とする j系列 i系列 dog dog dog dog cat cat cat cat dog dog dog dog dog elephant elephant elephant elephant elephant elephant cat cat cat cat cat cat 9
関連研究 Supervised Contrastive Learning (2020) 【既存手法】 自己教師あり対照推定 【提案手法】 SupCon損失関数 追加部 Labels部 正例ペア 温度τ ※ 自分対自分 除外全組合せ 追加部 ※ ※ 自分除外 温度付Softmax式 クロスエントロピー式 ▍ 正例ペアを1に近づけ、 負例群を0に近づける損失関数 マルチビューバッチ内のi自身以外の正の組 カーディナリティー(=正の組の数) ▍ がlogの外か内で、outとinの2つの式がある ▍ 温度付Softmaxとクロスエントロピー の組合せ式。Softmaxなので正例を1に 近づけると自動的に負例は0に近づく。 ▍ 式の主な変更箇所は ▍ ミニバッチ内のi番目の 正例ペアSoftmaxを最大化する ▍ 正の組が多いと値が大きくなるので ▍ ▍ 追加部 と記載した部分 はi自身以外の正の組の数だけ、 温度付Softmax&クロスエントロピーを加算するという事 はlog内に https://arxiv.org/abs/2004.11362 で割り正規化 がある為勾配に影響なく正規化効果なし 10
関連研究 Pretrained Transformers As Universal Computation Engines (2021) ▊ サマリ ▊ ▍ 学習済言語モデルのパラメータ固定(FPT)で、画像認識等、他モーダルタスクで活用する研究 ▍ 当研究にインスピレーションを受け、輪読論文に繋がった Frozen Pretrained Transformer (FPT) 学習対象 重み固定 学習対象 重み固定 学習対象 Scale・Bias 学習対象 学習対象 Scale・Bias ※全結合層 ▊ 詳細 ▊ ▍ セルフアテンション(=Multi-Head Attention) & FeedForward層の重みは固定(パラメータの大半はここ) ▍ Embedding層、出力層、LayerNormのScaleとBiasのみ学習対象としファインチューニング https://arxiv.org/abs/2103.05247 11
関連研究 Pretrained Transformers As Universal Computation Engines (2021) ▊ 結果 ▊ ▍ 青のFPT(提案手法)が、完全に学習したTransformer(オレンジ)やLSTM(グレー)に比較し高い性能 論文に「高い性能」と書かれているが、オレンジとは同等とも言える https://arxiv.org/abs/2103.05247 12
関連研究 Pretrained Transformers As Universal Computation Engines (2021) 学習の収束にかかる勾配ステップ数 提案手法Transformer ランダム初期化Transformer ▊ 結果 ▊ ▍ FPT(提案手法)が、ランダムに初期化したTransformerより、1~40倍学習が高速 https://arxiv.org/abs/2103.05247 13
輪読論文に戻る 14
【再掲】はじめに 現状 ▍ 言語意味埋込学習 現在の最高性能は SimCSE ▍ SimCSEは 教師なしで学習可能だが 最高精度は教師ありモデル ※「教師なし」=「自己教師あり」 課題 解決策 ▍ 教師ありは ラベル付データの質が重要 ▍ ラベル付きは 低資源言語では厳しい ▍ 画像や音声の 他モーダルデータも活用 し精度を向上 ▍ 教師なしで 精度と汎化性能を上げたい 15
モデル構造 VisualCSEの概要 【提案手法】 ▊ 学習のポイント ▊ ▍ BERT-base部(学習済SimCSE)に テキスト×画像でファインチューニング ▍ テキスト×画像→VisualCSEと呼ぶ ▍ テキスト×音声→AudioCSEと呼ぶ ▍ モダリティー間は、対である必要はない ▍ テキストはSimCLR損失関数を使う ▍ 画像や音声はSupCon損失関数を使う ▍ テキストでパラメータ更新1回 →画像でパラメータ更新1回と繰り返す 16
学習手順 ▊ 具体的手順 ▊ ▍ ミニバッチ内でテキストと画像を繰り返す ▍ 学習するモデルは一つの言語モデルLM ▍ テキストをミニバッチ分取得 ▍ DropoutでAugし正例作成 ▍ SimCLR損失で勾配計算 ▍ 勾配に基づきLMのパラメータ更新 ▍ 画像はクラスタラベルを使い ▍ VisionTransforerでエンベディング ▍ SupCon損失で同一クラスタを正例とし ▍ 勾配計算 ▍ 勾配に基づきLMのパラメータ更新 17
損失関数 ▍ 教師ありと教師なし、テキストと画像、それぞれについて損失関数を提案している 教師なし SimCLR損失 教師あり SupCon損失 ※自己教師あり ※同一クラスタを正例とする テキスト 画像 当論文の実験では、水色背景部分の式を使用 18
損失関数 ▊ 関連研究のSupCon損失との比較 ▊ 輪読者によるコメント 当論文のSubCon損失は、関連研究のSupCon損失の2つの内、Lsup,inがベース。 これは、関連研究では精度が悪い方である。理由はlogの内部にp(i)が入っているた め、勾配に寄与できない為。当論文ではこの部分を改良したと思われる。分母を負 例のみに限定する事で、 p(i)で割る部分を削除可能にし、より高い精度を実現でき たと推定される。ただし、この式の導出過程は詳しく記載されていない。 ミニバッチ内ループ 同一クラスタペアループ 正例 同一クラスタペア 関連研究のSupCon損失 Supervised Contrastive Learning https://arxiv.org/abs/2004.11362 同一クラスタペア ほぼ負例 正例ペアは全体に対して少ない前提だと 負例が大半で、ほぼ負例と考えられる ミニバッチ内ループ 同一クラスタペアループ 正例 正例 当論文のSupCon損失 この損失関数導出の詳細は 論文に記載が無い 負例のみ 分子が正例で、分母が負例という基本構造は同じ 明示的に負例のみを加算 19
実験設定 項目 ▍ 言語モデル 内容 ▍ 学習済SimCSE(BERT-base-uncased・RoBERTa-base・RoBERTa-large) ▍ テキストデータセット ▍ 教師なし:Wikipedia英語 100K 文(※1) ▍ 画像データセット ▍ 教師あり:ImageNet 60クラス×500枚(※1) ▍ 学習設定 ▍ 1Epochファインチューニング。バッチサイズと学習率はグリッドサーチ ▍ 評価指標 ▍ 7つの文章意味類似度(STS)タスクで評価 ※ 「教師なし」=「自己教師あり」 ※1 データセットからダウンサンプリングしている 20
実験結果 VisualCSEの実験結果 スピアマン相関 提案手法 提案手法 提案手法 ▊ 総合結果 ▊ ▍ SimCSEの教師なしに対して、凌駕する性能 ▍ テキスト以外のモダリティーを同時に学習し、テキストの性能が向上 ▍ モダリティー間の対になる例を必要とせず、性能が向上 ※「教師なし」=「自己教師あり」 21
実験結果 言語によるVisualCSEの効果の違い 提案手法 提案手法 提案手法 +4.98改善 提案手法 ▊ 言語による違い ▊ ▍ いずれの言語も改善が見られた ▍ ロシア語のような低資源言語において改善が著しい 22
実験結果 教師ありSimCSEをベースに、他モダリティー活用で改善できるかを実験した結果 スピアマン相関 提案手法 提案手法 ▊ 結果 ▊ ▍ 改善はしているものの、改善幅が小さい ▍ 他モダリティー活用で、教師ありSimCSEの改善には寄与できない(と結論づけている) 23
実験結果 ▊ 下流タスク転移学習 ▊ ▍ 下流タスクにも うまく適用できている 提案手法 提案手法 ▍ 改善はわずか 提案手法 提案手法 提案手法 提案手法 略記 タスク内容 MR 多点スケールのセンチメント分析。Good, Badではなく点数で処理 CR 口コミレビュー文章の要約。製品の特長と、肯定的か否定的かを抽出 SUBJ 口コミレビュー文章のセンチメント分析。主観部分のみを抽出 MPQA 言語中の意見、感情、推測、評価などの部分のコーパスアノテーション SST 長いフレーズの文章の、感情分析 TREC 文法的か、非文法的かを判断する MRPC 言い換え文の同定 24
分析 ▍ VisualCSEの画像モーダルの効果と、教師ありSimCSE(81.6)のNLIデータセットへの依存を分析 NLIデータセットのサイズに対する感度分析 NLIデータサイズ30kでVisualCSEと同等性能 NLIデータセットのノイズに対する感度分析 [削除比率, 挿入, 入替] ランダム削除40%程度でVisualCSEを下回る ▍ 教師ありSimCSEの精度はNLIデータセットが高品質な事に大きく依存している 25
分析 埋込のalignとuniform評価 Ba d ▍ align=正のペアの距離の近さ ▍ uniform=表現の散らばりの一様性 赤文字:提案手法 o Go d ▍ 提案手法はクラスタリング性能が向上している(基本的にalignで測定する為) ▍ uniformの悪化は、表現空間でクループ化されている可能性(今後の研究課題) 26
まとめ ▊ 結論 ▊ ▍ テキストだけでなく、非言語領域からの対ではない例を加えて対照推定する事で、 テキスト表現学習を改善させるフレームワークを提案 ▍ 非言語領域のモダリティにとらわれない ▍ 低資源言語に特に効果的 ▊ 感想 ▊ ▍ SupCon損失関数に至る詳細が説明されておらず、関連研究からの改良ロジックが想像の域を超えない ▍ 提案手法の本題の実験設定と、アブレーションなども含めた一連の実験設定が一緒に記載されており、 フレームワークとしての一連の事項は理解できるが、提案手法を正しく捉えているかは要詳細調査 ▍ 対ではない例で学習し精度向上するが、モーダル間の関係性が対でモデル内に表現されているか興味あり ▍ 一部でも対の情報を加える事で、より精度向上やモーダル間の関係性表現向上に寄与しないか興味あり 27