【DL輪読会】Improving Text Embeddings with Large Language Models

3K Views

October 24, 24

#テキスト埋め込み #大規模言語モデル #合成データ #プロンプトエンジニアリング #MTEBベンチマーク

スライド概要

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

ダウンロード(pdf - 2.53MB)

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 70.5K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 51.1K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 34.1K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 26.2K

【DL輪読会】Generative Agents: Interactive Simulacra of Human Behavior

Deep Learning JP 21.7K

【拡散モデル勉強会】拡散モデルのサンプラーまとめ

Deep Learning JP 21.8K

各ページのテキスト

DEEP LEARNING JP [DL Papers] Improving Text Embeddings with Large Language Models Tasuku Onizawa ( Matsuo Lab. B4) http://deeplearning.jp/ 1

http://deeplearning.jp/

書誌情報 • タイトル – Improving Text Embeddings with Large Language Models • 著者 – Liang Wang, Nan Yang, Xiaolong Huang, Linjun Yang, Rangan Majumder, Furu Wei Microsoft Corporation • 発表日 – 31 May 2024 2

実装/利用 • Github – https://github.com/kamalkraj/e5-mistral-7b-instruct • huggingface – https://huggingface.co/intfloat/e5-mistral-7b-instruct • 使う際の注意点 – クエリには1文のタスク指示を付加する • 学習時にタスク指示を入れて学習しているため • （ドキュメントには不要） – 最大シーケンス長 • 最大で4096トークン – マルチリンガル対応には限界がある • multilingual-e5-largeを使った方がいい – LoRAのみの重みも利用可能 3

選定理由 • 企業においてLLMの性能が上がる中でLLMでの差別化はコストが大きい →RAGの構築の重要性が高まってる →独自のembedding modelは企業においても一つの差別化になり得る • 本論文 – 合成データのみでの高品質な埋め込み：手動収集のラベル付きデータなしで、高精度なテキスト埋め込みを作成可能。 – シンプルなトレーニングプロセス：複雑なトレーニングパイプラインが不要で、効率的に埋め込みモデルを構築できる。 – 少ないトレーニングステップ：1,000ステップ以下でのトレーニングが可能で、短期間で高性能を実現。 4

text embeddingの進化① 1. 初期のアプローチ（〜2019） • 事前学習済み単語埋め込みの重み付き平均を使用 • 代表例：GloVe (Pennington et al., 2014) • https://aclanthology.org/D14-1162.pdf • 代表例：SIF (Arora et al., 2017) • https://openreview.net/pdf?id=SyK00v5xx • (参考)https://qiita.com/nishiba/items/f696d4853cd4f2cb1d79 • 特徴：意味的類似性の測定において強力なベースライン 5

text embeddingの進化② 1. BERT時代の初期（2019〜） • 事前学習済み言語モデル（BERT）の登場が転換点 • Sentence-BERT (Reimers and Gurevych, 2019) • https://arxiv.org/abs/1908.10084 • (参考)https://data-analytics.fun/2020/08/04/understanding-sentencebert/ • Siamese Network • 明示的なペアデータ（正例・負例）を使う • 同じネットワーク（双子のネットワーク）を使い、2つの入力を個別に処理して類似度を学習する • SimCSE (Gao et al., 2021) • https://arxiv.org/abs/2104.08821 • Dropoutの位置を変えることでdata augmentationとする • 自己教師有り学習ができる 6

text embeddingの進化③ 1. 最新の手法（2022〜） • 多段階学習パラダイムの採用 • 代表的な手法： • E5 (Wang et al., 2022b) • https://arxiv.org/abs/2212.03533 • (DL hucks資料) https://docs.google.com/presentation/d/1G_jB4ku0GgmyeFHXiCjyfC2ISAfGZFhmbvld0ckAP4/edit?usp=sharing • BGE (Xiao et al., 2023) • https://arxiv.org/abs/2402.03216 • (参考)https://tech.algomatic.jp/entry/papers/retrieval/chen-24-bgem3 • sparse retrieval, dense retrieval, multi-vector retrievalの三つの機能を持つ、これでハイブリット検索すると性能があがる • 特徴： • 大規模な弱教師付きテキストペアでの事前学習 • 高品質なラベル付きデータセットでの微調整 • 基本的に対照学習、知識蒸留などのテクニックも 7

既存手法の限界 1. 複雑な多段階トレーニングパイプライン 1. 数十億の弱教師付きテキストペアでの事前学習 2. 少数の高品質ラベル付きデータでの微調整 2. データセットの制限 1. タスクの多様性の制限 2. 言語カバレッジの不足 3. モデルアーキテクチャの制約 1. 主にBERTベースのエンコーダに依存 2. 最新のLLMの進展を活用できていない 8

提案手法の概要 • 新しいテキスト埋め込み手法の提案 – 合成データの活用 • プロンプト戦略によって、質の高い合成データを作成 • 合成データの活用により、ラベル付きのデータを手動で集める必要がない – LLMモデルの利用 • LLMモデル自体が大規模な学習をしているため、追加の事前学習が不要に • 強力なベンチマーク結果 – MTEBベンチマークで最も高い平均スコア 9

10.

合成データの利用 1. なぜ合成データを使うのか？ • ラベル付きデータの収集にかかるコストや時間を削減できる • 多様なタスクに対応するデータを生成する： • たとえば、検索（retrieval）、テキストの類似度判定（textual similarity）、クラスタリング（clustering）などのタスクに必要なデータを網羅的に生成する。これによって、異なるタスクやシナリオでの強力で汎用的なテキスト埋め込みを作成することが可能になる。 2. 合成データに関する関連研究 – Doc2query（Nogueira et al., 2019）、InPars（Bonifacio et al., 2022）、Promptagator（Dai et al., 2022）では、ラベルなしのドキュメントに対して合成クエリを生成し、ドキュメント拡張やモデルのトレーニングに活用 – GPL（Wang et al., 2022）は、クロスエンコーダを使ってクエリとドキュメントペアに対する疑似ラベルを生成。 – •Query2doc（Wang et al., 2023）では、LLMを使って少数ショットのプロンプトでクエリ拡張用の疑似ドキュメントを生成。 – DINO（Schick and Schütze, 2021）やUnnatural Instructions（Honovich et al., 2022）など、LLMから生成された合成データを使ってモデルを知識蒸留 – Orca（Mukherjee et al., 2023）やPhi（Gunasekar et al., 2023）は、GPT-3.5やGPT-4からの高品質な合成データを活用して、より優れた小規模な言語モデルのトレーニングを提案 10

11.

合成データの利用合成データ生成のステップ① • タスクの分類: – 生成するタスクをいくつかのカテゴリに分け、それぞれに異なるプロンプトテンプレートを適用 – 非対称タスク（Asymmetric Tasks）: クエリとドキュメントが意味的に関連しているが、パラフレーズではないタスク。これをさらにクエリとドキュメントの長さに基づいて4つのサブグループに分ける。 – 対称タスク（Symmetric Tasks）: クエリとドキュメントが意味的に類似しているが、表現が異なるタスク <非対称タスク> • 短い-長い（short-long match） • 用途：商用検索エンジン • 例：短いキーワード → 長い製品説明 • 長い-短い（long-short match） • 用途：要約検索 • 例：長い文書 → 短いタイトル • 短い-短い（short-short match） • 用途：キーワードマッチング • 例：商品タグ → カテゴリ • 長い-長い（long-long match） • 用途：文書類似性 • 例：論文 → 関連論文＜対称タスク＞ • 単一言語での意味的テキスト類似性（STS） • 同じ言語で異なる表現の類似度を測るタスク。 • 二言語テキスト検索（bitext retrieval） • 2つの異なる言語間で、同じ意味を持つ文を検索するタスク。 11

12.

合成データの利用合成データ生成のステップ② – プロンプトテンプレートの活用: • 非対称タスクの場合各タスクに対して、2段階のプロンプト戦略を使用（1段階だと多様性が低かった） – タスクのアイデアを考えさせるプロンプト: » まず、LLMに「どんなタスクがあるか？」をブレインストーミングさせ、候補を出させる。 – 具体的なデータを生成するプロンプト: » 次に、特定のタスクに基づいた具体的なクエリとドキュメントのペア（例：検索クエリとそれに対応する文書）を生成 • 対称タスクの場合 – ブレインストーミングステップを省略し、シンプルなプロンプトテンプレートを適用 12

13.

合成データの利用(prompt) short-long matching subgroup. long-short matching subgroup タスクごとにpromptを変える 13

14.

合成データの利用(generated data) 非対称タスク対称タスク 14

15.

合成データの利用合成データ生成のステップ③ – 多様性を出す工夫: • 各プロンプトテンプレートにはプレースホルダーを使用し、ランダムに値を設定 – クエリの長さを「5単語未満」「5-10単語」「10単語以上」など、ランダムに選ぶように。 – 多言語対応: • 多言語データを生成する際は、XLM-Rという多言語モデルに基づいた言語リストから言語をランダムに選ぶ。 • 高リソース言語（英語や中国語など、データ量が多い言語）には優先的にウェイトを置いた。 – 生成データの精度管理 • 事前に定義されたJSONフォーマットに従うように生成され、フォーマットに合わないデータは削除 • 正確性を確保するため、重複データも削除 15

16.

合成データの統計 • 生成データの数: – • 生成された合成データに含まれるタスクの種類と、カバーされている言語（93言語）の統計トークンの消費: – • 合計で50万件のデータ例が生成され、15万種類のユニークな指示を使用。データの25%はGPT-35Turbo、残りはGPT-4を使って生成データ生成において消費されたトークンの合計は約1億8000万トークンデータ品質: – GPT-35-Turboで生成された一部のデータはプロンプトテンプレートに完全に従っていなかった 16

17.

ファインチューニングの流れ • クエリに対してタスク指示を追加 – – – • トレーニングデータ – • 生成した合成データと13種類の公開データセットを使用し、合計約180万例のサンプルを使用事前学習済みのLLM（mistral-7b-instruct）を使用 – – – • 元のクエリに対して、事前に定義されたタスク指示を付加既存のデータセット使う場合には、手動でタスク指示を追加ドキュメントはそのまま保持クエリとドキュメントの末尾に[EOS]トークンを追加。その後、LLMに入力して、クエリとドキュメントの埋め込みを生成。埋め込みは、LLMの最終レイヤーの[EOS]ベクトルを使用して取得。？最終レイヤーのEOSが本当に一番いいの？？ InfoNCE損失関数を使用 – インバッチネガティブ（バッチ内の他のサンプル）やハードネガティブを利用 17

18.

ファインチューニング概要 • モデルのファインチューニング – – – – Mistral-7B 1エポックだけファインチューニング RankLLaMA（Ma et al., 2023）のトレーニングレシピを使用 LoRA（Low-Rank Adaptation）使用 • ランク16を使用 • メモリ使用量の最適化 – radient checkpointing: 計算グラフを一部再計算することで、メモリ使用量を抑える – Mixed precision training: 半精度のデータ型（fp16）を使用し、メモリ消費と計算を高速化 – DeepSpeed ZeRO-3: 大規模モデルの効率的なトレーニングをサポートする技術で、GPUメモリの使用量をさらに削減 18

19.

実験 • モデルのパフォーマンス MTEB – MTEBベンチマーク（Muennighoff et al., 2023）で評価 • • • • 最も高い平均スコアタスク指示を追加していることに注意合成データのみでもそこそこのスコア約3日間、8つのV100 GPUを使用 – 多言語対応評価 • • 高リソース言語では良いスコア低リソース言語ではmE5-baseに劣る多言語対応 – 商用モデルとの比較 19

20.

実験 • 事前学習の必要性 – E5 mistral-7bは事前学習の必要性なし – XLM-R largeは事前学習でスコア改善 • ハイパーパラメータ – Mistral-7Bの初期化は、 LLaMA-2 7Bと比較して優位性がある – インストラクションは必要 – プーリングタイプやLoRAランクの違いは全体のパフォーマンスに大きな影響を与えない – この違いはどこに起因しているのか？ • • Decoder-onlyだからなのか？単純に元モデルの精度なのか 20

21.

まとめ • 合成データの活用 – – • 最新のLLMを使って埋め込みモデルの作成 – • 質の良い合成データを作成することで、競争力のあるモデルを作れる合成データによって様々なタスクに対応できるデータを効率的に準備できる事前学習の必要なく、高品質なモデルを作れる制約 – BERTスタイルのエンコーダーと比較して、Mistral-7BなどのLLMをテキスト埋め込みに使用することは、推論コストを大幅に増加させる • – 埋め込み次元の削減等が求められる質の良い合成データの作成には、手動のプロンプトエンジニアリングに依存している • 自動プロンプト最適化が求められる 21