3.1K Views
September 15, 23
スライド概要
DL輪読会資料
DEEP LEARNING JP [DL Papers] Metacognitive Prompting Improves Understanding in Large Language Models Jeong Seong Cheol, M1, Matsuo Lab, The University of Tokyo http://deeplearning.jp/ 1
書誌情報 Preprint: https://arxiv.org/abs/2308.05342 Data: Submitted on 10 Aug 2023 Github: https://github.com/EternityYW/Metacognitive-Prompting Abstract • ⼈間の内省的推論過程に着想を得た戦略であるメタ認知プロンプティング (MP : Metacognitive Prompting) を提案.LLMにメタ認知させることにより,その膨⼤な固有知識と新しい洞察の両⽅を活⽤ し,構造化された⾃⼰認識評価を系統的に⾏う. • 5つのLLM(Vicuna, Llama2, PaLM2, GPT-3.5-turbo, GPT-4)をGLUEとSuperGLUEベンチマークで評価. • 通常のプロンプティングやCotプロンプティングと⽐べMPに利点があることを確認.
背景 • LLMが進歩するにつれ,単に規模を拡⼤するだけでは必ずしも理解や推論能 ⼒が向上するわけではない(Rae et al. 2021) • プロンプトデザインは有望なアプローチ • これまでの研究では,主に回答の論理的な進⾏を洗練させることに焦点が当 てられていた • ⼊⼒に対して「どのように」回答が⽣まれるかというメカニズムだけに集中 するのではなく,その背後にある根拠や「なぜ」を深く掘り下げる
⽬的 LLMの推論能⼒(reasoning capabilities)だけでなく, 理解能⼒(understanding abilities)も向上させる.
先⾏研究 Prompting Techniques in LLMs • CoT関連⼿法:Least-to-Most Promptingなど • Self-consistency techniques: LLMからの複数の回答が考慮され, 多数決によって回答を決定 • 主に LLMの推論能⼒の向上に焦点が当てられている • 理解を深める能⼒には限界がある メタ認知の概念を取り⼊れる
メタ認知 - 考えることを考える -
提案⼿法 - Metacognitive Prompting (MP)⼈間のメタ認知の概念をプロンプトによりLLMに導⼊する ⾃⼰理解 内省 ⾃⼰制御
提案⼿法 - Metacognitive Prompting (MP)- • ⼈間のメタ認知をプロンプトにより 模倣する • 5段階のプロンプトに分かれる 1. 2. 3. 4. 5. ⼊⼒テキストを理解する 予備的な判断を⾏う 予備的な分析を批判的に評価する 推論の説明を伴う最終判断する プロセス全体の信頼度を評価する • 右図の中列がMetacognitive Prompting の実体.⼊⼒に依存せ ず固定のプロンプト. • 右図はparaphrases(⾔い換え)タス クの1例.2⽂が本質的に同じか回 答する.
提案⼿法 - Metacognitive Prompting (MP)通常のプロンプティング,CoT,MPの棲み分け モデルから即座に直接的な答え を引き出す モデルが段階を追って論理的に 課題に取り組むのを促進する ⼈間のような「思考についての 思考」を再現し,モデルの課題 理解を深める
実験 Dataset:GLUEとSuperGLUEから選んだNLU(Natural Language Understanding)データセット センチメント分析(SST-2) テキスト類似度(STS-B) 質問⾔い換え(QQP) 質問-回答含意(QNLI) テキスト含意(WNLI, RTE , CB) 語義曖昧性解消(WiC) 共参照解決(WSC) 質問応答 (COPA) ↑ STS-Bだけ回帰タスク 他は分類タスク Models:5つのリーディングモデル the open-source models :Llama-2- 13b-chat (Touvron et al. 2023), Vicuna-13b-v1.1 (Chiang et al. 2023) the closed-source models :PaLM-bisonchat (Anil et al. 2023), GPT-3.5-turbo, and GPT-4 (OpenAI 2023) (PaLM2の論⽂だったのでおそらくPaLM2) Prompts:3つを⽐較 ベースライン:standard prompting (Brown et al. 2020; Kojima et al. 2022), chain-of-thought (CoT) prompting (Wei et al. 2022) 提案⼿法: Metacognitive Prompting
実験結果 Overall Performance Comparison: 3プロンプトの⽐較,数値はzero-shotと5-shotの平均 ←なぜzero-shotと5-shot平均? • GPT-4はほとんどのデータセットで⼀貫して他のモデルより優れている • MPは⼤半のデータセ ットで標準プロンプトとCoTプロンプトの両⽅を顕著に上回っている
実験結果 Prompting Strategy Comparison モデル別に全データセットのZero-shotと5-shotの平均Acc データセット別の⽐較.数値は5モデルの平均. • • • • GPT-4がプロンプトによらず性能が良い MPが⼀貫してstandardとCoTを上回る • MPの再評価能⼒は,特にWNLI,WSC,CBなどのデータ セットで際⽴つ 正確さ,識別⼒,包括的な意味把握が要求されるタスクに おいてMPの可能性を強調する MPの⾃⼰評価と反復的な改良は,ニュアンス理解と⽂脈 の深さを必要とするタスクで活きる
分析 Error Analysis:⼈⼒でMPの出⼒をチェック 過剰思考(考えすぎ) 過剰修正
分析 Confidence Analysis:MPフレームワークの回答に対する⾃信を評価 • (おそらく)解答確信度をスコア(数値)として出⼒させる. • スコア75%以上の回答はHigh Confidence,それ未満はLow Confidenceとする. • 回答の合っていればCorrect,間違っていればIncorrect 論⽂中にあるFigure 5の 混同⾏列が,本⽂中の定 義と異なっていた.著者 にgithubのissueにて確認 したところやはり間違っ ていたようで,そのうち 修正される. これも間違いの可能性あ り.無視してください→ 混同⾏列の再定義 TP FP TN FN • ⾼いTPと低いFP→MPの⾃⼰認識を強調する • TNとFNの値からMPは改善の余地あり
Limitations • 特定のデータセットとモデルを⽤いてMPの有効性を評価したため,本研究で得 られた知⾒の広範な適⽤性が制限される可能性がある←メタ認知をはかるデー タセットではない • ⾔語化されたLLMの確信度は,LLMの真の確信度を測定する決定的な⽅法とし ては機能しないかもしれない • 本研究では,潜在的なバイアス,プライバシーへの影響,公平性の課題など, 重要な倫理的・法的懸念について広範に取り上げていない
まとめ&感想 • 本論⽂では,⼈間の内省的推論過程に着想を得た戦略であるメタ認知プロ ンプティング (MP : Metacognitive Prompting) を提案.LLMにメタ認知さ せることによりLLMの理解能⼒向上を⽬指した • LLMにメタ認知させる試みは⾯⽩い.その評価⽅法も今後改良されることが 期待される. • 実験結果をzero-shotと5-shotの平均として載せていたのはなぜか分からな かった.(Jeong) • 確信度をスコアが75%以上でHigh Confidenceとする理由が特に述べられて いないのはどうなんだろうと思った(閾値によって混同⾏列の結果を恣意的に できるため).(Jeong) • メタ認知させないと解けないデータセットを使って評価して欲しかった (LLM輪読会参加者)