【DL輪読会】Metacognitive Prompting Improves Understanding in Large Language Models

3.7K Views

September 15, 23

#Deep Learning #NLP #Language Model #Metacognitive Prompting #Model Evaluation

スライド概要

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 84.7K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 59.4K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 54.3K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 38.9K

【拡散モデル勉強会】拡散モデルのサンプラーまとめ

Deep Learning JP 33.4K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 32.1K

各ページのテキスト

DEEP LEARNING JP [DL Papers] Metacognitive Prompting Improves Understanding in Large Language Models Jeong Seong Cheol, M1, Matsuo Lab, The University of Tokyo http://deeplearning.jp/ 1

http://deeplearning.jp/

書誌情報 Preprint: https://arxiv.org/abs/2308.05342 Data: Submitted on 10 Aug 2023 Github: https://github.com/EternityYW/Metacognitive-Prompting Abstract • ⼈間の内省的推論過程に着想を得た戦略であるメタ認知プロンプティング (MP : Metacognitive Prompting) を提案．LLMにメタ認知させることにより，その膨⼤な固有知識と新しい洞察の両⽅を活⽤し，構造化された⾃⼰認識評価を系統的に⾏う． • 5つのLLM(Vicuna, Llama2, PaLM2, GPT-3.5-turbo, GPT-4)をGLUEとSuperGLUEベンチマークで評価． • 通常のプロンプティングやCotプロンプティングと⽐べMPに利点があることを確認．

背景 • LLMが進歩するにつれ，単に規模を拡⼤するだけでは必ずしも理解や推論能⼒が向上するわけではない(Rae et al. 2021) • プロンプトデザインは有望なアプローチ • これまでの研究では，主に回答の論理的な進⾏を洗練させることに焦点が当てられていた • ⼊⼒に対して「どのように」回答が⽣まれるかというメカニズムだけに集中するのではなく，その背後にある根拠や「なぜ」を深く掘り下げる

⽬的 LLMの推論能⼒(reasoning capabilities)だけでなく，理解能⼒(understanding abilities)も向上させる．

先⾏研究 Prompting Techniques in LLMs • CoT関連⼿法：Least-to-Most Promptingなど • Self-consistency techniques： LLMからの複数の回答が考慮され，多数決によって回答を決定 • 主に LLMの推論能⼒の向上に焦点が当てられている • 理解を深める能⼒には限界があるメタ認知の概念を取り⼊れる

メタ認知 - 考えることを考える -

提案⼿法 - Metacognitive Prompting (MP)⼈間のメタ認知の概念をプロンプトによりLLMに導⼊する⾃⼰理解内省⾃⼰制御

提案⼿法 - Metacognitive Prompting (MP)- • ⼈間のメタ認知をプロンプトにより模倣する • 5段階のプロンプトに分かれる 1. 2. 3. 4. 5. ⼊⼒テキストを理解する予備的な判断を⾏う予備的な分析を批判的に評価する推論の説明を伴う最終判断するプロセス全体の信頼度を評価する • 右図の中列がMetacognitive Prompting の実体．⼊⼒に依存せず固定のプロンプト． • 右図はparaphrases(⾔い換え)タスクの1例．2⽂が本質的に同じか回答する．

提案⼿法 - Metacognitive Prompting (MP)通常のプロンプティング，CoT，MPの棲み分けモデルから即座に直接的な答えを引き出すモデルが段階を追って論理的に課題に取り組むのを促進する⼈間のような「思考についての思考」を再現し，モデルの課題理解を深める

10.

実験 Dataset：GLUEとSuperGLUEから選んだNLU(Natural Language Understanding)データセットセンチメント分析(SST-2) テキスト類似度(STS-B) 質問⾔い換え(QQP) 質問-回答含意(QNLI) テキスト含意(WNLI, RTE , CB) 語義曖昧性解消(WiC) 共参照解決(WSC) 質問応答 (COPA) ↑ STS-Bだけ回帰タスク他は分類タスク Models：5つのリーディングモデル the open-source models ：Llama-2- 13b-chat (Touvron et al. 2023), Vicuna-13b-v1.1 (Chiang et al. 2023) the closed-source models ：PaLM-bisonchat (Anil et al. 2023), GPT-3.5-turbo, and GPT-4 (OpenAI 2023) (PaLM2の論⽂だったのでおそらくPaLM2) Prompts：3つを⽐較ベースライン：standard prompting (Brown et al. 2020; Kojima et al. 2022), chain-of-thought (CoT) prompting (Wei et al. 2022) 提案⼿法： Metacognitive Prompting

11.

実験結果 Overall Performance Comparison： 3プロンプトの⽐較，数値はzero-shotと5-shotの平均 ←なぜzero-shotと5-shot平均？ • GPT-4はほとんどのデータセットで⼀貫して他のモデルより優れている • MPは⼤半のデータセットで標準プロンプトとCoTプロンプトの両⽅を顕著に上回っている

12.

実験結果 Prompting Strategy Comparison モデル別に全データセットのZero-shotと5-shotの平均Acc データセット別の⽐較．数値は5モデルの平均． • • • • GPT-4がプロンプトによらず性能が良い MPが⼀貫してstandardとCoTを上回る • MPの再評価能⼒は，特にWNLI，WSC，CBなどのデータセットで際⽴つ正確さ，識別⼒，包括的な意味把握が要求されるタスクにおいてMPの可能性を強調する MPの⾃⼰評価と反復的な改良は，ニュアンス理解と⽂脈の深さを必要とするタスクで活きる

13.

分析 Error Analysis：⼈⼒でMPの出⼒をチェック過剰思考(考えすぎ) 過剰修正

14.

分析 Confidence Analysis：MPフレームワークの回答に対する⾃信を評価 • (おそらく)解答確信度をスコア(数値)として出⼒させる． • スコア75%以上の回答はHigh Confidence，それ未満はLow Confidenceとする． • 回答の合っていればCorrect，間違っていればIncorrect 論⽂中にあるFigure 5の混同⾏列が，本⽂中の定義と異なっていた．著者にgithubのissueにて確認したところやはり間違っていたようで，そのうち修正される．これも間違いの可能性あり．無視してください→ 混同⾏列の再定義 TP FP TN FN • ⾼いTPと低いFP→MPの⾃⼰認識を強調する • TNとFNの値からMPは改善の余地あり

15.

Limitations • 特定のデータセットとモデルを⽤いてMPの有効性を評価したため，本研究で得られた知⾒の広範な適⽤性が制限される可能性がある←メタ認知をはかるデータセットではない • ⾔語化されたLLMの確信度は，LLMの真の確信度を測定する決定的な⽅法としては機能しないかもしれない • 本研究では，潜在的なバイアス，プライバシーへの影響，公平性の課題など，重要な倫理的・法的懸念について広範に取り上げていない

16.

まとめ&感想 • 本論⽂では，⼈間の内省的推論過程に着想を得た戦略であるメタ認知プロンプティング (MP : Metacognitive Prompting) を提案．LLMにメタ認知させることによりLLMの理解能⼒向上を⽬指した • LLMにメタ認知させる試みは⾯⽩い．その評価⽅法も今後改良されることが期待される． • 実験結果をzero-shotと5-shotの平均として載せていたのはなぜか分からなかった．(Jeong) • 確信度をスコアが75%以上でHigh Confidenceとする理由が特に述べられていないのはどうなんだろうと思った(閾値によって混同⾏列の結果を恣意的にできるため)．(Jeong) • メタ認知させないと解けないデータセットを使って評価して欲しかった (LLM輪読会参加者)