【大規模言語モデル入門】４章4.1~4.3

2.2K Views

October 24, 24

#大規模言語モデル #LLM #プロンプトエンジニアリング #文脈内学習 #アライメント

スライド概要

京都大学人工知能研究会KaiRA

@kyoto-kaira

スライド一覧

AI・機械学習を勉強したい学生たちが集まる、京都大学の自主ゼミサークルです。私たちのサークルに興味のある方はX(Twitter)をご覧ください！

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

【論文読み会】GraphCast: Learning skillful medium-range global weather forecasting

京都大学人工知能研究会KaiRA 30.5K

【論文読み会】NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis

京都大学人工知能研究会KaiRA 23.4K

【IT Text 自然言語処理の基礎】第7章：事前学習済みモデルと転移学習

京都大学人工知能研究会KaiRA 22.2K

【物体検出】ResNet・EfficientNet (v2)

京都大学人工知能研究会KaiRA 19.2K

【Pythonで学ぶ音声認識】第5章：GMM-HMMによる音声認識（5.3節まで）

京都大学人工知能研究会KaiRA 13.7K

【物体検出】MaskFormer

京都大学人工知能研究会KaiRA 12.7K

各ページのテキスト

大規模言語モデル入門第4章 4.1~4.3 大規模言語モデルの進展奈良女子大学藤本馨 0

概要目次 ⚫ はじめに 4.1 モデルの大規模化とその効果 4.2 プロンプトによる言語モデルの制御 4.3 アライメントの必要性 1

はじめに ● 本章では、主にデコーダ構成のモデルを扱う • ● 一部にエンコーダ・デコーダ構成のT5の話題を含む本章の内容は2023年の状況について解説をしている 2

4.1 モデルの大規模化とその効果 3

LLMのパラメータ数・コーパスの容量の推移と性能の向上 ⚫ ⚫ 大規模言語モデルのパラメータ数と事前学習に使うコーパスの容量は飛躍的に増加背景として、LLMの持つスケール則(Scaling laws)が関係 ⚫ ⚫ モデルの規模を大きくすることで性能が比例して改善するという経験則ただし、モデルの規模を無限に大きくすれば無限に性能改善するというわけではない ⚫ 大きくなればなるほど性能向上率は鈍化発表年度モデル名パラメータ数（単位：個）発表年度モデル名コーパスの容量（単位：語） 2018年 BERT 3.4億 2018年 BERT 30億 2019年 GPT-2 15億 2019年 RoBERTa 300億 2020年 GPT-3 1750億 2020年 GPT-3 3000億 2022年 PaLm 5400億 2022年 Chinchilla 1.4兆 4

LLMの規模を図る指標 ● パラメータ数やコーパスの容量に加えて、訓練時に使われた計算量（＝FLOPS）がよく用いられる ⚫ FLOPS(Floating-point Operations Per Second) ⚫ 訓練時の計算はほぼ浮動小数点数の演算であるため、計算量は浮動小数点演算の回数を表す ⚫ FLOPSとパラメータ数・トークン数の関係 ⚫ ⚫ FLOPS≈ 6・パラメータ数・トークン数モデルが大規模化になるほど、訓練時の計算量が多くなるため、計算資源の確保に多額の予算が必要になる 5

計算量から最適なパラメータ数・トークン数を予測確保できる予算で訓練に使える計算量が決まる効率よく性能の高いモデルを訓練できることが求められる ● 計算量に対して最適なパラメータ数とトークン数を比較的小規模なモデルの性能から予測する研究が行われた ● Gopher(2800億パラメータ・3000億トークン)と同じ計算量を使用し Chinchilla（700億パラメータ・1.4兆トークン）を訓練 ⚫ 大きいパラメータ数かつ少ないトークンで訓練されたモデルよりも、 Chinchillaは一貫して下流タスクの性能が高かった ⚫ 6

創発的能力 ● LLMが一定の規模を超える（FLOPSが一定の値に達する）と、タスクの性能が飛躍的に向上する現象 ⚫ 指標が急激に改善するか、滑らかに改善するかは性能の計測方法によるという指摘もある（正誤で判定・正しい答えにどれだけ近いかを判定）引用元：Emergent Abilities of Large Language Models 7

https://arxiv.org/abs/2206.07682v2

4.2 プロンプトによる言語モデルの制御 8

10.

プロンプトによる言語モデルの制御従来、多くのタスクがファインチューニングを行わないと解けないと思われていた ● モデルの大規模化に伴い、モデルにテキストを入力し後続するテキストをモデルが予測するという単純な方法で解けることが分かってきた ● この時入力するテキストをプロンプトという ● 自然言語処理のタスクの入力と出力をテキストで表現することで、あらゆるタスクを同一のフォーマットで解くことが出来る ● ⚫ 入力に従ってタスクを解く日本の首都は “こんばんは”を英語に翻訳すると東京である “Good evening”になる下記の文を翻訳して下さい。こんばんは Good evening ⚫ 文章から質問の該当箇所を抜き出す抽出型質問応答パッセージを参考にして質問に答えてください。パッセージ：日本は島国で、領土がすべて島で構成されている。日本にある島の数は14,125島である質問：日本にある島の数は？解答： 14,125島である 9

11.

4.2.1 文脈内学習 ● プロンプトを使ってタスクを解く際に有効な方法の1つに例示を与える方法がある ● 日本語から英語への単語の翻訳をプロンプトで行う場合 • zero-shot 学習 • ファインチューニング英単語を日本語に翻訳しなさい cheese -> sea otter -> ラッコ勾配によるモデルの更新 • one-shot 学習英単語を日本語に翻訳しなさい sea otter -> ラッコ cheese -> • few-shot 学習英単語を日本語に翻訳しなさい sea otter -> ラッコ hydrangea -> アジサイ phone -> 電話 cheese -> hydrangea -> アジサイ勾配によるモデルの更新文脈内に訓練させる内容をふくめ、推論時に学習させる方法なので、文脈内学習とも呼ぶ ● 例示を多く与えるほど性能は改善する・・・ phone -> 電話勾配によるモデルの更新 cheese -> 10

12.

4.2.1 文脈内学習どのような仕組みで例示から学習してタスクを解くのかを、感情分析の文脈内学習から考える ● 文章とそれに対する感情ラベルの組み合わせをプロンプトにより推論時に学習させ、文章に対する感情ラベルを推測させる ● タスクに関する意味的な情報入力文の情報ラベルの空間こっちの情報だけでタスクが解ける？入力とラベルの対応関係は学習されているのか？プロンプト内の例示・タスク素晴らしい物語に感動… ありがちな展開で途中… 店舗が悪くて眠くなっ… 衝撃的な結末に思わず… ・・・映画が凄くきれいでし… 肯定的否定的否定的肯定的・・・？大規模言語モデル入力とラベルの対応関係 11

13.

4.2.1 文脈内学習 ● ラベルを無関係な文字列に変えて、意味的な情報からタスクを解けなくし、正解率を比較肯定的否定的・・・？ foo bar ・・・？大規模言語モデル大規模言語モデル肯定的 foo 素晴らしい物語に感動… ありがちな展開で途中… ・・・映画が凄くきれいでし… パラメータ数引用元：LARGER LANGUAGE MODELS DO IN-CONTEXT LEARNING DIFFERENTLY ● モデルの規模が大きくなるにつれて性能は改善 ⚫ 入力とラベルの対応関係を学習できるかどうかはモデルの規模に依存 ⚫ ラベルに無関係な文字列を用いた場合と意味を持つ文字列を用いた場合の性能差は、モデルの規模が大きくなるにつれ小さくなる大規模なモデルほど入力とラベルの対応関係を学習してタスクを解いている ⚫ LLMに限らず、Transformerを使ったモデルは文脈内学習において入力とラベルの対応関係を学習できることが分かっている 12

https://arxiv.org/pdf/2303.03846v2

14.

4.2.2 chain-of-thought推論 ● LLMが苦手とするタスクの1つに多段階の推論が必要となるマルチステップ推論がある（例）部屋に23個のリンゴがあります。料理に20個使い、6個を買い足したとき、何個のリンゴが残りますか？Ａ：23-20=3, 3+6=9 ９個 ● 推論の例示を与えるchain-of-thought推論を用いると、マルチステップ推論の性能が改善する回答に加えて推論過程を示す例示をプロンプトに含め、LLMに与える ⚫ 推論過程を与えず、「ステップごとに考えよう」のような推論過程の生成を促す文字列をプロンプトの末尾に付加し、LLMに与える方法をzeroshot chain-of-thought 推論といい、これだけでも性能が改善する ⚫ ⚫ プロンプトを工夫することで性能を図ったり新しいタスクを解けるようにすることをプロンプトエンジニアリングという 13

15.

4.2.2 chain-of-thought推論 ● 通常のプロンプト質問：部屋に23個のリンゴがあります。料理に20個使い、6個を買い足したとき、何個のリンゴが残りますか？ ● chain-of-thought推論質問：部屋に23個のリンゴがあります。料理に20個使い、6個を買い足したとき、何個のリンゴが残りますか？推論過程の例示を付加回答：答えは9個です。質問：太郎君は5個のテニスボールを持っていました。彼は新しく2缶のテニスボールを買いました。1缶には3個のテニスボールが入っています。今、彼は何個のテニスボールを持っていますか？回答：回答：リンゴは最初23個あります。料理に20個使用すると、23-20=3 より、3個のリンゴが残ります。そのあと6個買い足しているので、 3+6=9より9個のリンゴが残ることになります。したがって答えは9個です。 ● zero-shot chain-of-thought推論質問：太郎君は5個のテニスボールを持っていました。彼は新しく2缶のテニスボールを買いました。1缶には3個のテニスボールが入っています。今、彼は何個のテニスボールを持っていますか？回答：ステップごとに考えよう推論過程の生成を促す文字列を付加質問：太郎君は5個のテニスボールを持っていました。彼は新しく2缶のテニスボールを買いました。1缶には3個のテニスボールが入っています。今、彼は何個のテニスボールを持っていますか？回答： 14

16.

4.3 アライメントの必要性 15

17.

アライメントとは人間や社会にとって有益で適切な挙動になるように大規模言語モデルを調整すること ● 役立つこと(helpful) 、正直であること(honest)、無害であること(harmless)のHから始まる3つの基準(HHH)でアライメントを行うことが提案されている ● 16

18.

役立つこと ● モデルは人間の指示に従う必要があると同時に人間の意図を推測する必要がある入力：6歳児に月面着陸についていくつかの文で説明する。出力：6歳児に重力の理論を説明する。相対性理論を6歳児にいくつかの文で説明する。ビッグバン理論を6歳児に説明する。 ● 説明をしてほしいのに、入力と同じような文章を挙げているこうした挙動はアライメント手法で改善することが出来る 17

19.

正直であること ● LLMは虚偽の内容を生成することがあるもっともらしいトークンを予測するように訓練されており、回答に必要な知識を保持していない場合でも、訓練コーパスに存在するそれらしいトークンを生成してしまう ⚫ 例えば、「横浜市にあるおすすめのレストランは？」と入力すると、横浜市にないレストランの名前を出力する ⚫ モデルがこのような虚偽の生成を行う性質を幻覚（hallucination）と呼ぶ ● 虚偽の内容の生成を抑制し、正直に回答を生成するようにLLMを制御することは重要な課題である ● わ、わかりません・・・正直でよろしい！ 18

20.

無害であること LLMの訓練コーパスは、ウェブから大規模に収集されているため、性的、暴力的、非倫理的な内容など、多くの有害な情報が含まれている ● こうしたコーパスで訓練されたモデルは、アライメントを行わないと有害な情報を頻繁に生成する ● • ● コーパスに含まれているバイアスをそのまま反映する • • ● 爆発物の生成方法など職業と性別の関係のステレオタイプ国や国籍が肯定的・否定的なイメージ訓練コーパスに含まれる個人情報を生成する可能性がある 19

21.

主観的な意見の違い ● データセットに含まれる意見の傾向を学習すると、特定の属性を持つ集団の意見へのバイアスを持つことになる • 事前学習コーパスはもちろん、アライメントに使われるデータセットにも注意が必要アライメントを行うこと自体が特定の促成を持つ集団の意見への偏りを生んでいる ● アライメントの目指すべき姿はどのような意見をもったLLMなのかという難しい問題を含んでいる ● 20

22.

2. 便利なテンプレ集まとめ • LLMのパラメータ数・コーパスの容量が大きくなれば、性能は向上するが、大きくなればなるほど、向上率は鈍化する 4.1 モデルの大規模化とその効果 • モデルが大規模化になるほど、訓練時の計算量が多くなるため、計算資源の確保に多額の予算が必要になる • そのため、計算量に対して最適なパラメータ数とトークン数を比較的小規模なモデルの性能から予測する研究が必要とされている 4.2 プロンプトによる言語モデルの制御 4.3 アライメントの必要性 • プロンプトを工夫することで性能を図ったり新しいタスクを解けるようにすることをプロンプトエンジニアリングという • few-shot学習（文脈内学習）とchain-of-thought推論を紹介 • 人間や社会にとって有益で適切な挙動になるように大規模言語モデルを調整することをアライメントという • LLMは大規模データを学習しているため、データに含まれる意見・国や性別、職業によるバイアスを出力に反映してしまう • 適切なアライメントとは何かという難しい問題を含んでいる 21

23.