13K Views
October 27, 23
スライド概要
DL輪読会資料
DEEP LEARNING JP [DL Papers] Table-GPT : Table-tuned GPT for Diverse Table Tasks 小林 範久 Present Square Co.,Ltd. http://deeplearning.jp/ 1
書誌情報 タイトル: Table-GPT:Table-tuned GPT for Diverse Table Tasks https://arxiv.org/abs/2310.09263 著者: Peng Li, Yeye He, Dror Yashar, Weiwei Cui, Song Ge, Haidong Zhang, Danielle Rifinski Fainman, Dongmei Zhang, Surajit Chaudhuri (Microsoft Corporation) 概要: • テーブルタスクの理解能力を向上させるために、テーブルタスクのトレーニングデータを使用して言語 モデルを「テーブルチューニング」する新しいパラダイムを提案。 • テーブルチューニングされた Table-GPT は、新しいテーブルタスクや未見のテーブルタスクを含む幅 広いテーブルタスクにおいて、一貫して GPT-3.5 や ChatGPT を上回る性能を示した。 • 多様な人間の指示に対応して新しいテーブルタスクを実行する能力においても、高い汎用性を示し た。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 2
アジェンダ 1. イントロダクション 2. 準備 3. 言語とテーブル 4. TableGPT-TUNNING(手法) 5. 実験 6. 結論 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 3
1. イントロダクション 1.イントロダクション • 今日の言語モデルは、自然言語タスクに優れているが、信頼性の高い「テーブル(表)」を読むことができない。 自然言語のテキスト (1)一方向性。 (2)左から右への読み出し。 (3)2つのトークンを入れ替えると、一般に文の意味が変わってしまう。 テーブルデータ (1)行と列の両方を持つ性質の二次元である。 (2)同じ列の値に対して垂直方向に上から下へ読むことが、多くのテーブルタスクにおいて重要であ る。 (3)テーブルは行と列の並べ替えに対して大きく「不変」であり、2つの行または列を入れ替えても、 一般にテーブルの意味は変わらない。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 4
1. イントロダクション テーブルデータに対するテスト (図1) T-1: Missing-value-identification (欠損値識別) T-2:Column-finding(列検索) 言語モデルを利用して、テーブル全体に一度だけ現れ る 特定のセル値を見つけ、その値のカラム名を応答させ る。 大規模なモデル(例えば175B GPT-3.5)でも、このようなテストでは頻繁に失敗し、 テストの1つのバリエーションでは0.26の精度しか得られない。 言語モデルを利用して、テーブルを代替フォーマッ トで示し、テーブルの中に空のセルがあることを確 認する。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 5
1. イントロダクション テーブルタスクの例 (図2) T-3:Table Question Answering (テーブル質問応答) 90点以上の美術を履修した中学2年 生は何人でしょう? が正解できない。 T-8:Data Imputation(欠損値の補完) 欠損値を推測するには、列を読むこと が必要になる。 言語モデルがテーブルを縦に「読む」能力が重要である。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 6
1. イントロダクション 1.イントロダクション • 大規模言語モデル(GPT、LLaMa等)は近年、多様な自然言語タスクの実行において優れた能力を示している。 • データベースの文献では、プロンプトエンジニアリングを利用して、エンティティマッチングや欠損値補完といった多 くのテーブルタスクにおいて言語モデルをうまく機能させることが示されている。 • プロンプトエンジニアリングはモデルの性能向上に寄与するが、タスク固有のチューニングが必要である。 • 本研究では、「テーブルチューニング」という新しいパラダイムを提案する。 • プロンプトの修正ではなく、多様なテーブルタスクを学習データとして利用することで言語モデルの重みを修 正する。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 7
1. イントロダクション 命令チューニングとテーブルチューニングの比較 (図3) 命令チューニング • 自然言語処理コミュニティで開発された手法で、言 語モデル(例:GPT)を訓練し、命令追従機能 (例:ChatGPT)を継続するものである。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. テーブルチューニング • テーブルをよりよく理解し、テーブルタスクを実 行するために言語モデルを学習することを提 案する類似のアプローチである。 8
2. 準備 2.1 言語モデル エンコーダ型言語モデル • 一般的な言語モデルの一クラスであるBERTやRoBERTaは、Transformerからのエンコーダのみを使用する。 • これらの言語モデルは、埋め込みベクトルを使用してテキストの意味を効果的に表現する。 • 大量のテキストで事前学習が行われることにより、テキストの意味の表現が可能となる。 ダウンストリームタスク • ダウンストリームタスクにおいてはタスク固有のファインチューニングが必要。 • BERTなどのエンコーダ型モデルを使用する際、タスク固有のラベル付きデータを利用してモデルをファインチューニング(または 訓練)する。 例: Yelpレストランレビューのセンチメント分析においては、ラベル付きデータ(例: 「The food is hazrey", "positive」)が必要。 • ターゲット入力データや希望する出力が変わると、ラベリング作業を再度行うことで、最適なパフォーマンスを達成できる可能性 がある。 • 新しい未知のタスクに対する汎化能力には限界があり、エンコーダ型言語モデルはタスクに特化したラベル付きデータでのファイ ンチューニングが必要。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 9
2. 準備 2.1 言語モデル デコーダ型「生成的」言語モデル • デコーダ型言語モデル(GPTやLLaMaなど)は、本質的に生成的であり、タスク固有のファインチューニングなしに新しい下流タスクに 適応する能力に優れている。 • このクラスのモデルはゼロショット学習と数ショット学習において、特に命令チューニング(例 : ChatGPT/InstructGPTやStanford Alpacaなど)後に、新しいタスクに容易に適応することが可能。 • 自然言語命令(例: "次のレビューで感情を分類")とオプションでいくつかの例を使って、新しいタスクに適応することが文献で示されて いる。 • 新しいデータセットや新しいタスクに適応する際に、特定のタスクごとにラベル付けされたデータでのファインチューニングなしに、デ コーダスタイルのモデルを更に一般的で汎用的にすることが可能。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 10
2. 準備 2.2 テーブルタスクの言語モデル テーブルタスクのためのエンコーダ型言語モデル • テーブルモデルは、BERTのようなエンコーダ式モデルに基づいて学習され、多くのテーブルタスクで良好な性能を示してい る。 • BERTのようなベースモデルと同様に、新しいデータセットやタスクに対応するためには、エンコーダスタイルのテーブルモデル をラベル付きデータでファインチューニングする必要がある。 • 本研究では、タスクに応じたファインチューニングなしで新しいデータセットやタスクに適応することを重要な目標 としており、こ れを 図4 で示している。 テーブルタスクのためのデコーダ型言語モデル • GPT-3やChatGPTのようなデコーダ型言語モデルの成功により、命令のみでタスクを実行する能力が示されている。 • データベース分野の先駆的な研究を通じて、テーブルタスク向けの「プロンプトエンジニアリング」技術が開発されている。 • プロンプトエンジニアリングは、プロンプト内の命令と例を慎重に選択することで、言語モデルがテーブル関連タスクで良好な 性能を発揮できるように支援する。 テーブルタスクのためのテーブルチューニング • プロンプトエンジニアリング(プロンプトの最適化)とは異なり、テーブルチューニングは、基本的な言語モデルを一度だけ訓練 し続け(タスク固有ではない)、様々なテーブルタスクでの性能向上を目指す方法を提案 している。 • テーブルチューニングはプロンプトエンジニアリングを補完するものである。 • 慎重に設計された命令と例は、GPTとTable-GPTの両方に利益をもたらし、実験によりその効果が示されている。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 11
2. 準備 2.2 テーブルタスクの言語モデル • テーブルモデルは新しいデータセットや新しいタスクに「汎化」することが理想的である。 (図4) 列タイプアノテーション(CTA) テキストからテーブルを抽出 • 一般的なテーブルタスクにおけるターゲットタイプの選択 は、データセットによって異なる。 • 再トレーニングなしに新しいCTAデータセットに対して「汎 化」するテーブルモデルを作成することは有益である。 • 一般的なテーブルモデルは、新しい未知のテーブルタ スクを実行するための指示に従う能力が求められる。 (例: 「テキストからテーブルを抽出する」タスクを実行。) • ChatGPTのようなモデルと同様に、汎用性が重要。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 12
2. 準備 2.2 テーブルタスクの言語モデル テーブルタスクのためのテーブルチューニング • インストラクションチューニングは、モデルの「汎化性」を向 上させ、多様な人間の指示に従って新しいタスクや未知 のタスクを実行する。(y軸) • テーブルチューニングは、テーブルを理解しテーブルタス クを実行するモデルの「性能」を向上させることを目的とし ている。(x軸) テーブルチューニングは、テーブルタスクの汎化性と性能の 両方を向上させ、様々なテーブルタスクを効果的に実行する 能力を持ったモデルを目指している。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 13
3. 言語とテーブル 3. 言語モデルはテーブルを「読む」ことができるか? 一次元(テキスト) 対 二次元(表) • 言語モデルはテキストの並びに敏感で、単語の順序変更が意味を変える。一方、テーブルは順序に不敏感で、 行や列の入れ替えが意味を変えない。しかし、言語モデルをテーブルタスクに適用すると、列の順序によって結 果に影響を受ける。 欠損値の補完 • 欠損値を推測する前に、水平方向に垂直に見て、コラムヘッダー(この場合は「大陸」)と、同じコラム内の他の 値(例えば「アメリカ」)を見ることは自然なことである。 セルが誤りであるかどうかを判断する • 同じ列のカラムヘッダと他の値を見て、列の意味を理解することも必要である。 テーブルとテキストのその他の違い • テーブルセルの短い名前や列の均質な値、正規の関係のエンコードが含まれており、これらはテーブルをテキ ストと区別し、言語モデルをテーブル適用することを難しくする。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 14
3. 言語とテーブル タスクT-1(Missing-cell-identification) の2つのバリエーション T-1(a) Missing-value, with col-separator T-1(b) Missing-value, no col-separator 実テーブルからランダムな セルを削除し、列分離器を 保持する。¦ ¦ “は、セルが欠 けていることを示す。 ランダムセルとその列分離器を削 除する。一般的だが挑戦的なCSV 構文解析の問題。 図6 • 「Missing-cell-identification」のテストでは、実テーブルからランダムにセルを削除し、言語モデルに欠損セルの位置を識別させる。 • 2つのシナリオでテストし、一方は列区切り¦ ¦を保持、もう一方は取り除いている。 • 1000回の繰り返しテストの結果、モデルは列方向の読解に苦労し、低い精度を示した。言語モデルの 2次元テーブル読解能力は不 十分。 (T-1)欠測のタスクに対する GPT-3.5 (Text-Davinci-002 を使用)の精度 表1 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 15
4. TableGPT-TUNNING TableGPT-TUNNING • 多様なテーブルタスクの合成方法と新しいテーブルタスク及び既存のテーブルタスクの新しいテストケース作成に向けた2つの アプローチ。 ①大量の実テーブルを利用して、テーブル理解、補強、そして操作タスクを合成する。 (言語モデルが2次元テーブル構造を理解し、その能力を向上させるため。) ②テーブル要約タスクを例に、モデルにテーブルコンテンツを要約するように依頼する。 (言語モデルのテーブルタスク実行能力を向上させるための多様な学習データを提供するため。) その他 • テストはモデルがテーブルを操作する能力を評価する。行や列を整列するタスクを含む。 • ソートタスクでは、特定の列の値に基づいてテーブルの行をソートするようモデルに指示し、別のタスクでは列をソートする。 • ヘッドバリューマッチングタスクでは、テーブルの列ヘッダを削除し、シャッフルした後でモデルにヘッダを再配置するように依 頼する。 ⇒これらのタスクはモデルがテーブルの意味を理解し、適切に操作できるかを評価することを目的としている。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 16
4. TableGPT-TUNNING テーブルチューニングするために収集・合成した 18のテーブル関連タスクの概要 • テーブル関連タスクとして、様々な分野をカバー(テーブル理 解、テーブル-QA、テーブルマッチング、テーブルクリーニン グ、テーブル変換など。) • T-1〜T-4は未知のホールドアウトタスクとして使用され、 Table-GPTの全く新しい未知のタスクに対する汎化能力を 評価。 教師データを自動的に生成できる場合 • 教師データが自動的に生成できる場合、学習データの多様 性を確保し、オーバーフィッティングを避けるために、多様な 実テーブルからテーブルタスクを「合成」することを選択す る。 教師データを自動的に生成できない場合 • 教師データが自動的に生成できない場合(例:エンティティ マッチング、table-QA、NL-to-SQLなど)には、文献にある 既存のベンチマークデータを使用する。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 17
4. TableGPT-TUNNING テーブルチューニングするために収集・合成した18のテーブル関連タスクの概要 T-1 Missing-value identification (MV) 与えられたテーブルの中で唯一欠けているセルの行と列の位置を 特定する。 T-2 Column-finding (CF) 指定されたテーブルに一度だけ現れる特定の値の列名を特定す る。 T-3 Table-QA (TQA) テーブルの内容に基づいて自然言語で質問に答える。 T-4 Column type annotation (CTA) あるカラムの意味上の型を、与えられた選択肢の中から見つける。 T-5 Row-to-row transform (R2R) 入出力例に基づいてテーブルデータを変換する。 T-6 Entity matching (EM) 同じ実世界エンティティを参照する 2つのテーブルの行をマッチさせ る。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 18
4. TableGPT-TUNNING テーブルチューニングするために収集・合成した18のテーブル関連タスクの概要 T-7 Schema matching (SM) 同じ意味を持つ 2つのテーブルの列をマッチさせる。 T-8 Data imputation (DI) テーブルのコンテキストに基づいて、セルの欠損値を予測する。 T-9 Error detection (ED) スペルミスによるエラーの可能性が高いテーブルのデータ値を検出す る。 T-10 List extraction (LE) 明示的なカラム区切りがないリストから、構造化されたテーブルを取り 出す。 T-11 Head value matching (HVM) カラムヘッダを同じテーブルから抽出したデータ値と一致させる。 T-12 Natural-language to SQL (NS) テーブルに関する自然言語による質問を SQLクエリに変換する。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 19
4. TableGPT-TUNNING テーブルチューニングするために収集・合成した18のテーブル関連タスクの概要 T-13 Table summarization (TS) テーブルの内容を自然言語で要約する。 T-14 Column augmentation (CA) 与えられたテーブルと互換性のある追加カラムでテーブルを補強する。 T-15 Row augmentation (RA) 与えられたテーブルと互換性のある行を追加する。 T-16 Row/column swapping (RCSW) 2つの行または列の位置を入れ替えることによって、与えられたテーブ ルを操作する。 T-17 Row/column filtering (RCF) 指定された行や列をフィルタリングして、指定されたテーブルを操作す る。 T-18 Row/column sorting (RCS) 指定された行または列に対してソートを実行することで、指定されたテー ブルを操作する。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 20
4. TableGPT-TUNNING 4.1 テーブルチューニングのアルゴリズム • 「合成-拡張」アプローチを提案し、これを学習データとして用いて言語モデルをテーブルチューニングする。 2行目 3行目 4行目 6-8行目 実テーブルC サンプリングテーブル T∈C テーブルタスクS∈S Copyright (C) Present Square Co., Ltd. All Rights Reserved. 9行目 21
4. TableGPT-TUNNING 4.2 多様なテーブルタスクの合成 (T-13) Table summarization (TS) Copyright (C) Present Square Co., Ltd. All Rights Reserved. 22
4. TableGPT-TUNNING 4.2 多様なテーブルタスクの合成 (T-14) Column augmentation(CA) (T-15) Row augmentation (RA) Copyright (C) Present Square Co., Ltd. All Rights Reserved. 23
4. TableGPT-TUNNING 4.2 多様なテーブルタスクの合成 (T-16) Row/column swapping (RC / SW) • これらのテーブルタスクは「テスト」目的で使用する意図はないが、テーブルを「自然言語テキストとしてシリアライズ」する方法 は、言語モデルに入力を提供する唯一の方法であるため重要である。 • これらのテーブルタスクは、「データ学習」としてモデルがテーブルの読み取りと理解を向上させるのに依然として有用である、 との認識が示されている。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 24
4. TableGPT-TUNNING 4.2 多様なテーブルタスクの合成 (T-17) Row/column filtering (RCF) (T-18) Row/column sorting (RCS) Copyright (C) Present Square Co., Ltd. All Rights Reserved. 25
4. TableGPT-TUNNING 4.2 多様なテーブルタスクの合成 (T-11) Head value matching (HVM) (T-5) Row-to-row transform (R2R) Copyright (C) Present Square Co., Ltd. All Rights Reserved. 26
4. TableGPT-TUNNING 4.2 多様なテーブルタスクの合成 (T-7) Schema matching (SM) (T-8) Data Imputation(DI) Copyright (C) Present Square Co., Ltd. All Rights Reserved. 27
4. TableGPT-TUNNING 4.2 多様なテーブルタスクの合成 (T-9) Error detection (ED) (T-10) List extraction (LE) Copyright (C) Present Square Co., Ltd. All Rights Reserved. 28
4. TableGPT-TUNNING 4.3 Augment synthesized テーブルタスク 命令レベルのオーグメンテーションを行う 命令レベルでは、訓練データインスタンス間で同じ命令を繰り返し使用すると過剰適合につながるため、 GPTなどの生成モ デルを用いて正準命令をオーグメンテーションし、人間が書いた命令を多くの異なる変種に言い換える。 “Please look at the table below and provide a title that can summarize the table” ↓ “Please examine the table below and give it a descriptive title” 言語モデルを用いてタスクの代替指示を生成し、「以下の表を見て、説明的なタイトルをつける」というようなバリエーションを 生成し、 それを使ってテーブルタスクのインスタンスを代替指示として入力することができる (6行目)。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 29
4. TableGPT-TUNNING 4.3 Augment synthesized テーブルタスク テーブルレベルのオーグメンテーション 補完レベルのオーグメンテーション Copyright (C) Present Square Co., Ltd. All Rights Reserved. 30
4. TableGPT-TUNNING 4.3 Augment synthesized テーブルタスク 言語モデルによる補完オーグメンテーショ ン • (T-8)エンティティマッチングのタスクで、2つのテーブル行が同じ実世界のエンティティを 参照しているかどうかをモデルで識別する必要がある。 • 表チューニング前の言語モデルに対して、2つの操作モードを試した。 (1) Direct-answer:直接回答:モデルに "yes/no "を指示した場合。 (2) Reason-then-answer:モデルには「はい/いいえ」の答えを出す前に、 プロンプト内で段階的に説明する必要がある場合。 図7 • 目的は、言語モデルをテーブルチューニングし、複雑なテーブルタスクに対する性能を向上させ、ステップバイステップの推論を 行う習慣をモデルに身につけさせること。 • 複雑なタスク、例えばエンティティマッチングでは、「直接回答」モードのモデルはミスをしやすく、精度が低下する傾向がある。し かし、「理由-回答」モードでは、表チューニング前の言語モデルでも性能が向上する。ステップバイステップの推論チェーンを通じ て、正しい答えを生成する可能性が高まる。 • 直接のイエス/ノー回答をより詳細な回答に置き換えることで、テーブルチューニングのための学習データを生成し、言語モデル が推論を学習できるようにする。 • GPTにyes/no回答を与え、新しい推論ステップをモデルに生成させることで、複雑なテーブルタスクに対してテーブルチューニン グされたモデルが正しい推論ステップを実行することを促進する。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 31
4. TableGPT-TUNNING 4.3 Augment synthesized テーブルタスク 教師データの補修支援 補完補強の別の例で、(T-9)のタスクの例について、教師データを用いてステップバイ ステップの推論を生成している。 誤り検出 図7 タスク: 与えられたテーブルからスペルミスを識別する。 問題: 言語モデルは、誤り検出タスクにおいてスペルミスがない場合でもスペルミスがあると誤って予測し、偽陽性を生成 する。 偽陽性の発生は「ステップバイステップ」の思考連鎖スタイルプロンプトの有無にかかわらず続く。 解決策: テーブルタスク合成ステップで利用可能な教師データを使用し、拡張補完を生成して推論ステップを埋め込む。 方法: 補完には予測値と、スペルミスの正しいバージョンを指摘する説明を含める(例 :「ミスシピ」は「ミシシッピ」であるべ き)。 結果: この方法は偽陽性を大幅に減少させ、結果の質を向上させることが確認された。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 32
4. TableGPT-TUNNING
4.4 "テーブル・ファウンデーション・モデルとしてのTable-GPT"
• アルゴリズム1の合成-拡張アプローチを利用して、多数の多様なテーブルタスクA = {(Ins,T, C)}を生成する。
• GPTのような言語モデルの学習を継続し、直列化された(Ins,T ) を「プロンプト」とし、Cを「completion」とする。この過程
で、プロンプトが与えられた際の言語モデリングによる完了の損失を最小化することを目指す。この処理を
テーブルチュー
ニングと呼ぶ。
• GPTやChatGPTなどのデコーダ型言語モデルをMとし、テーブルチューニングされたMをTableTune(M)とする。
以下の全てのシナリオにおいて、TableTune(M)がTable-taskにおいてMより良い性能を発揮することを確認する。
(1) Out of the box zero-shot:MまたはTableTune(M)を用いてテーブルタスクを行う場合。
(2) Out of the box few-shot:命令とランダムに選択された数例を用いてテーブルタスクを行う場合。
(3) タスク固有のプロンプトチューニング:下流タスクのラベル付きデータが少量ある場合、プロンプトチューニングを行い、
最適な命令例の組み合わせを選択する場合。
(4) タスク固有のファインチューニング:十分な量のラベル付きデータがあり、タスクに対してタスク固有のファインチューニングを
行う場合。
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
33
5. 実験 5.1 実験セットアップ 比較モデル Table-GPT 基本モデル: ChatGPT (text-chat-davinci-002) テーブルチューニングを施したモデルであり、ChatGPTとの比較を目的としている。 GPT-3.5: モデル名: GPT-3.5 (text-davinci-002) 175Bのモデルで、OpenAIから入手可能。GPTモデルの一例であり、比較の基準とされる。 Table-GPT-3.5 基本モデル: GPT-3.5 (text-davinci-002) このモデルはテーブルチューニングを行うことで得られ、GPT-3.5の性能と比較される。 ChatGPT: モデル名: ChatGPT (text-chat-davinci-002) ChatGPTの一例であり、バージョン情報としては特に明示されていない。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 34
5. 実験 5.1 実験セットアップ 学習データの設定 • デフォルト設定では、14種類のテーブルタスク(T-5からT-18)が学習データとして利用される。 • タスクタイプ T-6 (Entity Matching) および T-12 (NL-to-SQL) は、他のタスクと異なり、テーブルタスクの合成インスタン スを使用しない。 タスクインスタンスの生成 • セクション4で説明されている合成-拡張アプローチに従い、各タスクタイプについて、ゼロショットと少数ショットのテンプレートを 50:50の比率で混合し、1000個のタスクインスタンスを生成する。 データのサンプリング エンティティマッチングとNL-to-SQLの特別な処理 • これらのタスクでは、自動合成が困難であるため、それぞれ[1]と[65]の既存の手動でラベル付けされたベンチマークデータを使 用する。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 35
5. 実験 5.1 実験セットアップ タスクとデータのテスト Copyright (C) Present Square Co., Ltd. All Rights Reserved. 36
5. 実験 5.1 実験セットアップ • GPT-3.5とChatGPTの両方について、個々のデータセットについてテーブルチューニングを行った結果の詳細。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 37
5. 実験 5.2 品質比較。未知+視聴のタスク 比較対象: GPT-3.5とChatGPTをベースモデルとし、それぞれのバニラモデルとテーブルチューニングしたモデルの性能を比較。 表示内容: 図8には各タスクグループごとに4本のバーが表示されており、最初の2本はゼロショット設定、最後の2本は数ショット設定を表 している。 性能向上: テーブルチューニングされたモデルは多様なテーブルタスクに対して強い性能向上を示している。 テーブルチューニングの利点: GPT-3.5とChatGPTの両方をベースモデルとして使用した場合に表チューニングの利点が観察され、 異なるスタイルの基本言語モデルに対するテーブルチューニングアプローチの一般性が示されている。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 38
5. 実験 5.2 品質比較。未知+視聴のタスク • 各データセットレベルでの結果の詳細が示されている。 • 26個のテストデータセットにおいて、2つのベースモデル(GPT-3.5 と ChatGPT)と2つの設定(ゼロショットと数ショット)を用いて、合計104個 のテストが行われた。 • テーブルチューニングしたモデルは、バニラチューニングしていないモ デルを104個のテストのうち98個で上回り(3個は同点、3個は損失)、 テーブルチューニングの強い性能上の利点が明らかにされた。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 39
5. 実験 5.3 タスクに特化した最適化に対する利点 テーブルチューニングの可能性: ゼロショットおよびfewショット設定で良好な性能を示し、タスク固有の最適化を適用することで下 流のタスクの品質が向上する場合、テーブルチューニングされたGPTモデルを「テーブル基盤モデル」として使用できる可能性が ある。 プロンプトエンジニアリング: 列型アノテーション(CTA)タスクで、200個のラベル付き例を使用して最適な数発の例を選択し、プロン プトの効果を評価。Table-GPT-3.5はGPT-3.5に比べて一貫して優れた性能を示した。 シングルタスクのファインチューニング: Table-GPT-3.5とGPT-3.5において、タスク固有のファインチューニングを行い、それぞれ のタスクのラベル付きデータを使用。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 40
5. 実験 5.3 タスクに特化した最適化に対する利点 • CTAタスクと表質問応答(TQA)タスクで性能を比較し、学習データ量を変化させながら評価。 • Table-GPT-3.5は、同じ学習データ量であればGPT-3.5よりも優れた性能を示し、また、同じ性能を達成するためには Table-GPT-3.5をファインチューニングする方が、GPT-3.5をファインチューニングするよりも少ない数のラベル付きデータが必 要であることが示された。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 41
5. 実験 5.4 Sensitivity Analysis • 感度分析を実施し、テーブルチューニングの理解を深める。 • 学習タスクの数を変化させて、多くの学習タスクを使用することで得られ る一般的な利点を確認する。 • 1/5/10タスクを全ての学習テーブルタスクからそれぞれ4回サンプリング し、選択したタスクのサブセットに対してファインチューニングを行う。 • ファインチューニングされた各実行から平均を計算し、結果を分析する。 • 図13には平均的な品質の結果が示されており、タスク数が少ない(例: 1) 場合、テーブルチューニングはシングルタスクチューニングに縮退し、実際 に他のタスク全般のパフォーマンスを低下させている。 • タスク数が増えると、性能は全てのタスクおよび全タスクの平均で一貫し て向上し、マルチタスク学習の利点を示している。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 42
5. 実験 5.5 アブレーション研究 • seen/unseen タスクでのベースモデルとテーブルチューニングモデルの平均 的な性能を示している。 • 未知のタスクにおいて、テーブルチューニングされたモデルは小さなモデル (Ada/Babbage/Curie)ではほぼ効果がないが、大きなモデル(GPT-3.5と ChatGPT)では効果が大きく増大する。 • 異なるテーブル形式を使用した場合の平均性能を示している。 • Markdown形式は他の形式よりも平均的に性能が良いが、その差 はあまり大きくない。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 43
5. 実験 5.5 アブレーション研究 • 異なるオーグメンテーション戦略の利点を比較。 • タスクレベルの拡張を行わない場合(合成タスクなし:NoSyn)、SeenタスクとUnseenタスクの平均性能が大きく低下。 • テーブルレベルのオーグメンテーションを行わない場合(列の並べ替えなし:NoColPer)、SeenタスクとUnseenタスクの平均性能が 低下。 • 命令レベルの増強を行わない場合(プロンプトの変動なし:NoPromptVar)、SeenタスクとUnseenタスクの平均性能が若干低下。 • 完了レベルのオーグメンテーションを行わない場合(chain-of-thoughtを行わない:NoCOT)、Seenタスクの平均性能が低下。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 44
6. まとめ まとめ • 本研究は、大規模言語モデル(例:GPT-3.5、ChatGPT)のモデル重みをファインチューニングし続けることで、テーブルの理解や テーブルタスクの実行に優れ、未知のタスクに対しても多様な人間の指示に従う能力を持つ、 "テーブルチューニング"という新しいパ ラダイムを提案。 • 命令チューニングのように、テーブルチューニングも自然言語処理分野で豊富で実りある研究になる可能性があり、テーブルやテー ブル関連タスクに最適化されたモデルの開発への第一歩となった。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 45
Appendix 参考文献 [5] Rohan Anil, Andrew M Dai, Orhan Firat, Melvin Johnson, Dmitry Lepikhin,Alexandre Passos, Siamak Shakeri, Emanuel Taropa, Paige Bailey, Zhifeng Chen,et al. 2023. Palm 2 technical report. arXiv preprint arXiv:2305.10403 (2023). [8] Tom Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared D Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, et al. 2020. Language models are few-shot learners. Advances in neural information processing systems 33 (2020), 1877–1901. [12] Aakanksha Chowdhery, Sharan Narang, Jacob Devlin, Maarten Bosma, Gaurav Mishra, Adam Roberts, Paul Barham, Hyung Won Chung, Charles Sutton, Sebastian Gehrmann, et al. 2022. Palm: Scaling language modeling with pathways. [50] Hugo Touvron, Thibaut Lavril, Gautier Izacard, Xavier Martinet, Marie-Anne Lachaux, Timothée Lacroix, Baptiste Rozière, Naman Goyal, Eric Hambro, Faisal Azhar, et al. 2023. Llama: Open and efficient foundation language models. [20] Raul Castro Fernandez, Aaron J Elmore, Michael J Franklin, Sanjay Krishnan, and Chenhao Tan. 2023. How Large Language Models Will Disrupt Data Management. Proceedings of the VLDB Endowment 16, 11 (2023), 3302–3309. [29] Keti Korini and Christian Bizer. 2023. Column Type Annotation using ChatGPT. [39] Avanika Narayan, Ines Chami, Laurel Orr, Simran Arora, and Christopher Ré. 2022. Can foundation models wrangle your data? [43] Ralph Peeters and Christian Bizer. 2023. Using ChatGPT for Entity Matching. Copyright (C) Present Square Co., Ltd. All Rights Reserved. 46