316 Views
March 22, 22
スライド概要
2022/03/18
Deep Learning JP:
http://deeplearning.jp/seminar-2/
DL輪読会資料
DEEP LEARNING JP [DL Papers] Revisiting Deep Learning Models for Tabular Data (NeurIPS 2021) 表形式データに対するディープラーニングモデルの再整理 山本 貴之 (ヤフー株式会社) http://deeplearning.jp/ 1
書誌情報 タイトル: Revisiting Deep Learning Models for Tabular Data 表形式データに対するディープラーニングモデルの再整理 https://arxiv.org/abs/2106.11959 (NeurIPS 2021) 著者: Yury Gorishniy*†‡ , Ivan Rubachevy†♣, Valentin Khrulkov† , Artem Babenko ♣ † Yandex (ロシア) ‡ モスクワ物理工学大学(ロシア) ♣ 国立研究大学高等経済学院(ロシア) 概要: 表形式データについて、ディープラーニング(以下DL)と GBDT(決定木系)で精度比較 提案手法FT-Transformerを中心に、11のデータセットで比較し優位性を考察した 選定理由: ビジネスでは表形式データを扱う機会が多い 文章・画像・音声を含む表形式データをend to endで学習し精度を出すにはDL活用が重要 公式実装: https://github.com/yandex-research/rtdl ※出典記載の無い図表は本論文からの引用 2
アジェンダ 1. 導入 2. 先行研究 3. 手法 4. 実験 5. まとめ 3
アジェンダ 1. 導入 2. 先行研究 3. 手法 4. 実験 5. まとめ 4
1. 導入 文章、画像、音声などの領域におけるDLの成功により、表形式データの問題への拡張が注目されている 背景 表形式データはGBDTという強力なライバルがいるが、DLでより高い性能が得られる可能性がある 表形式データに加え、画像や音声が含まれる場合、DLはマルチモーダルなパイプラインを構築出来るのが魅力的 最近 表形式データに対するDLソリューションが多数提案されている 確立されたベンチマークがない為、各論文が異なるデータセットを用い、互いに適切に比較されていない 課題 DLとGBDTの比較においても上記同様 多様なタスクで安定した性能を発揮する、シンプルで信頼性の高いソリューションが不足している 5
アジェンダ 1. 導入 2. 先行研究 3. 手法 4. 実験 5. まとめ 6
2. 先行研究 DL or GBDT 本論文で用いる表形式データに対するソリューション 一覧 分類 論文 仕組み 決定木 NODE (Popov et al., 2020) 微分可能な決定木 TabNet (Arik and Pfister, 2020) 逐次処理。表形式データのプレト レーニングという概念を実現 AutoInt (Song et al., 2019) 本論文のFT-Transformer の概念に最も類似 GrowNet (Badirli et al., 2020) 浅いニューラルネットワークを用いた 勾配ブースティング SNN (Klambauer et al., 2017) 深いMLP。勾配消失や発散を防ぐ SELU活性化関数などを提案 DCN V2 (Wang et al., 2020a). クロスネットワーク構造を含むMLP。 Googleが大規模データで活用。 アテンション DL MLP GBDT XGBoost (Chen and Guestrin, 2016) - CatBoost (Prokhorenkova et al., 2018) - 決定木 7
2. 先行研究 TabNet (Arik and Pfister, 2020) TabNetの推論処理の全体像 特徴を疎に選択(=Attention)し、逐次処理する構造 どの特徴量が推論に効いているか解釈可能 入力データ 投資の特徴量が選択されている 逐次処理で連結 職業専門性の特徴量が選択されている 推論出力 8
2. 先行研究 TabNet (Arik and Pfister, 2020) エンコーダー構造 逐次処理 特徴量選択 特徴量 Transformer 推論出力 表現出力 特徴量 解釈 特徴量入力 9
2. 先行研究 デコーダー構造 TabNet (Arik and Pfister, 2020) エンコーダー出力の 表現ベクトル 各Stepの 特徴量Transformer 再構築された 特徴量 10
2. 先行研究 TabNet (Arik and Pfister, 2020) 表形式データをマスクドランゲージモデルのように一部マスク 穴埋め問題を解かせて、プレトレーニングを実現 プレトレーニング済モデル活用で、 精度が向上し、少量データで短期収束可能 11
アジェンダ 1. 導入 2. 先行研究 3. 手法 4. 実験 5. まとめ 12
3. 手法 MLP (本論文での提案構造①) 全結合MLP→ReLU→Dropoutを何層か重ねたもの 出力 入力 全結合 全結合 13
3. 手法 ResNet (本論文での提案構造②) ResNet構造のシンプルなバリエーションを提案 より深い表現が必要なタスクで有用(仮説) 全結合 出力 入力 バイパス 14
3. 手法 FT-Transformer 全体構造(本論文での提案構造③ 本命) 表形式データの各要素をTokenizerでベクトル化し、Transformerに投入後[CLS]トークン部を用いる FT-Transformerの全体アーキテクチャ 入力 表形式データ [CLS]トークン部を用いる 各特徴量 当図では5つの値 連続値、カテゴリカル 2種類それぞれの手法で Tokenizeする ※次ページで説明 各セル(縦方向)が 1カラムのデータ 横方向がベクトルの次元数 のイメージ 先頭に[CLS] トークン付加 エンベディング されたベクトル ※後のページで説明 192次元 15
3. 手法 FT-Transformer トークナイザー詳細 連続値、カテゴリカル、それぞれ次の構造、数式によりトークナイズされ、192次元ベクトルとなる FT-Transformer全体 FT-Transformerのトークナイザー部 連続値の式 連続値 3つの値 バイアス データカラム数 特徴量数 ウエイト 行列 連続値 カテゴリカルの式 カテゴリカル 2つの値 192次元 カテゴリ分の サイズの行列 バイアス カテゴリカルの one hot ベクトル ウエイト 行列 16
3. 手法 FT-Transformer Transformer内部構造 当論文で用いるTransformer層はPreNorm変形型[2] をベースに、最初の正規化を除外した構造 ※実験の結果この構造が良好なパフォーマンスを得られた為 FT-TransformerのTransformer層 オリジナル論文[1]のTransformer層 出典 [1] Attention Is All You Need. [2] Learning Deep Transformer Models for Machine Translation. 17
3. 手法 FT-Transformer ハイパーパラメータ 3層Transformer、192次元、オプティマイザーはAdamW 18
アジェンダ 1. 導入 2. 先行研究 3. 手法 4. 実験 5. まとめ 19
4. 実験 モデル構造 表形式データセット 分類 先行研究 DL 本論文 提案手法 GBDT 決定木系 手法 略 称 データセット名 概要 年 NODE (Popov et al., 2020) CA California Housing 不動産価格 1997 TabNet (Arik and Pfister, 2020) AD Adult 所得推定 1996 AutoInt (Song et al., 2019) HE Helena 視覚的内容属性 2019 GrowNet (Badirli et al., 2020) JA Jannis 視覚的内容属性 2019 SNN (Klambauer et al., 2017) HI Higgs 物理粒子シュミレート 2014 DCN V2 (Wang et al., 2020a) AL ALOI 画像 2005 MLP EP Epsilon 模擬物理実験 - ResNet YE Year 音声の特徴 2011 FT-Transformer ★提案手法本命 CO Covtype 森林の特徴 2000 XGBoost (Chen and Guestrin, 2016) YA Yahoo 検索クエリ 2011 CatBoost (Prokhorenkova et al., 2018) MI Microsoft 検索クエリ 2013 20
4. 実験 データセット 学習情報 数値 カラム数 カテゴリカル カラム数 21
4. 実験 前処理等 実施 DL GBDT 内容 詳細 〇 〇 回帰問題は目標値を標準化 〇 - 数値特徴量に明確な値が少ない特徴量の 回避策としてノイズを加える 〇 〇 Optunaを使った ハイパーパラメータ自動チューニング 〇 〇 アンサンブル学習 〇 〇 プレトレーニング、追加の損失関数、データの増強、蒸留、学習率の減衰など、 実施 未実施 - 3グループ×各5モデル→各グループの平均値 22
4. 実験 結果(DLモデル) FT-Transformerがほとんどのタスクで最高のパフォーマンス DLモデルの結果一覧 1. MLPは基本的な動作として十分な水準 2. ResNetは効果的なベースライン 3. FT-Transformerはほとんどのタスクで最 高のパフォーマンス 4. チューニングはMLPやResNetのような単 純なモデルを強力なモデルにする。可能な 凡例 ↑:分類問題:Accuracy ↓:回帰問題:RMSE rank:全データセットの順位の平均ランク FT-T:提案手法 FT-Transformer Bold(赤アンダーライン):ベストスコア(統計的に優位差でない複数の結果を含む) 限りベースラインのチューニングがお勧め 23
4. 実験 結果(DLモデル vs GBDT) DLとGBDTにはまだ普遍的な解決策はない デフォルトパラメータ 1. GBDTはアンサンブル込なので、DLもアン サンブル処理後で比較 2. ハイパラチューニングすると一部のデータ パラメータチューニング後 セットでGBDTが優位に 3. DLとGBDTにはまだ普遍的な解決策は ない 凡例 ↑:分類問題:Accuracy ↓:回帰問題:RMSE FT-T:提案手法 FT-Transformer Bold(赤アンダーライン):ベストスコア 24
4. 実験 FT-TransformerがResNetより優れているタスク特性 各手法別のテストRMSEのαによる変化 1. GBDTに適したタスクの場合、ResNetは精度が悪化する Good 2. しかし、FT-Transformerは、CatBoost同様精度が向上する 3. FT-Transmormerは、DLもしくはGBDTいずれに適したタスク の場合でも、両方で比較的良い精度である DLに適したタスク GBDTに適したタスク 25
4. 実験 アブレーションスタディ 類似手法AutoIntとの比較と、特徴バイアスの有無による精度の違い AutoIntとの 1. 【類似】特徴をエンベッティング変換し、その後セルフアテンションしている構造が類似 類似点と相違点 2. 【相違】Transformer内部構造と、[CLS]トークンを使わない点、バイアスの有無が相違 結果 1. Transformerの内部構造がAutoIntより優れている 2. 特徴バイアスが精度に寄与しており必要性がある 26
4. 実験 学習時間 学習時間(秒) ※15回実行し平均をとったもの 3.5時間 27
アジェンダ 1. 導入 2. 先行研究 3. 手法 4. 実験 5. まとめ 28
5. まとめ 結論 表形式DLのベースラインを改善 FT-Transformerを提案。タスク全般的にGBDTと遜色ない いくつかのタスクではGBDTが依然優位 オープンソースにしている為、表形式DLのさらなる開発の基礎となる事を期待 感想 事業で利用する場合は、データには欠損値があり、欠損値に対するロバスト性の研究は、本論文にはない 先行研究のTabNetはマスクし学習しているので、マスクで欠損値処理できそう 本研究もTransformerベースなので、マスクし学習する事で、欠損値処理と表形式プレトレーニングができそう DLが得意な文章や画像などのデータを繋いだマルチモーダル学習で、GBDTに対する優位性を明らかにしたい 29