692 Views
September 02, 22
スライド概要
2022/9/2
Deep Learning JP
http://deeplearning.jp/seminar-2/
DL輪読会資料
Representational Continuity for Unsupervised Continual Learning ( ICLR 2022 ) Atsuya Kitada, Matsuo Lab, M1 1
書誌情報 Representational Continuity for Unsupervised Continual Learning • ICLR 2022 Oral • 著者:Divyam Madaan, Jaehong Yoon, Yuanchun Li, Yunxin Liu, Sung Ju Hwang 2
概要 背景 • 継続学習の分野で提案されている手法は、教師あり学習の設定だけに限られている • 大量データを前提とする自己教師あり学習では継続学習が求められる 提案手法 • 継続学習で用いられていた既存の各種手法を教師なし設定へ拡張 • 既存手法の一部を教師なし向けにアレンジ (LUMP) 有効性 • • • • 全データセットに対して、教師ありを上回る精度 破滅的忘却に対する頑健性 少量データセットでの学習にも有効 分布外(OOD)データセットに対しても汎化 3
前提知識 継続学習とは 過去の学習で獲得した知識を忘れることなく、一連のタスクを学習すること。 深層学習では、新しいタスクで学習し直すと過去に学習した知識を忘れてしまう「破局的忘却 / 破滅的忘却」 という現象が見られ、重要な課題として研究されている。 4
背景 継続学習の分野で提案されている手法は、教師あり学習の設定だけに限られている 既存手法の分類 Reguralization Architecture Rehearsal / Replay Loss関数に正則化項をつけることで、 忘却を防止。 タスクごとにサブネットワークを学習 させることで、過去に学習した情報を 残す。 過去のタスク情報を、新しいタスク中 で再利用することで、忘却を防ぐ。 いずれの手法についても、設定が教師あり学習に限定されている 5
背景 大量のデータを前提とする自己教師あり学習を応用するには継続学習が求められる 初期の対照学習 最近の対照学習 ネガティブサンプルが必要 ネガティブサンプルが不要 例) SimCLR 完全なラベル無し表現学習 不偏かつ大量のデータが前提。 例) Simsiam, BarlowTwins しかし、実際の応用時には、データ サイズが限られていたり、データの 性質が時間と共に変化したりする。 よって、異なるデータセットを跨い でモデルを学習する技術(継続学 習)が求められる。 6
提案手法 提案手法の新規性 継続学習手法 Reguralization 教師あり Architecture Rehearsal / Replay 既存研究 新規性1: 既存の継続学習手法を 教師なしの設定に拡張 教師なし 新規性2: 教師なし設定に合わせ、Reguralization とReplay手法を兼ねるような新たな手法を提案 7
提案手法 新規性1: 既存の継続学習手法を教師なし設定へ拡張(= 継続学習と表現学習の橋渡し) Supervised Continual Learning (SCL) 過去のタスクに関する知識を保持したまま、 現在のタスクで画像分類する能力を獲得する Unsupervised Continual Learning (UCL) 連続するタスクの訓練を通じて、汎用的な表 現を学習することが目標 (表現学習) 8
提案手法 新規性2: Replay手法を教師なし向けにアレンジした手法(Lifelong Unsupervised Mixup)を提案 Replay手法の 課題点 既存手法 Mixup 提案手法 LUMP Replay手法の性能はハイパラαに左右されやすく、タスクが定まっている教師あり学習に向いて いる。 訓練データからサンプリングした2つの特徴量&ラベルのペアを割合λでミックスし、新たに出 来たサンプルをもとにモデルを学習 Mixupを自己教師あり学習の文脈へとアレンジ。現在のタスクに含まれるデータと、Replay Bufferからサンプリングしたデータを補完するデータを作ることで、データ拡張と正則化の働き を兼ねる。 現在のタスクTに 含まれるデータ Replay Bufferから サンプリングしたデータ 9
実験設定 学習手順 データセット (CIFAR10, CIFAR100, Tiny-ImageNet) それぞれについて、特定のクラスだけを抽出した 分割データセット (Split CIFAR10, Split CIFAR100, Split Tiny-ImageNet)を作り、順番に学習。 CIFAR10の例 0, 1 データ 0~9 Multi-Task 学習 2, 3 合計T個のタスク … 10クラスの データセット クラスに応じて データセットを分割 T個のタスクを順に 学習していく 8, 9 Continual Learning Step1. 連続するT個のタスクを用いてResnet18の事前学習を行い、表現を獲得。 Step2. KNN classifierによる分類精度を見ることで、獲得された表現の質を評価。 10
実験設定 手法の評価方法 評価指標 Average accuracy Average Forgetting 継続学習完了時の、全てのタスクを通じた平均分類精度 各タスクの最大精度と継続学習完了時の精度間での、平均精度低下量 教師なし SimSiam 教師あり ベースライン(下限) 継続学習の各種手法 Multi-Task(上限) BarlowTwins • Resnet18 Only • Resnet18 Only • Resnet18 + Reguralization手法 • Resnet18 + Reguralization手法 • Resnet18 + Architecture手法 • Resnet18 + Architecture手法 • Resnet18 + Replay手法 • Resnet18 + Replay手法 • Resnet18 + LUMP(提案手法) • Resnet18 Only • Resnet18 Only 教師なしによる表現学習の有効性を示す 提案手法(LUMP)の 有効性を示す 11
実験結果 データセットに関わらず、教師なし継続学習の方が精度が高い UCLはSCLより高精度 • 全てのデータセットで、UCLの方がSCL より精度が高い上に、忘却も少ない。 UCLの中でも提案手法(LUMP)が圧倒的 • 提案手法LUMPは分類精度・忘却率の両 指標で、既存の3手法を凌駕。 12
実験結果 教師なしの継続学習は少量データセットでの継続学習にも有効 • データセットが少ない状況ほど、UCLがより有利。 • 訓練データ数が減少するほど、UCLとSCLの精度に開きが生じる(左図) • SCLは平均32.21%の精度低下なのに対して、UCLは平均15.78%の精度低下でとどまっている。 13
実験結果 教師なしの継続学習では、破滅的忘却に対する頑健性が見られる • SCLでは、序盤のタスク(T0)で特徴量マップがNoisyになっており、破滅的忘却が発生していると言える。 • 一方、UCLは破局的忘却に対して頑健であることが見てとれる。 ResNet18をSplit CIFAR100データセットで継続学習した後の、2ブロック目の特徴量マップ 14
実験結果 教師なしの継続学習は分布外(OOD)データセットに対しても汎化 • 全ての分布外データセットについて、教師なしで継続学習したモデルの方がfine-tuning時の精度が高い。 Split CIFAR10で継続学習したモデルを、 OODデータであるMNISTでfine-tuningした結果 15