>100 Views
February 14, 20
スライド概要
020/02/14
Deep Learning JP:
http://deeplearning.jp/seminar-2/2
DL輪読会資料
DEEP LEARNING JP [DL Seminar] Learning Differentiable Grammars for Continuous Data Hiromi Nakagawa ACES, Inc. https://deeplearning.jp
Overview • AJ Piergiovanni, Anelia Angelova, Michael S. Ryoo(Google Brain) • AAAI2020 • 概要 – 動画のような実世界の時系列データの認識・予測に言語学における形式文法(正規文法)の概念を導入 – 正規文法を微分可能なNNで定義して学習→系列の潜在的な時系列的構造を明示的に考慮した生成や予測が可能に – 解釈性が高く、またSoTAのモデルに組み込むことで、動画行動認識・行動予測のSoTAを更新 2
Introduction • • • Formal Grammar(形式文法)G = (V, Σ, P, S):言語を文の集合として記述するもの(cf. チョムスキー階層) – V: Non-terminals( 非 終 端 記号)=置き換えられるもの – Σ: Terminals( 終 端 記 号)=これ以上置き換えられないもの – P: Production rule( 生 成規則)=置き換えルールの集合 – S: Starting non-terminal( 開 始 記 号)=初期状態 Regular Grammar(正規文法) – チョムスキー階層におけるタイプ3の形式文法 – 生成規則:左側に1つの非終端記号、右側に1つの終端記号と0or1つの非終端記号 – 例:正規表現 A, B:非終端記号 a:終端記号 ε:空の文字列 系列の変化を表現する文法が学習できれば、時系列構造やイベント間の関係性を明示的かつ高度にモデリングできるはず – • V = {<文章>,<主語>,<述語>} Σ = {私は,あなたは,寝る。,食べる。} P = {<文章>→<主語><述語> <主語>→わたしは|あなたは <述語>→寝る。|食べる。} S = <文章> 動画認識や動画予測の精度改善や、生成過程の意味的な解釈性も上がる シンボルや離散的な表現(例:テキスト)からではなく、動画のような連続表現からの学習は難しい – 本研究では、形式文法の構成要素や生成規則を微分可能なNNの関数として定義した機構(=RNNの亜種)で認識タスクを学習することで、 形式文法の構造が動画のようなデータからも学習できる&認識タスクに活用できることを示す 出典:http://zellij.hatenablog.com/entry/20140612/p1 3
Proposed Method
定式化 • • 非終端記号/終端記号は時刻tにおける潜在表現として定義 – v_t in V (非終端記号):N次元のsoft one-hot vector(Nは非終端記号の数) – w_t in Σ(終端記号) :T次元のvector(Tは各時刻の系列表現の次元数):動画では各フレームのラベルに相当 生成規則は2つの関数で定義(NNのパラメータθによって制御) – 任意の微分可能な関数で実装可能だが、今回はシンプルなMatrix operationで実装 – f : V → {P} v_t in V(非終端記号)をp_i in P(生成規則のsubset)に写像 • • W:N x (R・N) (Rは1非終端記号あたりの最大生成規則の数) – g : P → (V, Σ) pをV(非終端記号)とΣ(終端記号)に変換 • • H1: (R・N) x N, H2: (R・N) x T • 順伝播の再帰的な生成モデルを形成 – S=v_0から始まりiterativeに各時刻で終端記号を出力 – 生成規則を関数で表すことで終端記号系列の生成をその関数の反復で表現できる Matrix Operationの例 (N=3, T=3, R=2) 5
学習 • • 終端記号 w_t の系列のクロスエントロピーを最小化 – 動画認識では、w_tが各フレームのラベルに対する予測、z_tは各フレームの正解ラベル – 各フレームのラベルを再帰的に出力して、それぞれのロスの和を取る 動画データへの対応のために、初期状態の非終端記号 S=v_0 は学習済みの動画認識モデル(I3D)で特徴抽出 – • 推論時は、CNNの予測確率に最もマッチする(?)生成規則を選択して系列を生成、grammarの出力とCNNの出力をかけ合わせる 複数の生成規則を学習するために、Softmax(σ)をGumbel Softmax(φ)に – 一つの非終端記号 v_t から複数パターンの生成規則 p_i をサンプリングできる – 学習時は複数パターンの中から最小のロスを取る 6
Experiments
Experiments • トイデータでの検証(提案手法で学習・表現できることの確認) 非終端記号Aのsoft one-hot表現 v_t 生成規則p_iに基づきt+1の非終端記号Bを返す行列H1 生成規則P Aに対応する生成規則p_iの確率を返すルール行列W (Gumbel-Softmaxを入れるとここが確率的になる) 生成規則p_iに基づきt+1の終端記号aを返す行列H2 8
Experiments • 時系列データセットでの検証 – The Air Polution prediction dataset:毎時間の各種特徴+空気汚染度 x 数年間の時系列データセット – 単純な系列データで、単純なLSTMなどより高い精度が得られることを確認 • 最後の値をそのまま利用:RMSE=36.45 • LSTM:RMSE=27.12 • 提案手法:RMSE=22.14 9
Experiments • 行動検知データセットでの検証 – フレーム単位で行動クラスのアノテーションが存在 MultiTHUMOS Charades MLB-YouTube • 多様な行動65クラス • 日常行動157クラス • 野球中継 • 30時間400動画 • 9858動画 • 42時間4290動画 • 背景が同じ&粒度が細かい等の理由から コンテキスト情報が使いにくく、難しい • 厳格なルールに沿って試合が進むので、 学習された文法の検証がしやすい 10
Experiments • Activity Detectionの精度(per-frame mAP)を比較 • 3つのデータセットすべてで、SoTAのI3D(+super-events)に導入することによりSoTAを更新 11
Experiments • Future Prediction/Forecastingにおいても、高い精度を発揮 – 10-20secなどの長期予測でも◯ 12
Experiments • MLB-YouTubeで学習された文法構造の可視化 – 野球のルールを正しく学習できている カッコ内は予測確率 13
Conclusion
まとめ • • • 動画のような実世界の時系列データの認識・予測に言語学における形式文法(正規文法)の概念を導入 – Formal Grammar(形式文法)G = (V, Σ, P, S):言語を文の集合として記述(cf. チョムスキー階層) – 終端記号 w_t in Σ = 各フレームのラベル 正規文法を微分可能なNNで定義して学習→系列の潜在的な時系列的構造を明示的に考慮した生成や予測が可能に – シンプルな行列演算ベースのモデルを検証 – Gumbel-Softmaxを導入することで1つの非終端記号から複数パターンの生成規則を出力 – 動画の特徴抽出は既存の動画認識モデルI3Dを利用 解釈性が高く、またSoTAのモデルに組み込むことで、動画行動認識・行動予測のSoTAを更新 – 野球中継の行動認識データセットから、野球のルールに合致する文法を学習できることを確認 15
感想 • 言語学の文法の概念から時系列データ(動画、行動)の構造を学習する発想は興味深い(結果も見る限り良い) • Formal Grammarを導入する(学習できる)こと自体の価値・必要性は自明な感じで議論されており、動画認識の文脈との 接続の記述は若干粗い印象。 (精度が上がるのは正義だが)現実的にどこまで重要なのかは要議論 • – ドメイン知識に基づく制約(文法)を入れやすい、とかであれば、実用的にも意味がありそう – 最近のGNNなどの行動クラス間の関係性のモデリング、などの話も絡んできそう – 明示的な時系列構造をデータから学習できる→異常検知とかに利用できる? 今の単純な仕組みで学習できない/そもそも相性の悪い時系列構造を持つデータなどについても整理されるとよさそう – 野球とかも、普遍的なルールの部分は文法的な構造を入れ込むメリットがありそうだが、局面ごとのローカルな変化は結局暗黙的に 吸収される前提(あまり考慮されていない)なので、その条件付も明示的に捉える機構が何か必要そう • (動画にも使えるが)動画である必要は必ずしもないので、そのあたりの検証がしやすい(トイ)データでの実験がもっ とあると「文法」を学習するメリットなどの議論・検証がしやすい気もする 16