20230127勉強会_LSTMの一般的説明部分のみ

>100 Views

December 25, 23

スライド概要

勉強会の資料から、LSTMの一般的な説明の部分を抜き出し、整形したもの。

profile-image

AIエンジニアをやっております。

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

LSTMの一般的な説明

2.

LSTMの一般的な説明 – 概要 LSTMはRNNの一種であり、系列データによく用いられている。 名前の由来 Long Short-Term Memoryの頭文字 分類 RNN 用途 系列データの予測、分類など。 以前は自然言語処理で良く用いられていたが、最近はあまり用いられない。なお、最近の自然言 語処理では、Transformerがよく用いられる。 1995 LSTMという名前のネットワークが初登場する(Hochreiter & Schmidhuber)。 1999 忘却ゲートが導入されたバージョンが登場する(Gers & Schmidhuber)。 現在もこのバージョンが主流。今回使用したのもこのバージョン。 2000 Peephole Connectionが導入されたバージョンが登場する(Gers & Schmidhuber)。 歴史 特徴 • • LSTM以前のRNNではできなかった長期依存を学習可能。 Transformerと比べると、短期依存に向いていると言われている。 次スライドで具体的なアーキテクチャを説明する。使用したのは1999のバージョンだが、最初のバージョンの方 を説明する。 理由:最初のバージョンの方がシンプルであり、1999のバージョンはそれを若干変更したものであるため。 2

3.

LSTMの一般的な説明 – アーキテクチャ 1995年に初登場したバージョンでは、セル状態ベクトルと、入力・出力ゲートが追加された。目的 は、長期依存を学習できるようにするためである。 LSTM cell + 𝒄𝑡−1 Input gate tanh 𝒉𝑡−1 𝒙𝑡 tanh Output gate Hadamard product Hadamard product sigmoid sigmoid 𝒄𝑡 : 時刻tにおけるセル状態ベクトル 𝒉𝑡 : 時刻tにおける隠れ状態ベクトル 𝒙𝑡 : 時刻tにおける入力ベクトル 𝒄𝑡 𝒉𝑡 3

4.

参考文献 [1] わかるLSTM ~ 最近の動向と共に https://qiita.com/t_Signull/items/21b82be280b46f467d1b [2] Counting No. of Parameters in Deep Learning Models by Hand https://towardsdatascience.com/counting-no-of-parameters-in-deep-learning-models-by-hand-8f1716241889 4