[DLHacks]Fast and Accurate Entity Recognition with Iterated Dilated Convolutions

>100 Views

June 04, 18

#NER #ID-CNN #Dilated Convolution #NLP #Entity Recognition

スライド概要

2018/05/28
Deep Learning JP:
http://deeplearning.jp/hacks/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 85.7K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 59.5K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 55.2K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 39.8K

【拡散モデル勉強会】拡散モデルのサンプラーまとめ

Deep Learning JP 33.9K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 33.5K

各ページのテキスト

DLHacks Fast and Accurate Entity Recognition with Iterated Dilated Convolutions 2018.05.28 山田涼太

概要 NLPのNER dilated convolution 提案手法ID-CNN 実装結果・考察

概要まとめ ID-CNNという手法を提案 dilated CNNの変形をNLPに適用 NERで従来と同等の精度をキープしつつ高速化を実現した背景 LSTMなどのRNNでは入力データをシーケンシャルに計算する必要があった =並列計算が適用できずGPUの利点が活かせない結果 Bi-LSTM-CRFに比べて14-20倍の高速化が実現できたさらに、全文書の主計結果から訓練されたID-CNNは精度を維持しつつ8倍高速だった

概要 NLPのNER dilated convolution 提案手法ID-CNN 実装結果・考察

NER Named Entity Recognition: 固有表現抽出。固有名詞や数値、日付を抽出する技術 CoNLL2003: Reuters Corpusのニュース記事に対して、 POSやNERのタグ付けを行ったデータセット右のようにI-ORGなら組織名、I-PERなら人名を意味する OntoNotes 5.0 English NER: 別のデータセット

概要 NLPのNER dilated convolution 提案手法ID-CNN 実装結果・考察

Dilated Convolution simple convolution(通常のCNN): NLPで使うCNNは典型的には一次元トークンの特徴量ベクトルのシーケンスに対してCNNを適用するこの条件下でCNNはアフィン変換と等価、この演算をWcとするあるトークンに着目した時、前後にrの幅をもつスライドウィンドウがWcの対象となる r … r xt … slide window 入力xtに対する出力ctは ⊕はvector concatenation

Dilated Convolution dilated convolution: スライドウィンドウが前後にr連続したものではなく、δ間隔でr個のトークンを含む形 δ δ … … δ xt … 入力xtに対する出力ctは δ=1でsimple comvolutionと等価出力に影響する入力の範囲を広げることが可能 =より全体の情報を考慮した結果を取得可能 δ δ … … δ … slide window

10.

Dilated Convolution Multi-Scale Context Aggregation 幅をどんどん広げるようにdilated convolutionの層を重ねることで、局所的な情報を失うことなく全体の文脈を考慮した判断ができる。 Yu and Koltun (2016) は画像のセグメンテーションにmultiscale context aggregation という指数関数的にdilationの幅が増加する手法を用いた（下図参照）。 F1 3×3 F2 7×7 F3 15×15 Fi+1のウィンドウサイズは(2i+2 − 1)2 引用: MULTI-SCALE CONTEXT AGGREGATION BY DILATED CONVOLUTIONS

11.

概要 NLPのNER dilated convolution 提案手法ID-CNN 実装結果・考察

12.

Iterated Dilated CNN dilated CNNでは層を重ねることで容易に全体の文脈情報を考慮することができる r = 1で4層のレイヤーを重ねれば、（有効な入力サイズはn層目で2n+1 - 1なので） 1層目で3、2層目で7、3層目で15、4層目で31となる。 Penn TreeBankコーパスの一文の平均単語数は23なので、4層dilated convolutionを重ねれば大体の文章の全体の文脈を考慮したタグ付けができることになる。 r = 2で8層のレイヤーを重ねれば有効な入力サイズは1000トークン以上になり、ニュース文書を丸々扱える。

13.

Iterated Dilated CNN ただし、単純に層を増やしていくだけでは過学習に陥ってしまう。 ID-CNNではdilated convolutionの繰り返しを複数回重ねることでこの問題を解決した。これにより、全体の文脈の考慮と高い一般性を実現した。

14.

Iterated Dilated CNN Model Architecture dilated convolution * Lc層 + ﬁnal dilation-1 layer = B(・) Lc層 final dilation-1 layer … … … 2Lc-1 データc(Lc+1) … 2Lc-1 データc(Lc) … データc(Lc-1) … データc(0) … … 入力データx … … r(): ReLU関数 … … = B(・)

15.

Iterated Dilated CNN Model Architecture 前述のB(・) * Lb層 + W0 … … … … … データh(Lb) … データb(Lb) … データb(1) … データi … … 入力データx … L b層 …

16.

概要 NLPのNER dilated convolution 提案手法ID-CNN 実装結果・考察

17.

やりたかったこと生命科学論文から情報抽出を試みている薬剤名の抽出で難儀（辞書が膨大で意図しない単語が引っかかる）何かしらのスクリーニングが必要 NERを試したい今回の手法をはじめとして複数の手法で薬剤名のNERの精度を比較したかった。。。

18.

Test 著者がコードをあげている Github: https://github.com/iesl/dilated-cnn-ner.git Tensorﬂow

19.

Test ./bin/preprocess.sh conf/conll/dilated-cnn.conf

20.

Test ./bin/train-cnn.sh conf/conll/dilated-cnn.conf

21.

概要 NLPのNER dilated convolution 提案手法ID-CNN 実装結果・考察

22.

Experimental Results Sentence-level prediction CoNLL2013を利用文章レベルの予測精度でLSTMを上回ったさらに学習時間の早い

23.

Experimental Results Document-level prediction CoNLL2013を利用文書レベルの予測精度でもLSTMを上回った学習時間も早い

24.

Experimental Results OntoNotes 5.0 English NER OntoNotes 5.0 English NERを利用文書レベルの予測精度でLSTMを上回ったさらに学習時間の早い

25.

考察 Bi-LSTM-CRFでは広いコンテキストを入力すると精度が落ちるかもしれないが、 ID-CNNではより全体の文脈を捉えることができるしたがって、大きな文書や局所的に曖昧な表現が含まれる文書を扱う場合はID-CNNの方より顕著に優れた結果を出すことが可能かもしれない

26.

本当はやりたかったこと生命科学論文から情報抽出を試みている薬剤名の抽出で難儀（辞書が膨大で意図しない単語が引っかかる）何かしらのスクリーニングが必要 NERを試したい今回の手法をはじめとして複数の手法で薬剤名のNERの精度を比較したかった。。。

27.

論文メモ

28.

Abstract Introduction Background Dilated Convolutions Iterated Dilated CNNs Related work Experimental Results Conclusion

29.

Abstract Introduction Background Dilated Convolutions Iterated Dilated CNNs Related work Experimental Results Conclusion

30.

Abstract 今日、ウェブ全体や大量のトラフィックに対して予測器が基本的なNLPを実行するならば、より早いことこそが時間とエネルギーのコストを抑えるの肝要である。昨今GPUの性能の向上がbi-directional LSTMの出現に一役買った。Bi-LSTMはNERなどのラベリングタスクの入力に使われるトークンごとのベクトル表現を取得するのにスタンダードな手法だ。この手法ではGPUの計算力を完全に使い切ることができなかった。この論文では、Iterated Dilated CNN(ID-CNNs)という巨大な文脈や構造予測に対して従来のCNNより適している手法を使うことでBi-LSTMの高速化を実現した。長さNの文章に対して、並列化を適用してもO(N)の計算量がかかるLSTMと異なり、ID-CNN は全文書に対して固定長のCNNが並列に処理を行う。パラメータの共有などのネットワーク構造同士の強調が見られ、Bi-LSTM-CRFに比べて14-20 倍の高速化が実現できた。さらに、全文書の主計結果から訓練されたID-CNNは精度を維持しつつ8倍高速だった。

31.

Abstract Introduction Background Dilated Convolutions Iterated Dilated CNNs Related work Experimental Results Conclusion

32.

Introduction エコロジカルフットプリントを最小化しつつ大規模なNLPや情報抽出を普及させるためには、もっと早くエネルギー効率の良いPOS taggingやNERの手法が必要だ。 GPUによる並列計算の向上によってシーケンスラベリングを解くNNモデルがいくつも出現した。これらの手法はGPUの並列計算能力を十分に活用できていなかったのでスピードに限界があった。特にこれらの手法は特徴量抽出にRNNを使うか、出力モデルにビタビアルゴリズムを使っていたが、いずれの手法も入力データをシーケンシャルに計算する必要があった（=並列計算が適用できずGPUの利点が活かせない）。入力データの大きさによって実行時間が関わらない並列的な計算ができれば時間とリソースを節約できる。CNNはまさにこのような特徴を持っている。入力データ一つ一つに対して計算するんではなく、まとめて計算する。よってCNNにおいて計算量は入力データの大きさによらず、層の深さに依存する。音声合成などに使われている。

33.

Introduction CNNの方が計算面で有利なのに対して、RNNはテキストの深い表現が可能である。これはBi-directional RNNによってエンコードされたトークンは入力シーケンス全体の特徴を残すからだ。 CNNではネットワークにとって効率の良い入力サイズに納めなくてはいけないため、制限を受ける。 CNNでの計算量畳み込み層の幅 w、層の数 lの時、トークン特徴量 rは r = l(w - 1) + 1 層の数は入力された全てのコンテキストを結合する必要があるため、シーケンスの長さに応じて線形に増加する。シーケンスをまたいで特徴量をプールしておくことが一つの解決策として挙げられるが、出力の分解能を下げるためにあまり良い解決方法ではない。

34.

Introduction (Yu and Koltun, 2016) がdilated convolutionをシーケンスラベリングに適用することを提案した。 dilated convolutionでは層が深くなるほどに入力データの幅が指数関数的に効率良くなっていく。典型的なCNNのようにdilated convolutionでもシーケンス上のスライディングウィンドウに計算を実行する。しかし従来手法と異なり、コンテキストは連続的でない。dilated windowはdilation width d毎にスキップするからだ。 l番目の層にとって効率的な入力幅は2l+1-1である。

35.

Introduction 例: 幅3のdilated covolutionを4層重ね合わたものに対して効率的な入力サイズは 24+1 - 1 = 31 となる。これはPTBの文章の平均単語数23より大きいので十分に有効である。

36.

Introduction ID-CNNでは同じdilated convolutionのブロックがトークン特徴量に適用される。メリット1: 過学習が抑えられるメリット2: ネットワークの途中に監視を差し込むことができる？？ RNNとの違い 1: それぞれのトークンのラベルを個別に予測できる

37.

Introduction 検証 CoNLL 2003、OntoNotes 5.0 English NERを用いた結果 RNNに比べてF1を維持しつつ、高速化に成功した

38.

Abstract Introduction Background Dilated Convolutions Iterated Dilated CNNs Related work Experimental Results Conclusion

39.

Background •Conditional Probability Models for Tagging

40.

Background Conditional Probability Models for Tagging 入力（テキスト）: 出力（トークン毎のタグ）: yiに対するドメインサイズ: 本研究ではxが与えられた時のyの確率は計算量はO(D) linear-chain CRF modelでは計算量はO(D2T)

41.

Abstract Introduction Background Dilated Convolutions Iterated Dilated CNNs Related work Experimental Results Conclusion

42.

Dilated Convolutions simple convolution(通常のCNN): NLPで使うCNNは典型的には一次元トークセンの特徴量ベクトルのシーケンスに対してCNNを適用するこの条件下でCNNはアフィン変換と等価、この演算をWcとするあるトークンに着目した時、前後にrの幅をもつスライドウィンドウがWcの対象となる r … r xt … slide window 入力xtに対する出力ctは ⊕はvector concatenation

43.

Dilated Convolutions dilated convolution: スライドウィンドウが前後にr連続したものではなく、δ間隔でr個のトークンを含む形 δ δ … … δ … 入力xtに対する出力ctは δ=1でsimple comvolutionと等価 δ δ xt … … δ … slide window

44.

Dilated Convolutions Multi-Scale Context Aggregation 幅をどんどん広げるようにdilated convolutionの層を重ねることで、局所的な情報を失うことなく全体の文脈を考慮した判断ができる。 Yu and Koltun (2016) は画像のセグメンテーションにmultiscale context aggregation という指数関数的にdilationの幅が増加する手法を用いた（下図参照）。 F1 3×3 F2 7×7 F3 15×15 Fi+1のウィンドウサイズは(2i+2 − 1)2 引用: MULTI-SCALE CONTEXT AGGREGATION BY DILATED CONVOLUTIONS

45.

Abstract Introduction Background Dilated Convolutions Iterated Dilated CNNs Related work Experimental Results Conclusion

46.

Iterated Dilated CNNs dilated CNNでは層を重ねることで容易に全体の文脈情報を考慮することができる。 r = 1で4層のレイヤーを重ねれば、有効な入力サイズは1層目で3、2層目で7、3層目で15、4層目で31となる。 Penn TreeBankコーパスの一文の平均単語数は23なので、4層dilated convolutionを重ねれば大体の文章の全体の文脈を考慮したタグ付けができることになる。 r = 2で8層のレイヤーを重ねれば有効な入力サイズは1000トークン以上になり、ニュース文書を丸々扱える。

47.

Iterated Dilated CNNs ただし、単純に層を増やしていくだけでは過学習に陥ってしまう。 ID-CNNでは同じdilated convolutionを複数回重ねることでこの問題を解決した。これにより、全体の文脈の考慮と高い一般性を実現した。

48.

Iterated Dilated CNNs Model Architecture dilated convolution * Lc層 + ﬁnal dilation-1 layer = B(・) Lc層 final dilation-1 layer … … … 2Lc-1 データc(Lc+1) … 2Lc-1 データc(Lc) … データc(Lc-1) … データc(0) … … 入力データx … … r(): ReLU関数 … … = B(・)

49.

Iterated Dilated CNNs Model Architecture 前述のB(・) * Lb層 + W0 … … … … … データh(Lb) … データb(Lb) … データb(1) … データi … … 入力データx … L b層 …

50.

Abstract Introduction Background Dilated Convolutions Iterated Dilated CNNs Related work Experimental Results Conclusion

51.

Abstract Introduction Background Dilated Convolutions Iterated Dilated CNNs Related work Experimental Results Conclusion

52.

Experimental Results Sentence-level prediction CoNLL2013を利用文章レベルの予測精度でLSTMを上回ったさらに学習時間の早い

53.

Experimental Results Document-level prediction CoNLL2013を利用文書レベルの予測精度でもLSTMを上回った学習時間も早い

54.

Experimental Results OntoNotes 5.0 English NER OntoNotes 5.0 English NERを利用文書レベルの予測精度でLSTMを上回ったさらに学習時間の早い

55.

Abstract Introduction Background Dilated Convolutions Iterated Dilated CNNs Related work Experimental Results Conclusion

56.

Conclusion 高速にNLPタグ付けを行うことができたシーケンスラベリングの高速化に大きく寄与するだろう今後NLPの別の課題にも適用したい

57.

Test

58.

Test 著者がコードをあげている Github: https://github.com/iesl/dilated-cnn-ner.git Tensorﬂow

59.

Test: Python準備 pyenvでPython 2.7にしておく pip install tensorﬂow-gpu

60.

Test: ファイル準備 git clone https://github.com/iesl/dilated-cnn-ner.git conll2003をダウンロードしてプロジェクトのルートディレクトリに置く git clone https://github.com/synalp/NER.git mkdir -p dilated-cnn-ner/data cp -R NER/corpus/CoNLL-2003/ dilated-cnn-ner/data/ cd dilated-cnn-ner/data/ mv CoNLL-2003 conll2003 cd ../

61.

Test: ファイル準備 mkdir -p data/embeddings 以下に記載されるGoogle Driveからlample-embeddings-pre.txtをダウンロード https://github.com/iesl/dilated-cnn-ner/issues/1 scpなりでec2に送る scp -P 2211 lample-embeddings-pre.txt ubuntu@ec2-18-219-243-39.useast-2.compute.amazonaws.com:~/download 先ほど作ったディレクトリに移動 mv ~/download/lample-embeddings-pre.txt ~/dilated-cnn-ner/data/ embeddings/

62.

Test: パス設定 cd ~/dilated-cnn-ner export DILATED_CNN_NER_ROOT=`pwd` export DATA_DIR=data # 必要かなぞ # export CUDA_VISIBLE_DEVICES=“0” ???

63.

Test ./bin/preprocess.sh conf/conll/dilated-cnn.conf

64.

Test ./bin/train-cnn.sh conf/conll/dilated-cnn.conf

65.

Keywords named entity recognition(NER): 固有表現抽出。固有名詞や数値、日付を抽出する技術 sequence labeling: 連続的な入力データに対してラベルづけすること、POS taggingなど inside-outside-beggining tagging(IOB tagging):