【ゼロから作るDeep Learning】7.4~7.8

801 Views

July 08, 24

#Deep Learning #CNN #Convolutional Neural Network #Im2Col #可視化

スライド概要

京都大学人工知能研究会KaiRA

@kyoto-kaira

スライド一覧

AI・機械学習を勉強したい学生たちが集まる、京都大学の自主ゼミサークルです。私たちのサークルに興味のある方はX(Twitter)をご覧ください！

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

【論文読み会】GraphCast: Learning skillful medium-range global weather forecasting

京都大学人工知能研究会KaiRA 30.5K

【論文読み会】NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis

京都大学人工知能研究会KaiRA 23.4K

【IT Text 自然言語処理の基礎】第7章：事前学習済みモデルと転移学習

京都大学人工知能研究会KaiRA 22.2K

【物体検出】ResNet・EfficientNet (v2)

京都大学人工知能研究会KaiRA 19.2K

【Pythonで学ぶ音声認識】第5章：GMM-HMMによる音声認識（5.3節まで）

京都大学人工知能研究会KaiRA 13.7K

【物体検出】MaskFormer

京都大学人工知能研究会KaiRA 12.6K

各ページのテキスト

2024年度前期輪読会 #11 - ゼロから作るDeep Learning CNNの実装と可視化(7.4~7.8) 京都大学工学研究科M1 阿戸豪 0

目次目次 01 Convolution/Pooling層の実装 (7.4) 02 CCNの実装 (7.5) 03 CNNの可視化 (7.6) 04 代表的なCNN (7.7) 05 まとめ 1

目次目次 01 Convolution/Pooling層の実装 (7.4) 02 CCNの実装 (7.5) 03 CNNの可視化 (7.6) 04 代表的なCNN (7.7) 05 まとめ 2

Convolution/Pooling層の実装 (7.4) Im2Col による展開愚直に Im2Col ● * ・・・入力データを展開する・・・ dim 4 Im2Col dim 2 For文の繰り返し Numpyでは処理に時間がかかる × 高速な行列演算ができるnumpyの恩恵を最大限に受けられる 3

Convolution/Pooling層の実装 (7.4) Convolution層の実装カーネル当たりの要素数 Im2Col OW×OH ×batch数 × FN ・・・ (バッチ数,チャネル数,height, width) Reshape ・・・フィルター数 FN dim 2 4

Convolution/Pooling層の実装 (7.4) Pooling層の実装 1チャネル内のカーネル当たりの要素数 Im2Col 1 1 1 1 2 2 OW×OH ×チャネル×batch Input 要素内の最大値 (Max Poolingの場合) 1 1 1 1 2 2 Output 5

目次目次 01 Convolution/Pooling層の実装 (7.4) 02 CCNの実装 (7.5) 03 CNNの可視化 (7.6) 04 代表的なCNN (7.7) 05 まとめ (7.8) 6

CNNの実装 (7.5) ネットワーク構成 Conv ReLU Pooling Affine ReLU Affine Softmax Parameters ---------input_size : 入力サイズ（チャネル・高さ・幅） hidden_size_list : 隠れ層のニューロンの数のリスト output_size : 出力サイズ（MNISTの場合は10） conv_param : フィルター数,フィルターサイズ,パッド,ストライド weight_init_std : 重みの標準偏差を指定（e.g. 0.01） 7

CNNの実装 (7.5) ネットワーク構成 Conv ReLU Pooling Affine ReLU Affine Softmax 結果 8

10.

目次目次 01 Convolution/Pooling層の実装 (7.4) 02 CCNの実装 (7.5) 03 CNNの可視化 (7.6) 04 代表的なCNN (7.7) 05 まとめ (7.8) 9

11.

CNNの可視化 (7.6) フィルターの可視化 * ・・・斜めのエッジが強調される学習後横のエッジが強調されるエッジやプロブ(局所的に塊がある領域)などのプリミティブな情報を抽出できるようになる。 10

12.

CNNの可視化 (7.6) 階層構造の重みフィルター終盤層の特徴マップほど，高レベル特徴(物体全体領域のクラスごとの特徴)が，畳み込み層に学習される．逆に，序盤層の特徴マップでは低レベル特徴(エッジ・色など)が畳み込み層へ学習される。引用(https://medium.com/@siddheshb008/alexnet-architecture-explained-b6240c528bd5) 11

13.

CNNの可視化 (7.6) おまけ数字認識のプロセスが視覚的にわかるサイト https://adamharley.com/nn_vis/cnn/3d.html 12

https://adamharley.com/nn_vis/cnn/3d.html

14.

目次目次 01 Convolution/Pooling層の実装 (7.4) 02 CCNの実装 (7.5) 03 CNNの可視化 (7.6) 04 代表的なCNN (7.7) 05 まとめ (7.8) 13

15.

代表的なCNN(7.7) LeNet LeNet-5 [LeCun et al.,(1998)] は画像認識CNNの基礎となった先駆的研究。省モデル化と(各層の段階での)局所並行移動不変性を実現した文献より引用 [特徴] ・7層のニューラルネットワーク・誤差逆伝搬・ゼロパディング無し・平均プーリング・活性化関数はtanhやSigmoid 14

16.

代表的なCNN(7.7) AlexNet AlexNet [Krizhevsky et al., 2012] はGPUを使って，大規模な学習に成功。「ISLVRC 2012」(物体認識のコンペ)において，2位よりも10%以上低い値で優勝した。 [特徴] ・8層のニューラルネットワーク・学習パラメータは6000万 (LeNetは6万) ・ReLUの採用・データ拡張やDropoutの導入・平均プーリング・重なりあり最大値プーリング引用(https://medium.com/@siddheshb008/alexnet-architecture-explained-b6240c528bd5) 15

17.

まとめまとめ１まとめ２まとめ３ Im2Colを用いて、行列の積として畳み込みを処理することで、高速な計算を実現することができる。終盤層の特徴マップほど，高レベル特徴(物体全体領域のクラスごとの特徴)が，畳み込み層に学習される．逆に，序盤層の特徴マップでは，など低レベル特徴(エッジ・色など)が畳み込み層へ学習される． LeNetは画像認識CNNの基礎となった先駆的研究。 AlexNet はGPUを使って，大規模な学習に成功した。 16

18.