【ゼロから作るDeep Learning】5.7~5.8

739 Views

June 23, 24

#ニューラルネットワーク #誤差逆伝播法 #深層学習 #勾配降下法 #MNIST

スライド概要

京都大学人工知能研究会KaiRA

@kyoto-kaira

スライド一覧

AI・機械学習を勉強したい学生たちが集まる、京都大学の自主ゼミサークルです。私たちのサークルに興味のある方はX(Twitter)をご覧ください！

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

【論文読み会】GraphCast: Learning skillful medium-range global weather forecasting

京都大学人工知能研究会KaiRA 30.1K

【論文読み会】NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis

京都大学人工知能研究会KaiRA 22.9K

【IT Text 自然言語処理の基礎】第7章：事前学習済みモデルと転移学習

京都大学人工知能研究会KaiRA 21.2K

【物体検出】ResNet・EfficientNet (v2)

京都大学人工知能研究会KaiRA 18.4K

【Pythonで学ぶ音声認識】第5章：GMM-HMMによる音声認識（5.3節まで）

京都大学人工知能研究会KaiRA 13K

【Pythonで学ぶ音声認識】第5章：GMM-HMMによる音声認識（5.5節）

京都大学人工知能研究会KaiRA 12.1K

各ページのテキスト

2024 前期輪読会 # 8 ゼロから作るDeep Learning 5.7~5.8 工学部 4回生河田賢斗 0

5.7.1 ニューラルネットワークの学習の全体図 [前提] ニューラルネットワーク(以下NN)は、適応可能な重みとバイアスを有する。訓練データに適応するように調整すること = 「学習」 [学習の手順] Step1(ミニバッチ) : 訓練データの中からランダムに一部のデータを抽出 Step2(勾配の算出) : 各重みパラメータに関する損失関数の勾配を算出 Step3(パラメータの更新) : 重みパラメータを勾配方向に微小量だけ更新 Step4(繰り返し) : Step1 ～Step3を繰り返す 1

5.7.2 誤差逆伝播法に対応したNNの実装ポイント : レイヤを使用することでpredict()やgradient()の処理がレイヤの伝播だけで達成可能２層 NN の場合 → class TwoLayerNet を参考にレイヤを追加 # レイヤの生成 self.layers = OrderedDict() self.layers['Affine1'] = Affine(self.params['W1'], self.params['b1']) self.layers['Relu1'] = Relu() self.layers['Affine2'] = Affine(self.params['W2'], self.params['b2']) self.lastLayer = SoftmaxWithLoss() →次のページへ続く 2

5.7.2 誤差逆伝播法に対応したNNの実装 self.layers = OrderDict()として、NNのレイヤを保存する(順番つきのdictionary) →ディクショナリに追加した要素の順番を記憶可能順伝播では、追加した順にレイヤのforward()メソッドを呼び出せばよい逆伝播では、逆の順番でレイヤを呼び出せばよいここでは、Affine1、Relu1、Affine2、SoftmaxwithLossレイヤが各々の内部で順伝播・逆伝播を正しく処理してくれるため、これらのレイヤを正しい順番で連結し、順番にレイヤを呼び出せばよい def predict(self, x): for layer in self.layers.values(): 認識(推論)を行う。順伝播によって出力xを得る。 x = layer.forward(x) return x 3

5.7.2 誤差逆伝播法に対応したNNの実装 def gradient(self, x, t): # forward 順伝播によって損失関数の値を求める self.loss(x, t) # backward dout = 1 ! dout = self.lastLayer.backward(dout) 初期値を1と設定し、逆伝播によって差分誤差を求める layers = list(self.layers.values()) layers.reverse() ! reverseメソッドの定義 for layer in layers: dout = layer.backward(dout) 上で求まったdout(差分誤差）が前レイに伝わる。すなわち、AffineレイヤやReluレイヤにて逆伝播される。Backwardに記載の事柄が実行される。 4

5.7.2 誤差逆伝播法に対応したNNの実装・上でみたコードは、誤差逆伝播法にて用いられるものである・その他は、2層の NN を実現するためのコード ( class TwoLayerNet に記載のコード)を利用している NN の構成要素をレイヤとして実装したことで、NN を簡単に構築することが出来る →各レイヤ内で実装された順伝播・逆伝播によって学習に必要な勾配が求まる 5

勾配を算出する2つの手法数値微分解析的手法欠点) ・計算に時間を要する利点) ・実装が容易→ミスが少ない欠点) 微小な差分により、微分を求める・計算が高速かつ効率的 ex.) def numerical_diff(f, x) : h = 1e-4 return (f(x + h) – f(x-h)) /(2*h) ・実装がやや複雑→ミスが多い利点) 数式から解析的に微分を求めるため、誤差が含まれない「真の微分」誤差逆伝播法で使用される数値微分の結果と誤差伝播法の結果を比較して、誤差伝播法の実装の正しさを実証する→「勾配確認」 6

5.7.3 誤差逆伝播法の勾配確認以下に、勾配確認の実装を示す # coding: utf-8 import sys, os sys.path.append(os.pardir) # 親ディレクトリのファイルをインポートするための設定 import numpy as np from dataset.mnist import load_mnist from two_layer_net import TwoLayerNet # データの読み込み (x_train, t_train), (x_test, t_test) = load_mnist(normalize=True, one_hot_label=True) 7

5.7.3 誤差逆伝播法の勾配確認 network = TwoLayerNet(input_size=784, hidden_size=50, output_size=10) x_batch = x_train[:3] t_batch = t_train[:3] grad_numerical = network.numerical_gradient(x_batch, t_batch) grad_backprop = network.gradient(x_batch, t_batch) for key in grad_numerical.keys(): diff = np.average( np.abs(grad_backprop[key] - grad_numerical[key]) ) print(key + ":" + str(diff)) 参照 : https://github.com/oreilly-japan/deep-learning-fromscratch/blob/master/ch05/gradient_check.py 8

https://github.com/oreilly-japan/deep-learning-from-

10.

5.7.3 誤差逆伝播法の勾配確認データの読み込みでは、MNISTデータセットを読み込む X_batch、t_batchを定義し、訓練データの一部を抽出する grad_numerical(数値微分の値)及びgrad_backprop(逆誤差伝播法での微分の値)を定義し、誤差を確認する (各重みパラメータにおいて差の絶対値を求め、平均を算出) 算出した値が0になることは稀であるが、十分に小さな値をとるとき(1.0*e-12など)、誤差逆伝播法の実装に誤りが無いことの信憑性が増す 9

11.

5.7.4 誤差逆伝播法を使った学習以下に、誤差逆伝播法を用いた NN の学習の実装を示す # coding: utf-8 import sys, os sys.path.append(os.pardir) import numpy as np from dataset.mnist import load_mnist from two_layer_net import TwoLayerNet # データの読み込み (x_train, t_train), (x_test, t_test) = load_mnist(normalize=True, one_hot_label=True) 10

12.

5.7.4 誤差逆伝播法を使った学習 network = TwoLayerNet(input_size=784, hidden_size=50, output_size=10) iters_num = 10000 train_size = x_train.shape[0] batch_size = 100 learning_rate = 0.1 train_loss_list = [] train_acc_list = [] test_acc_list = [] iter_per_epoch = max(train_size / batch_size, 1) 11

13.

5.7.4 誤差逆伝播法を使った学習 for i in range(iters_num): batch_mask = np.random.choice(train_size, batch_size) x_batch = x_train[batch_mask] t_batch = t_train[batch_mask] # 勾配 #grad = network.numerical_gradient(x_batch, t_batch) grad = network.gradient(x_batch, t_batch) ! 誤差逆伝播法によって勾配を求める # 更新 for key in ('W1', 'b1', 'W2', 'b2'): network.params[key] -= learning_rate * grad[key] 12

14.

5.7.4 誤差逆伝播法を使った学習 loss = network.loss(x_batch, t_batch) train_loss_list.append(loss) if i % iter_per_epoch == 0: train_acc = network.accuracy(x_train, t_train) test_acc = network.accuracy(x_test, t_test) train_acc_list.append(train_acc) test_acc_list.append(test_acc) print(train_acc, test_acc) 参照 : https://github.com/oreilly-japan/deep-learning-fromscratch/blob/master/ch05/train_neuralnet.py 13

https://github.com/oreilly-japan/deep-learning-from-

15.

5.8 まとめ本章では、視覚的に計算過程を表す計算グラフを学んだ計算グラフを描く局所的な微分(NNでの誤差逆伝播法) NNの処理をレイヤで実装する→ Softmaxレイヤ、Affineレイヤ、Softmax-with-Lossレイヤ ReLUレイヤ各レイヤには、backward・forwardのメソッドが実装されており、データを逆方向・順方向に伝播させることが出来る重みパラメータの勾配を効率的に求めることが可能さらに、レイヤの重ね合わせで任意のNNを構築することも可能 14

16.

17.

18.