【ゼロから作るDeep Learning】5.5-5.6

297 Views

June 23, 24

#深層学習 #誤差逆伝播法 #ReLU #Sigmoid #Affine #Softmax-with-Loss #Python

スライド概要

京都大学人工知能研究会KaiRA

@kyoto-kaira

スライド一覧

AI・機械学習を勉強したい学生たちが集まる、京都大学の自主ゼミサークルです。私たちのサークルに興味のある方はX(Twitter)をご覧ください！

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

【論文読み会】GraphCast: Learning skillful medium-range global weather forecasting

京都大学人工知能研究会KaiRA 28.8K

【論文読み会】NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis

京都大学人工知能研究会KaiRA 21.4K

【IT Text 自然言語処理の基礎】第7章：事前学習済みモデルと転移学習

京都大学人工知能研究会KaiRA 17.3K

【物体検出】ResNet・EfficientNet (v2)

京都大学人工知能研究会KaiRA 15.2K

【Pythonで学ぶ音声認識】第5章：GMM-HMMによる音声認識（5.5節）

京都大学人工知能研究会KaiRA 11.4K

【Pythonで学ぶ音声認識】第5章：GMM-HMMによる音声認識（5.3節まで）

京都大学人工知能研究会KaiRA 11.1K

各ページのテキスト

2024年度前期輪読会#8「ゼロから作る Deep Learning」５章誤差逆伝播法 5.5～5.6 京都大学経済学部二回生大澤衡正 0

誤差逆伝播法目次 1. ReLUレイヤの逆伝播 2. Sigmoidレイヤの逆伝播 3. Affineレイヤの逆伝播 4. Softmax-with-Lossレイヤの逆伝播 5. まとめ 1

1. ReLUレイヤの逆伝播 2

1 . ReLUレイヤの逆伝播計算グラフ ● ReLUの微分は 𝜕𝑥 = 1(x > 0) 𝜕𝑦 𝜕𝑥 = 0(x ≤ 0) 𝜕𝑦 よって、逆伝播時の入力ｘが０より大きければそれをそのまま流し、それ以外の場合は下流への信号はストップする。 3

2. ReLUレイヤの逆伝播実装 class Relu: def __init__(self) -> None: # 準伝播時の入力値が0以下の要素をTrueとする配列 self.mask: npt.NDArray[np.bool] = np.zeros(0) def forward(self, x: npt.NDArray[np.float64]) -> npt.NDArray[np.float64]: self.mask = x <= 0 out = x.copy() out[self.mask] = 0 return out def backward( self, dout: npt.NDArray[np.float64] ) -> npt.NDArray[np.float64]: # 逆伝播時に0以下の要素を0にする dout[self.mask] = 0 dx = dout return dx 4

2. Sigmoidレイヤの逆伝播 5

2. Sigmoidレイヤの逆伝播計算グラフ Sigmoid関数の計算グラフは上に示した通りこれはさらに簡略化できて 𝜕𝐿 y(1 − y) 𝜕𝑦 よってSigmoid関数の逆伝播は順伝播の出力だけで書くことができる 6

2. . Sigmoidレイヤの逆伝播実装 class Sigmoid: def __init__(self) -> None: self.out: npt.NDArray[np.float64] = np.zeros(0) def forward(self, x: npt.NDArray[np.float64]) -> npt.NDArray[np.float64]: out = 1.0 / (1.0 + np.exp(-x)) self.out = out return out def backward( self, dout: npt.NDArray[np.float64] ) -> npt.NDArray[np.float64]: dx = dout * (1.0 - self.out) * self.out return dx 7

3. Affineレイヤの逆伝播 8

10.

2. Affineレイヤの逆伝播計算グラフ ←Affineレイヤの計算グラフこれまでの計算グラフではノードを流れるのはスカラ値だったが、今回は行列が流れる ※Nはbatchサイズを意味する式1.2の導出は以下が参考になる行列積の勾配を誤差逆伝播法により求める (zenn.dev) 9

https://zenn.dev/schnell/articles/579df242f79964

11.

2. Affineレイヤの逆伝播実装 class Affine: def __init__( self, W: npt.NDArray[np.float64], b: npt.NDArray[np.float64] ) -> None: self.W: npt.NDArray[np.float64] = W self.b: npt.NDArray[np.float64] = b self.x: npt.NDArray[np.float64] = np.zeros(0) self.dW: npt.NDArray[np.float64] = np.zeros(0) self.db: npt.NDArray[np.float64] = np.zeros(0) def forward(self, x: npt.NDArray[np.float64]) -> npt.NDArray[np.float64]: self.x = x out = np.dot(x, self.W) + self.b return out def backward( self, dout: npt.NDArray[np.float64] ) -> npt.NDArray[np.float64]: dx = np.dot(dout, self.W.T) # x方向以外の微分も求める self.dW = np.dot(self.x.T, dout) self.db = np.sum(dout, axis=0) return dx 10

12.

４. Softmax-with-Lossレイヤの逆伝播 11

13.

2. Softmax-with-Lossレイヤの逆伝播計算グラフ ● Softmax関数の損失関数として交差エントロピー誤差を用いると逆伝播は (y1 − t1, y2 − t2, y3 − t3) という綺麗な値になる。これは偶然ではなく、交差エントロピー誤差が望ましい性質を持つように設計されているからまた、単に綺麗なだけでなく、教師ラベルとNN の予測の差が出力されていることも重要 ※ここでは３クラス分類を行う場合を想定 12

14.

2. Softmax-with-Lossレイヤの逆伝播計算グラフの詳細 softmax関数の計算グラフクロスエントロピー誤差の計算グラフ 13

15.

2. ReLUレイヤの逆伝播実装 class SoftmaxWithLoss: def __init__(self) -> None: self.loss: float = 0.0 self.y: npt.NDArray[np.float64] = np.zeros(0) self.t: npt.NDArray[np.float64] = np.zeros(0) def forward( self, x: npt.NDArray[np.float64], t: npt.NDArray[np.float64] ) -> float: self.t = t self.y = softmax(x) self.loss = float(cross_entropy_error(self.y, self.t)) return self.loss def backward(self, dout: float = 1) -> npt.NDArray[np.float64]: batch_size = self.t.shape[0] # バッチサイズで割ることで、1サンプルあたりの誤差を求める dx = (self.y - self.t) / batch_size return dx 14

16.

誤差逆伝播法 4.まとめまとめ１まとめ２まとめ３ NNを構成するレイヤーを一つのノードとみなして誤差逆伝播を実装できるクロスエントロピー誤差はSoftmax関数と組み合わせたときに逆伝播の値が正確にモデルの予測誤差を反映した簡潔な値となるように設計されている各層の準伝播と逆伝播を一つのクラスとして実装することで、実際のコーディングを簡潔に行うことができる 15

17.