【ゼロから作るDeap Learning】4.4~4.6

234 Views

May 21, 26

#ニューラルネットワーク #勾配法 #学習アルゴリズム #ミニバッチ学習 #ゼロから作るDeep Learning

スライド概要

京都大学人工知能研究会KaiRA

@kyoto-kaira

スライド一覧

AI・機械学習を勉強したい学生たちが集まる、京都大学の自主ゼミサークルです。私たちのサークルに興味のある方はX(Twitter)をご覧ください！

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

【論文読み会】GraphCast: Learning skillful medium-range global weather forecasting

京都大学人工知能研究会KaiRA 31.4K

【IT Text 自然言語処理の基礎】第7章：事前学習済みモデルと転移学習

京都大学人工知能研究会KaiRA 24.4K

【論文読み会】NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis

京都大学人工知能研究会KaiRA 23.9K

【物体検出】ResNet・EfficientNet (v2)

京都大学人工知能研究会KaiRA 20.5K

【物体検出】MaskFormer

京都大学人工知能研究会KaiRA 15.9K

【物体検出】DINO

京都大学人工知能研究会KaiRA 14.6K

各ページのテキスト

2026年度前期輪読会ゼロから作るDeep Learning 第4章ニューラルネットワークの学習 (4.4～4.6) 京都大学大学院工学研究科 M2 河田賢斗 0

アジェンダ  4.4 勾配 • 4.4.1 勾配法 • 4.4.2 ニューラルネットワークに対する勾配  4.5 学習アルゴリズムの実装 • 4.5.1 2層ニューラルネットワークのクラス • 4.5.2 ミニバッチ学習の実装 • 4.5.3 テストデータで評価  4.6 まとめ 1

アジェンダ  4.4 勾配 • 4.4.1 勾配法 • 4.4.2 ニューラルネットワークに対する勾配  4.5 学習アルゴリズムの実装 • 4.5.1 2層ニューラルネットワークのクラス • 4.5.2 ミニバッチ学習の実装 • 4.5.3 テストデータで評価  4.6 まとめ 2

4.4 勾配の関数の偏微分について計算) の両方の偏微分をまとめて右にコードを記載 𝝏𝒇 𝝏𝒇 𝝏𝒙𝟎 𝝏𝒙𝟏 として計算する(勾配(gradient)の使用 • • 最後の文でにおける勾配の計算を実装計算結果は正しく得られた 3

4.4 勾配の関数の勾配について(以下にコードを記載)  勾配は、関数 ( )の「一番低い場所」をさしている  「一番低い場所」から遠く離れれば離れるほど、矢印の大きさも大きくなる  また、勾配が示す方法は各場所において関数の値を最も減らす方向であるコードの出典： https://github.com/oreilly-japan/deep-learning-fromscratch/blob/master/ch04/gradient_2d.py 4

https://github.com/oreilly-japan/deep-learning-from-

アジェンダ  4.4 勾配 • 4.4.1 勾配法 • 4.4.2 ニューラルネットワークに対する勾配  4.5 学習アルゴリズムの実装 • 4.5.1 2層ニューラルネットワークのクラス • 4.5.2 ミニバッチ学習の実装 • 4.5.3 テストデータで評価  4.6 まとめ 5

4.4.1 勾配法ニューラルネットワークの学習では、最適なパラメータ(重みとバイアス)を見つける必要がある最適なパラメータにおいて、損失関数は最小値をとる損失関数の最小値(または、できるだけ小さな値)を探査する際に、勾配を利用することが勾配法 (注意点) 勾配は各地点において損失関数の値を最も減らす方向であり、勾配が目指す先が、損失関数の最小値となるわけではない鞍点や極小値においても勾配は0となるが、必ずしも関数の最小値となるわけではない →勾配の情報を参考に、進む方向を決めるのが良い勾配方向へ進むことを繰り返して、関数の値を徐々に減少するのが勾配法(gradient method) 6

4.4.1 勾配法関数の最小値を探索する場合: 勾配降下法(gradient descent method) 式関数の最大値を探索する場合: 勾配上昇法(gradient ascent method) 学習率(learning rate)) 勾配法を表した数式を式(1)に記載する • 変数の値が増えても式(1)に従い、更新していく • 式(1)のステップを繰り返すことで、関数の値を減らす • 学習率の値は、大きすぎても小さすぎても、適切ではない値を変更しながら正しく学習出来ているか、確認作業を行う 7

4.4.1 勾配法の最小値を勾配法を用いて解くコードを作成 • 学習率をはにすると、最終的な結果となった • 学習率をにすると,最終的な結果は上記の通りとなった ←初期値をとし、学習率は勾配法における繰り返しの数は最終的な結果はほぼ正確な結果を得た , となり、 8

10.

4.4.1 勾配法勾配法による変数の更新を図示するコードも作成学習率はハイパーパラメータと呼ばれ、手動で設定される →様々な学習率の値を試し、うまく学習出来るケースを探すコードの出典： https://github.com/oreilly-japan/deep-learningfrom-scratch/blob/master/ch04/gradient_method.py 9

https://github.com/oreilly-japan/deep-learning-

11.

アジェンダ  4.4 勾配 • 4.4.1 勾配法 • 4.4.2 ニューラルネットワークに対する勾配  4.5 学習アルゴリズムの実装 • 4.5.1 2層ニューラルネットワークのクラス • 4.5.2 ミニバッチ学習の実装 • 4.5.3 テストデータで評価  4.6 まとめ 10

12.

4.4.2 ニューラルネットワークに対する勾配ニューラルネットワークの学習における勾配( 現出来る )は以下の式(3)で表式式(3) 以下ではニューラルネットワークを基にして、実際に勾配を求める実装を行う(はじめに、simpleNetというクラスを実装する) 11

13.

4.4.2ニューラルネットワークに対する勾配 • ここでは、ランダムな数値を重みに格納 • に1×2次元配列を組み込み、重みとの行列積を計算することで1×3次元行列を得る • argmax()関数により、最大値のインデックスを出力する(0) • 正解ラベルを与え、 cross entropy 誤差を算出→下の結果より 2.27と求まる 12

14.

4.4.2ニューラルネットワークに対する勾配最終の行列の出力では、勾配が表現されている前ページの例では、と算出されている損失関数を減らすという観点では、をマイナス方向へ、をプラス方向へ更新させることが良い更新では、のほうがよりも大きく貢献することが分かる 13

15.

アジェンダ  4.4 勾配 • 4.4.1 勾配法 • 4.4.2 ニューラルネットワークに対する勾配  4.5 学習アルゴリズムの実装 • 4.5.1 2層ニューラルネットワークのクラス • 4.5.2 ミニバッチ学習の実装 • 4.5.3 テストデータで評価  4.6 まとめ 14

16.

4.5 学習アルゴリズムの実装ニューラルネットワークの学習に関する基本について【前提】ニューラルネットワーク:重みとバイアスを有する重みとバイアスを訓練データに適応するように調整すること＝「学習」【ステップ1(ミニバッチ)】訓練データの中から一部のデータを抽出(ミニバッチ)し、この損失関数の値を減らすことを目的【ステップ2(勾配の算出)】ミニバッチの損失関数を減らすため、各重みパラメータの勾配を算出【ステップ3(パラメータの更新)】重みパラメータを勾配方向に微小量だけ更新【ステップ4(繰り返す)】ステップ1～ステップ3を繰り返すニューラルネットワークの学習は、これら4つの手順で実施使用データは無作為に抽出したものを使用するため、確率的勾配降下法 (stochastic gradient descent; SGD)と呼ばれる 15

17.

アジェンダ  4.4 勾配 • 4.4.1 勾配法 • 4.4.2 ニューラルネットワークに対する勾配  4.5 学習アルゴリズムの実装 • 4.5.1 2層ニューラルネットワークのクラス • 4.5.2 ミニバッチ学習の実装 • 4.5.3 テストデータで評価  4.6 まとめ 16

18.

4.5.1 2層ニューラルネットワークのクラス 2層ニューラルネットワークをTwoLayerNetという名前のクラスとして、以下のコードの通り実装 17

19.

4.5.1 2層ニューラルネットワークのクラス • 重みパラメータの初期化を実施重みはガウス分布に従う乱数で初期化・バイアスは0で初期化 • は損失関数の値を計算 predict()の結果と正解ラベルを元に、交差エントロピーを算出 • は各重みに対する損失関数の勾配を計算数値微分による勾配の算出法 • 実装の結果より、コードが正しく処理されたことが分かる ↓実装の結果 18

20.

アジェンダ  4.4 勾配 • 4.4.1 勾配法 • 4.4.2 ニューラルネットワークに対する勾配  4.5 学習アルゴリズムの実装 • 4.5.1 2層ニューラルネットワークのクラス • 4.5.2 ミニバッチ学習の実装 • 4.5.3 テストデータで評価  4.6 まとめ 19

21.

4.5.2 ミニバッチ学習の実装実装コード例(1・2/6) 20

22.

4.5.2 ミニバッチ学習の実装実装コード例(3・4/6) 21

23.

4.5.2 ミニバッチ学習の実装実装コード例(5・6/6) 22

24.

4.5.2 ミニバッチ学習の実装【コードの基本情報】  訓練データからミニバッチを取得勾配法によりパラメータを更新  TwoLayerNetクラスにより、MNISTデータセットを用いて学習  (ミニバッチサイズ)=100, (訓練データの個数)=60,000  確率勾配降下による繰り返しの回数は、10,000回  損失関数の結果は右図の通りである学習の回数が進むにつれて損失関数の値が減少する (学習がうまくいっている) 23

25.

アジェンダ  4.4 勾配 • 4.4.1 勾配法 • 4.4.2 ニューラルネットワークに対する勾配  4.5 学習アルゴリズムの実装 • 4.5.1 2層ニューラルネットワークのクラス • 4.5.2 ミニバッチ学習の実装 • 4.5.3 テストデータで評価  4.6 まとめ 24

26.

4.5.3 テストデータで評価学習の回数が進むと損失関数の値が減少することが確認できたこれは訓練データのミニバッチに対してであり、他のデータセットに同じことが言えるのかは不明瞭訓練データ以外のデータを正しく認識できるのかを確認する必要がある(「過学習」を防ぐ) ニューラルネットワークの学習では、「汎化能力」を身に付けることが目標 1エポック毎に、訓練データとテストデータの認識精度を記録する 25

27.

4.5.3 テストデータで評価 • 上記赤枠の部分のコードにより、認識精度を得る • for 文の繰り返しでは時間がかかるため、 1エポック毎に計算 26

28.

4.5.3 テストデータで評価 • 前ページで得られたコードの結果を以下に示す • 各エポック毎の、訓練データ及びテストデータの認識精度の値を出力(左図) • 値をグラフにプロット(右図) 27

29.

アジェンダ  4.4 勾配 • 4.4.1 勾配法 • 4.4.2 ニューラルネットワークに対する勾配  4.5 学習アルゴリズムの実装 • 4.5.1 2層ニューラルネットワークのクラス • 4.5.2 ミニバッチ学習の実装 • 4.5.3 テストデータで評価  4.6 まとめ 28

30.

4.6 まとめニューラルネットワークの学習について損失関数という指標を導入この値が最も小さくなる重みパラメータを探索探索には、関数の傾きを用いた勾配法を使用 (本章のまとめ)  データセットは訓練データとテストデータに分けて、汎化能力をテストデータで評価  損失関数を指標とし、重みパラメータの勾配をもとに勾配方向に主にの値を更新  重みパラメータの勾配は数値微分により算出可能  次章で実装する誤差逆伝播法では、高速に勾配を算出可能 29