【ゼロから作るDeep Learning】6.1

785 Views

June 23, 24

#機械学習 #最適化 #勾配降下法 #SGD #Adam

スライド概要

京都大学人工知能研究会KaiRA

@kyoto-kaira

スライド一覧

AI・機械学習を勉強したい学生たちが集まる、京都大学の自主ゼミサークルです。私たちのサークルに興味のある方はX(Twitter)をご覧ください！

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

【論文読み会】GraphCast: Learning skillful medium-range global weather forecasting

京都大学人工知能研究会KaiRA 30.5K

【論文読み会】NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis

京都大学人工知能研究会KaiRA 23.4K

【IT Text 自然言語処理の基礎】第7章：事前学習済みモデルと転移学習

京都大学人工知能研究会KaiRA 22.2K

【物体検出】ResNet・EfficientNet (v2)

京都大学人工知能研究会KaiRA 19.2K

【Pythonで学ぶ音声認識】第5章：GMM-HMMによる音声認識（5.3節まで）

京都大学人工知能研究会KaiRA 13.7K

【物体検出】MaskFormer

京都大学人工知能研究会KaiRA 12.6K

各ページのテキスト

前期輪読会 6-1 パラメータの更新京都大学工学部木村優汰 0

6-1 パラメータの更新学習の目的 : 損失関数の値を小さくするつまり損失関数を小さくするような最適なパラメータを求めたいということ最適化問題の一種であり、難しい最適化手法前章まで:確率的勾配降下法（SGD）他にも効率的な手法があるので本節ではそれらをみていく 1

6-1-1 冒険家の話最適化についてのたとえ話冒険家＝私たち深き場所＝最適なパラメータ地面の傾斜＝勾配 SGD : 今いる地点で最も傾斜がきつい方向に進もうとすること 2

6-1-2 SGD SGDを数式で表す。 W:重みパラメータ（更新対象） η:学習係数 L:損失 #最適化を行うクラス Class SGD: def __init__(self, lr = 0.01): self.lr = lr def update(self,params,grads): for key in params.keys(): params[key] -= self.lr * grads[key] W ← W – η(∂L/∂W) 3

6-1-3 SGDの欠点例としてを考えてみるこの関数はで最小をとる。つまりたどり着くことが目的である。に勾配の向きと最小値への向きは必ずしも一致しない:欠点の要因 4

6-1-4 Momentum import numpy as np v:速度のようなもの :速度の減衰に対応ボールを転がしたような挙動 class Momentum: def __init__(self,lr=0.01,momentum=0.9): self.lr = lr self.momentum = momentum self.v = None #vを格納するための辞書 def update(self, params, grads): if self.v is None: self.v = {} #初期化 for key, val in params.items(): self.v[key] = np.zeros_like(val) for key in params.keys(): self.v[key]=self.momentum* self.v[key]-self.lr*grads[key] params[key] += self.v[key] 5

6-1-5 AdaGrad 学習係数の減衰を導入パラメータの要素ごとに学習係数を調整しながら学習をする class AdaGrad: def __init__(self,lr=0.01): self.lr = lr self.h = None def update(self,params,grads): if self.h is None: self.h = {} for key, val in params.items(): self.h[key]+=grads[key]*grads[key] params[key]-=self.lr*grads[key]/ (np.sqrt(self.h[key])+1e-7) :勾配の二乗和を保存 6

6-1-6 Adam 勾配の平均分散から各パラメータで個別の学習係数を計算する手法過去の情報を減衰させる移動平均の概念（RMSProp） MomentumとRMSPropの融合がベースハイパーパラメータが3個勾配の移動平均勾配の２乗の移動平均詳しくは以下の論文で [1412.6980v8] Adam: A Method for Stochastic Optimization (arxiv.org) 7

6-1-7 どの更新手法を用いるか? 全ての問題について最適な手法は今のところ存在しない本書ではSGD,Adamを主に使用している右図についてこれはでの最小点の探索経路・それぞれの手法に特徴・今回はAdaGradが一番きれいに収束している 8

10.

6-1-8 MNISTデータセットによる更新手法の比較 MNISTデータセットについて最適化に前の４個の手法を用いた結果を比較する。 SGD以外の方法のほうが学習が速いこの結果はハイパーパラメータやネットワークの構造で変わる (5層、各層100個のニューロン) 9

11.