【ゼロから作るDeap Learning】8.1~8.3

2026年度前期輪読会ゼロから作るDeep Learning 第8章ディープラーニング (8.1～8.3) 京都大学大学院工学研究科 M2 河田賢斗 0

アジェンダ  8.1 ネットワークをより深く • 8.1.1 よりディープなネットワークへ • 8.1.2 さらに認識精度を高めるには • 8.1.3 層を深くすることのモチベーション  8.2 ディープラニングの小歴史 • 8.2.1 ImgeNet • 8.2.2 VGG • 8.2.3 GoogLeNet • 8.2.4 ResNet  8.3 ディープラーニングの高速化 • 8.3.1 取り組むべき問題 • 8.3.2 GPUによる高速化 • 8.3.3 分散学習 • 8.3.4 演算精度のビット削減 1

3.

アジェンダ  8.1 ネットワークをより深く • 8.1.1 よりディープなネットワークへ • 8.1.2 さらに認識精度を高めるには • 8.1.3 層を深くすることのモチベーション  8.2 ディープラニングの小歴史 • 8.2.1 ImgeNet • 8.2.2 VGG • 8.2.3 GoogLeNet • 8.2.4 ResNet  8.3 ディープラーニングの高速化 • 8.3.1 取り組むべき問題 • 8.3.2 GPUによる高速化 • 8.3.3 分散学習 • 8.3.4 演算精度のビット削減 2

4.

8.1 ネットワークをより深く本章ではディープなネットワークを作り、MNISTデータセットの手書き数字認識を行う 8.1.1 よりディープなネットワークへディープなネットワークについて • 畳込み層はすべて3×3の小さなフィルター • 層が深くなるにつれてチャンネル数が大きくなる • プーリング層を挿入し、中間データの空間サイズを徐々に小さくする • 全結合層では、Dropoutレイヤを使用する • 重みの初期値として、「Heの初期値」を使用 • Adamによる最適化ネットワークの認識精度が99.38%に達した 3

5.

8.1.1 よりディープなネットワークへネットワークの誤認識率はわずか0.62% →私たち人間にとっても判断が難しい画像が多かったディープなCNNは高精度であり、かつ認識を誤った画像に対して人間と同じような認識ミスを犯す →ディープなCNNは大きな可能性がある 8.1.2 さらに認識精度を高めるにはテキスト図8-3ではMNISTデータセットに対する各手法のランキングが記載されている →ランキングの上位を占めている手法の多くは、CNNベース (ただし、さほどディープなネットワークではない) (∵ネットワークの表現力を高める必要があまりない) 4

6.

8.1.1 よりディープなネットワークへ認識精度をさらに高めるには? →アンサンブル学習・学習係数の減衰・データ拡張データ拡張: 入力画像(訓練画像)をアルゴリズムにより“人工的”に拡張する (回転や縦横方向の微小な変化を与え、画像枚数を増やす) →データセットの枚数が限定的な場合に有効な手段その他にも、「crop処理」や「flip処理」が考えられる →こうした「トリック」を利用して認識精度を高めるのが良い 5

7.

アジェンダ  8.1 ネットワークをより深く • 8.1.1 よりディープなネットワークへ • 8.1.2 さらに認識精度を高めるには • 8.1.3 層を深くすることのモチベーション  8.2 ディープラニングの小歴史 • 8.2.1 ImgeNet • 8.2.2 VGG • 8.2.3 GoogLeNet • 8.2.4 ResNet  8.3 ディープラーニングの高速化 • 8.3.1 取り組むべき問題 • 8.3.2 GPUによる高速化 • 8.3.3 分散学習 • 8.3.4 演算精度のビット削減 6

8.

8.1.3 層を深くすることのモチベーション層を深くすることの重要性について ILSVRCに代表される大規模画像認識のコンペティションの結果層を深くするにつれて、認識精度も向上する層を深くすることの利点についてネットワークのパラメータ数を少なく出来る 5×5畳込み演算1回の領域は、3×3畳込み演算を2回行うことでカバーできるパラメータ数を小さくしつつ、受容野を広くカバーすることが可能となる学習の効率性が向上する学習データを少なくし、高速に学習が行えるようになる 7

9.

8.1.3層を深くすることのモチベーション具体的に、「犬」を認識する問題について • ネットワークを深くすることで、学習すべき問題を階層的に分解することが可能となる各層が学習すべき問題は、より単純な問題として取り組むことが出来る • さらに、階層的に情報を渡していくことも可能となる各層が学習すべき問題を「解きやすいシンプルな問題」へと分解することができ、効率よく学習することが期待される一方で、こうした技術のベースにはビッグデータやコンピュータパワーなどがあると考えられる 8

10.

アジェンダ  8.1 ネットワークをより深く • 8.1.1 よりディープなネットワークへ • 8.1.2 さらに認識精度を高めるには • 8.1.3 層を深くすることのモチベーション  8.2 ディープラニングの小歴史 • 8.2.1 ImgeNet • 8.2.2 VGG • 8.2.3 GoogLeNet • 8.2.4 ResNet  8.3 ディープラーニングの高速化 • 8.3.1 取り組むべき問題 • 8.3.2 GPUによる高速化 • 8.3.3 分散学習 • 8.3.4 演算精度のビット削減 9

11.

8.2 ディープラーニングの小歴史ディープラーニングが注目を集めるきっかけは、大規模画像認識のコンペティション (ILSVRC(ImageNet Large Scale Visual Recognition Challenge)) →ディープラーニングによる手法(AlexNet)が圧倒的な成績で優勝 8.2.1 ImageNet • ImageNetは100万枚を超える画像のデータセット • 様々な種類の画像が含まれており、それぞれの画像にはラベルが紐付けられている →この巨大なデータセットを用いてILSVRCという画像認識のコンペティションが毎年実施されるクラス分類では、ディープラーニングが着実に精度を高めている Ex. VCG, GoogLeNet, ResNet 10

12.

アジェンダ  8.1 ネットワークをより深く • 8.1.1 よりディープなネットワークへ • 8.1.2 さらに認識精度を高めるには • 8.1.3 層を深くすることのモチベーション  8.2 ディープラニングの小歴史 • 8.2.1 ImgeNet • 8.2.2 VGG • 8.2.3 GoogLeNet • 8.2.4 ResNet  8.3 ディープラーニングの高速化 • 8.3.1 取り組むべき問題 • 8.3.2 GPUによる高速化 • 8.3.3 分散学習 • 8.3.4 演算精度のビット削減 11

13.

8.2.2 VGG • 畳込み層とプーリング層から構成される、“基本的な”CNN • 3×3の小さなフィルターによる畳込み層を連続して行う (畳込み層を2から4回連続させ、プーリング層でサイズを半分に) → シンプルかつ応用性が高い構成であり、VGGベースのネットワークは汎用性が高いと言える 8.2.3 GoogLeNet • ネットワークが縦方向の深さだけでなく、横方向にも深さを持っている • 横方向に“幅”があり、「インセプション構造」と呼ぶ 12

14.

8.2.3 GoogLeNet インセプション構造ビルディングブロック Filter concatenation 1×1 convolutions 3×3 convolutions 5×5 convolutions 3×3 Max pooling Previous Layer 13

15.

アジェンダ  8.1 ネットワークをより深く • 8.1.1 よりディープなネットワークへ • 8.1.2 さらに認識精度を高めるには • 8.1.3 層を深くすることのモチベーション  8.2 ディープラニングの小歴史 • 8.2.1 ImgeNet • 8.2.2 VGG • 8.2.3 GoogLeNet • 8.2.4 ResNet  8.3 ディープラーニングの高速化 • 8.3.1 取り組むべき問題 • 8.3.2 GPUによる高速化 • 8.3.3 分散学習 • 8.3.4 演算精度のビット削減 14

16.

8.2.4 ResNet • Microsoftのチームによって開発されたネットワーク • 層を深くしすぎると、学習が上手くいかず最終的な性能が劣ることも多々あった → 「スキップ構造」を導入し、層を深くしつつ性能の向上を図った • スキップ接続では、入力のを2層先の出力にスキップして繋げる • スキップ構造によりとする • VGGのネットワークをベースとして層を深くする Weight layer relu Weight layer relu 15

17.

アジェンダ  8.1 ネットワークをより深く • 8.1.1 よりディープなネットワークへ • 8.1.2 さらに認識精度を高めるには • 8.1.3 層を深くすることのモチベーション  8.2 ディープラニングの小歴史 • 8.2.1 ImgeNet • 8.2.2 VGG • 8.2.3 GoogLeNet • 8.2.4 ResNet  8.3 ディープラーニングの高速化 • 8.3.1 取り組むべき問題 • 8.3.2 GPUによる高速化 • 8.3.3 分散学習 • 8.3.4 演算精度のビット削減 16

18.

8.3 ディープラニングの高速化 • 昨今は、ビッグデータとネットワークの大規模化が進む CPUを用いた計算では、心許なくなっている • ディープラーニングの多くはGPU(Graphic Processing Unit) をサポート大量の演算を高速に処理することが可能本章では、ディープラーニングの計算の高速化に焦点を当てる 8.3.1 取り組むべき問題 • ディープラーニングでどういった処理に時間が費やされるのか全体に対して、畳込み層の演算がGPUでは95%, CPUでは 89% まで達する 17

19.

アジェンダ  8.1 ネットワークをより深く • 8.1.1 よりディープなネットワークへ • 8.1.2 さらに認識精度を高めるには • 8.1.3 層を深くすることのモチベーション  8.2 ディープラニングの小歴史 • 8.2.1 ImgeNet • 8.2.2 VGG • 8.2.3 GoogLeNet • 8.2.4 ResNet  8.3 ディープラーニングの高速化 • 8.3.1 取り組むべき問題 • 8.3.2 GPUによる高速化 • 8.3.3 分散学習 • 8.3.4 演算精度のビット削減 18

20.

8.3.2 GPUによる高速化 • 元来は、グラフィックのための専用ボードとして利用されてきた汎用的な数値計算にもGPUは利用される (並列的な数値演算を高速に実行が可能である) 特に、ディープラーニングは大量の和積演算を行う必要がある大量の並列的な数値演算が得意なGPUを用いることが重要 GPU : NVIDIA社・AMD社により提供特に、NVIDIA社のGPUがディープラーニングと親しい CUDAという統合環境が、ディープラーニングのフレームワークで使用されているため 19

21.

アジェンダ  8.1 ネットワークをより深く • 8.1.1 よりディープなネットワークへ • 8.1.2 さらに認識精度を高めるには • 8.1.3 層を深くすることのモチベーション  8.2 ディープラニングの小歴史 • 8.2.1 ImgeNet • 8.2.2 VGG • 8.2.3 GoogLeNet • 8.2.4 ResNet  8.3 ディープラーニングの高速化 • 8.3.1 取り組むべき問題 • 8.3.2 GPUによる高速化 • 8.3.3 分散学習 • 8.3.4 演算精度のビット削減 20

22.

8.3.3 分散学習 • 1回の学習に必要な時間をできる限り小さくさせようとするディープラーニングの学習をスケールアウトさせる考え方 (「分散学習」)が重要となる高速化するためには、複数のGPUや複数台のマシンで分散して計算を実行する必要がある (Ex.) GoogleのTensorflow・MicrosoftのCNTK 分散学習の技術的な内容(「どのように計算を分散させるか」)についてはTensorFlowの技術論文を参照 21

23.

アジェンダ  8.1 ネットワークをより深く • 8.1.1 よりディープなネットワークへ • 8.1.2 さらに認識精度を高めるには • 8.1.3 層を深くすることのモチベーション  8.2 ディープラニングの小歴史 • 8.2.1 ImgeNet • 8.2.2 VGG • 8.2.3 GoogLeNet • 8.2.4 ResNet  8.3 ディープラーニングの高速化 • 8.3.1 取り組むべき問題 • 8.3.2 GPUによる高速化 • 8.3.3 分散学習 • 8.3.4 演算精度のビット削減 22

24.

8.3.4 演算精度のビット削減ディープラーニングの高速化 (ボトルネック): 計算量・メモリ容量・バス帯域・メモリ容量:大量の重みパラメータを収める必要性・バス帯域:バスを流れるデータ量が増加し、制限を超えるとボトルネックとなるコンピュータでは、実数の表現のために64ビットや32ビットの浮動小数点数が用いられる数値計算時の誤差による影響は少なくなるが、計算の処理コストやメモリ使用量が増大し、バス帯域に負荷がかかる 23

25.

8.3.4 演算精度のビット削減ディープラーニングについて: 数値精度のビット数をそこまで必要としない (ニューラルネットワークのロバスト性による) 入力画像に小さなノイズがかかっても、出力結果が変わらない頑健性があるという意味 32ビットの単精度浮動小数点数や64ビットの倍精度浮動小数点数などのフォーマットがあるが、16ビットの半精度浮動小数点数でも問題なく学習が可能である Python : 64ビットの浮動小数点が使用される Numpy:16ビットの半精度浮動小数点数が用意される Numpyを用いても認識精度自体は低下しないディープラーニングの高速化のためにビットを削減するというテーマは重要なテーマである 24

【ゼロから作るDeap Learning】8.1~8.3

京都大学人工知能研究会KaiRA

関連スライド

【論文読み会】GraphCast: Learning skillful medium-range global weather forecasting

【IT Text 自然言語処理の基礎】第7章：事前学習済みモデルと転移学習

【論文読み会】NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis

【物体検出】ResNet・EfficientNet (v2)

【物体検出】MaskFormer

【物体検出】DINO

各ページのテキスト