#74 ディープラーニングとは

>100 Views

May 13, 26

#ディープラーニング #機械学習 #特徴量 #バックプロパゲーション #アノテーション #ニューラルネットワーク #特徴量エンジニアリング #データサイエンス

スライド概要

『5th STEP ディープラーニング』、はじまります！

最初のSectionは、『#74 ディープラーニングとは』

本スライドは、データサイエンスの次のステップとしてディープラーニングを位置付け、ニューラルネットワークの原理やヒューブ則に基づく記憶モデル、パーセプトロンから多層構造への発展、バックプロパゲーションによる学習手法を紹介します。また、従来の機械学習との違いとして特徴量設計の自動化や非構造化データへの高い性能を説明し、Googleの実例や日本人研究者の貢献を交えて具体例を示します。さらに、データに意味付けを行うアノテーションの役割と医療画像・NLP・自動運転などの活用例も取り上げ、ディープラーニングを実践的に理解できるようにまとめています。

猫のタロー

@Cat_Taro

スライド一覧

すべてのビジネスパーソンが意思決定プロセスにデータを活用する思考を身につけるため、まずは、データサイエンスの分析を体験していきましょう。SECIモデルの最初の段階、共同化（Socialization）からはじめていきます。下記のブログで、ここにアップしたスライド、動画を随時、公開中です。【ブログ】https://tutorial4datascience.blogspot.com/ 【Youtubeチャンネル】https://www.youtube.com/@DataScience_for_everyone 【Kindle】そして、このブログをまとめて書籍にしました！　　https://amzn.to/4ryVppn 　　https://amzn.to/4pGgFb1

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

データサイエンス関連資格

猫のタロー 49.8K

データサイエンス関連の資格_後編

猫のタロー 4.2K

データサイエンス関連資格_前編

猫のタロー 2K

#73 【解決編】 PythonとPyCaretのバージョン問題

猫のタロー 671

#32 NDBオープンデータとは

猫のタロー 618

#33 URLからデータを読み込む

猫のタロー 419

各ページのテキスト

データサイエンスチュートリアル 5th STEP ディープラーニング deep learning

データサイエンスチュートリアル次のステップは、ディープラーニングです。 1st STEP ビッグデータの読み込みとデータの確認 2nd STEP 集計とグラフ描画 3rd STEP 応用編医療 4th STEP 機械学習データサイエンスチュートリアル 2

5th STEP ディープラーニング Section １ディープラーニングとは？データサイエンスチュートリアル 3

ディープラーニングのポジション人間の脳の神経回路を模した「ニューラルネットワーク」を多層（ディープ）に重ね、AI が大量のデータから特徴やパターンを自動で学習する機械学習手法 AI 機械学習ルールベース（エキスパートシステム）遺伝的アルゴリズム教師あり学習教師なし学習強化学習ディープラーニングデータサイエンスチュートリアル（deep learning） 4

ディープラーニングの原理データサイエンスチュートリアル 5

記憶とは？ドナルド・ヘッブ（1949年）ヘブ則／ニューロン1の発火がニューロン2を発火させると2つのニューロンの結合が強まる。これが脳の中で起こっている記憶の基礎現象であり、ニューロン同士の結合が強まるということは記憶したということ。出典 https://www.wakodo.co.jp/product/special/babyfood/babyfood/global/advice/article01.html データサイエンスチュートリアル 6

https://www.wakodo.co.jp/product/special/babyfood/babyfood/global/advice/article01.html

コンピュータ上における神経細胞のモデル化形式ニューロンパーセプトロン 1943年ウォーレン・マカロック、ウォルター・ピッツ 1958年フランク・ローゼンブラット ●人間のニューロン（神経）の活動を模倣したモデル ●形式ニューロンを組み合わせたモデルデータサイエンスチュートリアルニューラルネットワーク ●多層パーセプトロンと比べて学習機能あり 7

ディープラーニング ●多数の層からなるニューラルネットワークの学習のことを、ディープラーニング（深層学習）とよび、ジェフェリー・ヒントン（後にGoogle所属）が概念を提唱、開発。 ●ヒトの知能に部分的に迫る（あるいは凌駕する）高い性能をしばしば発揮。データサイエンスチュートリアル 8

バックプロパゲーション／ディープラーニングの学習方法ニューラルネットワークでは、入力に対して重み付けやバイアスをかけ出力をしますが、その結果に対して、ニューロンの重み付けやバイアスを調整していくのが、バックプロパゲーション（Backpropagation／誤差逆伝播法）。予測の誤差を、出力側から入力側へと「逆方向」に伝えていき、各層のパラメーター（重み）をどれくらい修正すべきかを計算する機能です。データサイエンスチュートリアル 9

10.

【参考】ディープラーニングを支えた日本人福島邦彦甘利俊一 1967年確率的勾配降下法 1980年ネオコグニトロンジェフェリー・ヒントンデビッド・ラメルハートらジェフェリー・ヒントン 2012年 CNN 1986年バックプロパゲーション画像認識のデファクトディープラーニングの主な学習手法データサイエンスチュートリアル 10

11.

ディープラーニングの特徴データサイエンスチュートリアル 11

12.

特徴量（１）では、従来の機械学習とディープラーニングは、どのような違いがあるのでしょうか？それを解説する前に、特徴量という概念を理解しておきましょう。そもそも、機械学習とは、大量な学習データをもとに法則やパターンを見出すことです。『法則やパターン』を大量のデータから見つけ出す際に、データのどのような特徴に着目すべきかを表す変数が『特徴量』です。一言で表すと、分析対象データの中の、予測の手掛かりとなる変数のことです。 #57に出てきた『insurance』というデータを思い出してください。 ■説明変数：何かの原因となっている変数 ■目的変数：その原因を受けて発生した結果となっている変数このようなデータでは、説明変数の1つの「列」が1つの特徴量と言い換えることができます。データサイエンスチュートリアル 12

13.

特徴量（２）ビッグデータが蓄積されはじめると、行・列を持ち表形式に整形されている構造化データばかりではなく、画像・映像・音声・テキストなどの『非構造化データ』が集積されるようになってきました。例えば、デジタル画像を構成する最小の単位はピクセル（Pixel/画素）ですが、これらは人の判断で特徴量を選択することが困難です。構造化データ非構造化データ行・列を持ち、表形式に整形されている構造化データ列単位で特徴量を選択画像・映像・音声・テキストなどの非構造化データ人の判断で特徴量選択が困難データサイエンスチュートリアル個々のピクセルの色は、単色 13

14.

Googleの猫そこで、開発された手法が、特徴量をAI自身が導き出すディープラーニングです。ノーベル物理学賞を受賞したジェフリー・ヒントンが開発したディープラーニングを飛躍的に発展させ、実用化した立役者がGoogleです。下記の例は、『Googleの猫』としてよく知られています。従来は、AIに猫のラベル（答え）をつけた大量の画像と、「目」「口」「大きさ」などの目の付けどころ（特徴量）を与えていました。 AIは与えられたものから猫のそれぞれの特徴を学習し、モデル（法則）を作り、見分けることができるようになります。ディープラーニングは、AIにデータのみを与え、特徴量はAI自身が導き出します。得られた結果を新たな特徴量としてさらにモデル（法則）を作り出します。データにラベルが必要ないため、データにラベル付けする手間がありません。出典 https://ics.media/entry/17792/ データサイエンスチュートリアル 14

https://ics.media/entry/17792/

15.

ルールベースAI、機械学習、ディープラーニングルールベースAIや一般的な機械学習、ディープラーニングの違いを『特徴量設計』と『ルール生成』の観点からまとめると下記のようになります。特徴量設計ルール生成特徴量設計ルール生成特徴量設計ルール生成人間人間人間自動自動自動データサイエンスチュートリアル 15

16.

【参考】ディープラーニングと従来の機械学習との違いディープラーニングが威力を発揮するのは非構造化データ（画像、言語、音声など）を扱う際であり、非構造化データの特徴を抽出するのに有用な手法となります。構造化データ（表形式）でもディープラーニングは実施可能ですが、従来の機械学習となる勾配ブースティング決定木（GBDT）などを使用した方が容易にモデルを作成でき、学習時間も短いので、コストは安価になります。ディープラーニング一般的な機械学習特徵・非構造化データに高い性能を発揮・コストは高い・構造化データに対して高い性能を発揮・ディープラーニングに対して低コスト得意なデータタイプ画像、動画、波形、テキスト、化学分子テーブル、時系列特徴量エンジニアリングほぼ不要・線形、非線形相関などあらゆる特徴量抽出・ドメイン知識が求められるハイパーパラメータチューニング複雑簡単学習時間長い(数時間~数日以上) 数分~数時間ハードウェア GPU/TPU CPU/GPU 使用されるライブラリ Keras, Pytorch, Tensorflow LightGBM, XGBoost, CatBoost等【出典】ディープラーニングの得意領域 https://www.canon-its.co.jp/column/ai-column/01 データサイエンスチュートリアル 16

https://www.canon-its.co.jp/column/ai-column/01

17.

【参考】アノテーションアノテーションアノテーションアノテーション（annotation）は「注釈」「付記」を意味する言葉で、データサイエンスではデータに意味を付与し、機械学習（ディープラーニングを含む）に利用できる形に加工・整理する作業を指します。アノテーションの役割 ●教師データを作成し、AIに正しい出力パターンを学習させる ●膨大なデータを分類・整理し、効率的な学習・管理を可能にするデータサイエンスチュートリアル 17

18.

【参考】アノテーションの実例実例 ■ 医療画像画像の中にある病変部位や体組織に印をつける作業となります。バウンディングボックスと呼ばれる四角形でオブジェクトを囲む場合や、セグメンテーションと呼ばれる、オブジェクトの輪郭をなぞるアノテーションが一般的な方法です。 ■ 自然言語処理（NLP）単語一つ一つに具体的な意味を割り当て、単語間の関係を識別する『セマンティックアノテーション』、人名や地名、企業名などにカテゴライズする『エンティティアノテーション』、テキスト内に含まれる感情をラベル付けする『センチメントアノテーション』等がよく用いられます。 ■ 自動運転車両に搭載されたカメラ、LiDAR（レーザー光を使ったリモートセンシング技術）、レーダーなどが捉えた周囲のデータ（画像や3D点群）に対して、「これは歩行者」、「これは標識」といった意味付け（ラベル付け）を行い、 AIが走行環境を正しく認識するための教師データを作るアノテーションが行われています。データサイエンスチュートリアル 18

19.

【参考】アノテーションと特徴量の自動化ディープラーニングの最大の特徴は、データの中から『何が重要な特徴か』を人間が指示しなくても自力で見つけ出す『特徴量の自動化』にあります。しかし、その抽出した特徴が『結局、何を表しているのか』を学習させるためには、多くの場合でアノテーションが必要になります。ディープラーニング以前の手法、すなわち、通常の機械学習では、人間が『エッジ（輪郭）に注目せよ』、『色の彩度を計算せよ』と数式で特徴を定義していました。ディープラーニングは、この注目すべきポイントを自ら発見することができます。しかし、AIが『尖った耳』や『ひげ』という特徴を自力で見つけたとしても、それが『猫』という概念に結びつくかどうかは、人間が『これは猫だよ』と教えて（アノテーション／正解ラベルの付与）初めて成立するからです。アノテーションの手間を減らすために注目されている『自己教師あり学習（Self-Supervised Learning）』が、近年のAI （特にChatGPTなどの大規模言語モデル）の飛躍的な進化を支えています。詳細は、下記を参考にしてください。【参考】生成AIの進化を支える「自己教師あり学習」：基礎から応用例まで https://zenn.dev/mkj/articles/3f1a948f0d326f データサイエンスチュートリアル 19

https://zenn.dev/mkj/articles/3f1a948f0d326f

20.

データサイエンスのステップ ④ 知恵(1) 父親母親祖父祖母子データサイエンスチュートリアル 20