#74 ディープラーニングとは

-- Views

May 13, 26

スライド概要

『5th STEP ディープラーニング』、はじまります!

最初のSectionは、『#74 ディープラーニングとは』

本スライドは、データサイエンスの次のステップとしてディープラーニングを位置付け、ニューラルネットワークの原理やヒューブ則に基づく記憶モデル、パーセプトロンから多層構造への発展、バックプロパゲーションによる学習手法を紹介します。また、従来の機械学習との違いとして特徴量設計の自動化や非構造化データへの高い性能を説明し、Googleの実例や日本人研究者の貢献を交えて具体例を示します。さらに、データに意味付けを行うアノテーションの役割と医療画像・NLP・自動運転などの活用例も取り上げ、ディープラーニングを実践的に理解できるようにまとめています。

profile-image

すべてのビジネスパーソンが意思決定プロセスにデータを活用する思考を身につけるため、まずは、データサイエンスの分析を体験していきましょう。SECIモデルの最初の段階、共同化(Socialization)からはじめていきます。 下記のブログで、ここにアップしたスライド、動画を随時、公開中です。 【ブログ】https://tutorial4datascience.blogspot.com/ 【Youtubeチャンネル】https://www.youtube.com/@DataScience_for_everyone 【Kindle】そして、このブログをまとめて書籍にしました!   https://amzn.to/4ryVppn   https://amzn.to/4pGgFb1

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

(ダウンロード不可)

関連スライド

各ページのテキスト
1.

データサイエンス チュートリアル 5th STEP ディープラーニング deep learning

2.

データサイエンス チュートリアル 次のステップは、ディープラーニングです。 1st STEP ビッグデータの読み 込みとデータの確認 2nd STEP 集計とグラフ描画 3rd STEP 応用編 医療 4th STEP 機械学習 データサイエンス チュートリアル 2

3.

5th STEP ディープラーニング Section 1 ディープラーニングとは? データサイエンス チュートリアル 3

4.

ディープラーニングのポジション 人間の脳の神経回路を模した「ニューラルネットワーク」を多層(ディープ)に重ね、AI が大量のデータから特徴やパターンを自動で学習する機械学習手法 AI 機械学習 ルールベース (エキスパートシステム) 遺伝的アルゴリズム 教師あり学習 教師なし学習 強化学習 ディープラーニング データサイエンス チュートリアル (deep learning) 4

5.

ディープラーニングの原理 データサイエンス チュートリアル 5

6.

記憶とは? ドナルド・ヘッブ(1949年) ヘブ則/ニューロン1の発火がニューロン2を発火させると2つのニューロンの結合が強まる。これ が脳の中で起こっている記憶の基礎現象であり、ニューロン同士の結合が強まるということは記憶したということ。 出典 https://www.wakodo.co.jp/product/special/babyfood/babyfood/global/advice/article01.html データサイエンス チュートリアル 6

7.

コンピュータ上における神経細胞のモデル化 形式ニューロン パーセプトロン 1943年 ウォーレン・マカロック、 ウォルター・ピッツ 1958年 フランク・ローゼンブラット ●人間のニューロン(神経)の 活動を模倣したモデル ●形式ニューロンを組み合わせた モデル データサイエンス チュートリアル ニューラルネットワーク ●多層パーセプトロンと比べて 学習機能あり 7

8.

ディープラーニング ●多数の層からなるニューラルネットワークの学習のことを、ディープラーニング(深層学習)とよび、ジェフェリー・ヒントン (後にGoogle所属)が概念を提唱、開発。 ●ヒトの知能に部分的に迫る(あるいは凌駕する)高い性能をしばしば発揮。 データサイエンス チュートリアル 8

9.

バックプロパゲーション/ディープラーニングの学習方法 ニューラルネットワークでは、入力に対して重み付けやバイアスをかけ出力をしますが、その結果に対して、ニューロンの重み付け やバイアスを調整していくのが、バックプロパゲーション(Backpropagation/誤差逆伝播法)。予測の誤差を、出力側か ら入力側へと「逆方向」に伝えていき、各層のパラメーター(重み)をどれくらい修正すべきかを計算する機能です。 データサイエンス チュートリアル 9

10.

【参考】 ディープラーニングを支えた日本人 福島 邦彦 甘利 俊一 1967年 確率的勾配降下法 1980年 ネオコグニトロン ジェフェリー・ヒントン デビッド・ラメルハートら ジェフェリー・ヒントン 2012年 CNN 1986年 バックプロパゲーション 画像認識のデファクト ディープラーニングの 主な学習手法 データサイエンス チュートリアル 10

11.

ディープラーニングの特徴 データサイエンス チュートリアル 11

12.

特徴量(1) では、従来の機械学習とディープラーニングは、どのような違いがあるのでしょうか? それを解説する前に、特徴量という概念を理解しておきましょう。そもそも、機械学習とは、大量な学習データをもとに法則やパ ターンを見出すことです。『法則やパターン』を大量のデータから見つけ出す際に、データのどのような特徴に着目すべきかを表す 変数が『特徴量』です。 一言で表すと、分析対象データの中の、予測の手掛かりとなる変数のことです。 #57に出てきた『insurance』というデータを思い出 してください。 ■説明変数:何かの原因となっている変数 ■目的変数:その原因を受けて発生した結果と なっている変数 このようなデータでは、説明変数の1つの「列」が1つ の特徴量と言い換えることができます。 データサイエンス チュートリアル 12

13.

特徴量(2) ビッグデータが蓄積されはじめると、行・列を持ち表形式に整形されている構造化データばかりではなく、画像・映像・音声・テ キストなどの『非構造化データ』が集積されるようになってきました。 例えば、デジタル画像を構成する最小の単位はピクセル(Pixel/画素)ですが、これらは人の判断で特徴量を選択するこ とが困難です。 構造化データ 非構造化データ 行・列を持ち、表形式に整形されている構造化データ 列単位で特徴量を選択 画像・映像・音声・テキストなどの非構造化データ 人の判断で特徴量選択が困難 データサイエンス チュートリアル 個々のピクセルの色は、単色 13

14.

Googleの猫 そこで、開発された手法が、特徴量をAI自身が導き出すディープラーニングです。ノーベル物理学賞を受賞したジェフリー・ヒ ントンが開発したディープラーニングを飛躍的に発展させ、実用化した立役者がGoogleです。下記の例は、『Googleの猫』 としてよく知られています。 従来は、AIに猫のラベル(答え)をつけた大量の画像と、「目」 「口」「大きさ」などの目の付けどころ(特徴量)を与えていました。 AIは与えられたものから猫のそれぞれの特徴を学習し、モデル(法 則)を作り、見分けることができるようになります。 ディープラーニングは、AIにデータのみを与え、特徴量はAI自身が 導き出します。得られた結果を新たな特徴量としてさらにモデル(法 則)を作り出します。データにラベルが必要ないため、データにラベル 付けする手間がありません。 出典 https://ics.media/entry/17792/ データサイエンス チュートリアル 14

15.

ルールベースAI、機械学習、ディープラーニング ルールベースAIや一般的な機械学習、ディープラーニングの違いを『特徴量設計』と『ルール生成』の観点からまとめると下記 のようになります。 特徴量設計 ルール生成 特徴量設計 ルール生成 特徴量設計 ルール生成 人間 人間 人間 自動 自動 自動 データサイエンス チュートリアル 15

16.

【参考】 ディープラーニングと従来の機械学習との違い ディープラーニングが威力を発揮するのは非構造化データ(画像、言語、音声など)を扱う際であり、非構造化データの特 徴を抽出するのに有用な手法となります。 構造化データ(表形式)でもディープラーニングは実施可能ですが、従来の機械学習となる勾配ブースティング決定木 (GBDT)などを使用した方が容易にモデルを作成でき、学習時間も短いので、コストは安価になります。 ディープラーニング 一般的な機械学習 特徵 ・非構造化データに高い性能を発揮 ・コストは高い ・構造化データに対して高い性能を発揮 ・ディープラーニングに対して低コスト 得意なデータタイプ 画像、動画、波形、テキスト、 化学分子 テーブル、時系列 特徴量エンジニアリング ほぼ不要 ・線形、 非線形相関などあらゆる特徴量抽出 ・ドメイン知識が求められる ハイパーパラメータチューニング 複雑 簡単 学習時間 長い(数時間~数日以上) 数分~数時間 ハードウェア GPU/TPU CPU/GPU 使用されるライブラリ Keras, Pytorch, Tensorflow LightGBM, XGBoost, CatBoost等 【出典】 ディープラーニングの得意領域 https://www.canon-its.co.jp/column/ai-column/01 データサイエンス チュートリアル 16

17.

【参考】 アノテーション アノテーション アノテーション アノテーション(annotation)は「注釈」「付記」を意味する言葉で、 データサイエンスではデータに意味を付与し、機械学習(ディープラー ニングを含む)に利用できる形に加工・整理する作業を指します。 アノテーションの役割 ●教師データを作成し、AIに正しい出力パターンを学習させる ●膨大なデータを分類・整理し、効率的な学習・管理を可能にする データサイエンス チュートリアル 17

18.

【参考】 アノテーションの実例 実 例 ■ 医療画像 画像の中にある病変部位や体組織に印をつける作業となります。バウンディングボックスと呼ばれる四角形でオブ ジェクトを囲む場合や、セグメンテーションと呼ばれる、オブジェクトの輪郭をなぞるアノテーションが一般的な方法です。 ■ 自然言語処理(NLP) 単語一つ一つに具体的な意味を割り当て、単語間の関係を識別する『セマンティックアノテーション』、人名や地名、 企業名などにカテゴライズする『エンティティアノテーション』、テキスト内に含まれる感情をラベル付けする『センチメン トアノテーション』等がよく用いられます。 ■ 自動運転 車両に搭載されたカメラ、LiDAR(レーザー光を使ったリモートセンシング技術)、レーダーなどが捉えた周囲の データ(画像や3D点群)に対して、「これは歩行者」、「これは標識」といった意味付け(ラベル付け)を行い、 AIが走行環境を正しく認識するための教師データを作るアノテーションが行われています。 データサイエンス チュートリアル 18

19.

【参考】 アノテーションと特徴量の自動化 ディープラーニングの最大の特徴は、データの中から『何が重要な特徴か』を人間が指示しなくても自力で見つけ出す『特徴量 の自動化』にあります。しかし、その抽出した特徴が『結局、何を表しているのか』を学習させるためには、多くの場合でアノテー ションが必要になります。 ディープラーニング以前の手法、すなわち、通常の機械学習では、人間が『エッジ(輪郭)に注目せよ』、『色の彩度を計算せ よ』と数式で特徴を定義していました。ディープラーニングは、この注目すべきポイントを自ら発見することができます。 しかし、AIが『尖った耳』や『ひげ』という特徴を自力で見つけたとしても、それが『猫』という概念に結びつくかどうかは、人間が『こ れは猫だよ』と教えて(アノテーション/正解ラベルの付与)初めて成立するからです。 アノテーションの手間を減らすために注目されている『自己教師あり学習(Self-Supervised Learning)』が、近年のAI (特にChatGPTなどの大規模言語モデル)の飛躍的な進化を支えています。詳細は、下記を参考にしてください。 【参考】 生成AIの進化を支える「自己教師あり学習」:基礎から応用例まで https://zenn.dev/mkj/articles/3f1a948f0d326f データサイエンス チュートリアル 19

20.

データサイエンスのステップ ④ 知恵(1) 父親 母親 祖父 祖母 子 データサイエンス チュートリアル 20