ae-13. 画像理解システムの演習

1.4K Views

January 29, 23

#画像理解システム #画像理解の応用例 #セグメンテーションの種類 #事前学習済みモデル #パノプティック・セグメンテーション #セマンティック・セグメンテーション #インスタンス・セグメンテーション #ディープラーニング #人工知能 #金子邦彦研究室 #画像理解 #Python #物体検出 #セグメンテーション

スライド概要

トピックス：画像理解システム, 画像理解の応用例, セグメンテーションの種類, 事前学習済みモデル, パノプティック・セグメンテーション, セマンティック・セグメンテーション, インスタンス・セグメンテーション, ディープラーニング, 人工知能

ディープラーニング（スライドとプログラム例，Python を使用）（全１５回）
https://www.kkaneko.jp/ai/ae/index.html

金子邦彦研究室ホームページ
https://www.kkaneko.jp/index.html

kunihikokaneko

@6674398749

スライド一覧

金子邦彦（かねこくにひこ）福山大学・工学部・教授ホームページ: https://www.kkaneko.jp/index.html 金子邦彦 YouTube チャンネル: https://youtube.com/user/kunihikokaneko

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

dn-5. 顔検出，顔認識（Dlib, InsightFace を使用）

kunihikokaneko 15.8K

bt-7. Blender 3.0 の液体のアニメーション

blender 流体アニメーションドメインフローエフェクター液体ジオメトリ流入口ベイク

kunihikokaneko 5.9K

ae-9. 姿勢推定

姿勢推定人体の姿勢推定頭部の姿勢推定オブジェクトの姿勢推定ディープラーニング人工知能金子邦彦研究室

kunihikokaneko 5.7K

NVIDIA ドライバ, CUDA 11.6, cuDNN 8.4 のインストール (Windows 上) (2022年4月の最新版)

プログラミング nvidia cuda nvidia cudnn nvidia ドライバインストール windows

kunihikokaneko 5.1K

1. データベースとは，データベースシステムとは，情報とデータ

データベースデータベースシステム情報とデータデータの種類オープンデータ情報化社会

kunihikokaneko 3.9K

ae-2. 機械学習の基礎（教師なし学習，教師あり学習）

機械学習機械学習の仕組み学習検証 iris データセット教師有り学習教師無し学習予測クラスタリング分離ディープラーニング人工知能金子邦彦研究室

kunihikokaneko 3.6K

各ページのテキスト

13. 画像理解システムの演習（ディープラーニング，Python を使用）（全１５回） https://www.kkaneko.jp/cc/ae/index.html 金子邦彦 1

https://www.kkaneko.jp/cc/ae/index.html

アウトライン番号 13-1 13-2 項目復習画像理解の応用例演習各自、資料を読み返したり、課題に取り組んだりも行う 2

コンピュータによる画像理解 • コンピュータが画像を理解する画像が何であるか，物体がどこに，どういう大きさ，形で，いくつあるか，をコンピュータが説明できる能力を持つ 3

① 画像分類画像分類の結果は，ラベルと確率 ※ ５つの候補 (top 5) が表示されている 4

② 物体検出 car person bicycle バウンディングボックス，ラベルを得るバウンディングボックスは，物体を囲む最小のボックス（四角形） 5

③ セグメンテーション物体の形を画素単位で抜き出しラベルを得ることもできる 6

画像理解の主な種類 ① 画像分類「何があるか」を理解 person bicycle person ② 物体検出場所と大きさも理解 ③ セグメンテーション画素単位で領域を理解 bicycle 7

セグメンテーションを試すことができるオンラインのサイト • OneFormer のデモサイト • URL: https://huggingface.co/spaces/shilabs/OneFormer • セグメンテーションの種類：パノプティック，インスタンス，セマンティック • データセット：COCO（133 クラス），Cityscapes（19 クラス），ADE20K （150クラス）文献: Jitesh Jain, Jiachen Li, MangTik Chiu, Ali Hassani, Nikita Orlov, Humphrey Shi, OneFormer: One Transformer to Rule Universal Image Segmentation, arXiv:2211.06220, 2022. 8

https://huggingface.co/spaces/shi-

訓練データにより結果が変わってくる元画像 • • • • 訓練データは COCO 訓練データは Cityscapes 訓練データは ADE20K OneFormer のデモサイトを使用 URL: https://huggingface.co/spaces/shi-labs/OneFormer パノプティック・セグメンテーションを実行バックボーンは DiNAT-L を使用 9

https://huggingface.co/spaces/shi-labs/OneFormer

10.

ADE20K • アノテーション済みの画像データ • オブジェクト(car や person など) も，背景領域も (grass, sky など) ，画素単位でアノテーションされている • 画像数： 30,574 • クラス数: 3,688 ADE20K データセットの URL: http://groups.csail.mit.edu/vision/datasets/ADE20K/ 文献: Bolei Zhou, Hang Zhao, Xavier Puig, Sanja Fidler, Adela Barriuso, Antonio Torralba, Scene Parsing Through ADE20K Dataset, CVPR 2017, also CoRR, abs/1608.05442, 2017. 10

http://groups.csail.mit.edu/vision/datasets/ADE20K/

11.

CityScapes • アノテーション済みの画像データ • 50都市の数ヶ月間（春，夏，秋）の日中，良好な/ 中程度の天候のもとで撮影，計測 • 画像数： 24,998 • クラス数: 30 road, sidewalk, parking, rail track, person, rider, car, truck, bus, on rails, motorcycle, bicycle, caravan, trailer, building, wall, fence, guard rail, bridge, tunnel, pole, pole group, traffic sign, traffic light, vegetation, terrain, sky, ground, dynamic, static CityScapes データセットの URL: https://www.cityscapes-dataset.com/ 文献: Marius Cordts, Mohamed Omran, Sebastian Ramos, Timo Rehfeld, Markus Enzweiler, Rodrigo Benenson, Uwe Frank\ e, Stefan Roth, Bernt Schiele， The Cityscapes Dataset for Semantic Urban Scene Understanding, CVPR 2016, also CoRR, abs/1604.01685, 2016. 11

https://www.cityscapes-dataset.com/

12.

COCO • 画像データ，人体のランドマーク，人体姿勢のデータ • ラベル付け済みの画像数： 200,000以上 • オブジェクトのクラス数: 80 • ランドマーク：左目、鼻、右腰、右足首などの 17 のキーポイント COCO データセットのURL: https://cocodataset.org/ 文献: Tsung-Yi Lin, Michael Maire, Serge Belongie, Lubomir Bourdev, Ross Girshick, James Hays, Pietro Perona, Deva Ramanan, C. Lawrence Zitnick, Piotr Dollr, Microsoft COCO: Common Objects in Context, CoRR, abs/1405.0312, 2014. 12

13.

13-1. 画像理解の応用例 13

14.

① 画像内の差異の抽出（傷，汚れ，病変など）脳内の病変の抽出 Efficient Multi-Scale 3D CNN with Fully Connected CRF for Accurate Brain Lesion Segmentation, Konstantinos Kamnitsas, Christian Ledig, Virginia F.J. Newcombe, Joanna P. Simpson, Andrew D. Kane, David K. Menon, Daniel Rueckert, Ben Glocker, arXiv: 1603.05959, 2016. 14

15.

他にも・・・ ② 計測（寸法，面積，角度など） ③ 数の数え上げ ④ 異物の発見 ⑤ 動画での利用（動きの把握，監視，変化の発見） 15

16.

13-2. 画像理解システムの構築 16

17.

① 前準備・既存の技術の利用・評価・学習済みモデルの利用・評価 ② 応用・展開・①で「どこまで役に立つか（性能，機能）」を考察，十分に検証・不足があれば改良・既存の記述の適切な利用（利用条件，著作権等）の再確認 17

18.

演習 ① 目的画像理解システムの「前準備」の部分．・既存の技術の利用・学習済みモデルの利用について，実際に各自で体験すること．画像理解システムの構築について理解を深め，スキルを高めること 18

19.

② 注意点 1. どのような用途で役立てるかは，各自で，自由に想像すること 2. 画像は各自で準備すること 3. 必ずしも完璧な精度で結果が得られるわけではない．誤りや誤差を含むものである． 4. 得られた結果で何に役に立つかの考察も大切である． 19

20.

③実験の基礎セグメンテーションの種類：パノプティック (panoptic) セマンティック (semantic) インスタンス (instance) 学習済みモデルのバリエーション： COCO, Cityscapes, ADK20K など 20

21.

④ 手順（１）次のページで公開されているページを利用 • OneFormer のデモサイト • URL: https://huggingface.co/spaces/shilabs/OneFormer （２）画像は各自で準備（３）このサイトで， panoptic, instance, semantic（3通り） COCO, Cityscapes, ADK20K（3通り）の組み合わせ計9通りを試す（４）Backbone のところは「DiNAT-L」で実施 21

https://huggingface.co/spaces/shi-

22.

⑤各自で考察して欲しいこと • panoptic, instance, semantic（3通り）での違い • COCO, Cityscapes, ADK20K（3通り）での違い • 実行は簡単だったか，難しかったか • 「どのような用途で役立てるか」を想像してください．役に立ちそうですか？ AIを全く使わずに，人間による作業だけで行った場合と比べて，良いところはありそうですか？ 22