エッジデバイスによる動画像AI推論

13.3K Views

July 22, 22

#エッジデバイス #tensorflow lite #deeplearning #エッジAI #モデル量子化 #TensorFlow Lite #OpenVINO #Raspberry Pi

スライド概要

FutureCon2022で発表した内容になります。

y.kishishita

@bigface0202

スライド一覧

標準よりも顔の大きさが大きい方だと思います。電子工作やIoTが好きです。今はITコンサル会社でGCPの支援活動をやっています。

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

猫でも分かるUnreal Engineの学び方 - 超初心者向け編 - 2023 v1.0

ue4 ue5 ue-beginner

エピックゲームズジャパン 1.7M

Unreal Engine5 Lumenの仕組みと肝心なところ

ue5 ue-rendering ue-lumen

エピックゲームズジャパン 1.4M

UE5レンダリングフロー総おさらい(2024) 基礎編！[CEDEC+KYUSHU 2024]

ue5 unreal engine ue-rendering

エピックゲームズジャパン 1.2M

Meta XR SDK(V66-74)でQuestアプリを開発

spatial anchor unity quest pro shaperecognizeractivatestate oculus integration transformfeaturestateprovider building blocks transformrecognizeractivestate ovrsemanticclassification jointdeltaprovider ovrscenemanager jointvelocityactivestate オクルージョン sequenceactivestate scene manager ambisonic depth api metaxraudiosource playerlocomotor meta xr sdk quest3 ovrplayercontroller マルチモーダル meta haptics studio direct touch ui meta xr haptics sdk ovrspatialanchor ovrtrackedkeyboard hapticclipplayer fingerfeaturestateprovider hapticclip ワイドモーションモード wmm mruk mr utility kit voice sdk jointrotationactivestate meta horizon os ui set asw application spacewarp ovr metrics tool unityscene manager colocation discovery コロケーション mx ink passthrough camera api hand tracking microgestures webcamtexturemanager passthroughcamerautils cameraviewermanager hand pose selector recorder

あうぜん 1.2M

猫でも分かる UE5.0, 5.1 におけるアニメーションの新機能について【CEDEC+KYUSHU 2022】

ue5 cedec+kyushu ue-animation ue-optimize ue-bp ue-physics ue-sequencer

エピックゲームズジャパン 1M

最新の6.0で学ぶ！初めてのひとのためのSpring Security

java spring security

tada 1M

各ページのテキスト

自己紹介名前キャリア岸下優介（きししたゆうすけ）広島大学大学院博士課程 AIベンチャー企業 Future （2017.4 – 2020.3) （2020.4 – 2022.1) （2022.2 –) ⚫ ⚫ 人間工学（筋肉・触覚） HCI・人間拡張 ⚫ ⚫ ⚫ 趣味位置推定アプリ監視カメラ警備ロボット ⚫ ⚫ Google Cloud インフラ周り #筋肉 #自動車 #電子工作好きなトレーニングベンチプレス嫌いなトレーニングスクワット BIG3 出身福井県岸下 BP:130kg, SQ: 145kg, DL: 170kg Copyright © 2022 by Future Architect, Inc. NPCJ西日本大会フィジーク部門にて千葉県鋸山にて

エッジデバイスエッジデバイスとは ● システムのEdge（末端）に存在するデバイスを指す ● 各種情報を収集するセンサなどの制御部分（マイコン）となるエッジデバイスの役割 ● センサでデータを集約し、クラウドやオンプレのサーバーへデータを飛ばす ○ リアルタイムの情報 ● センサのデータから二次データに変換 ○ CPUを搭載しているので、簡単な前処理等が可能 ● 大量に設置する場合が多く、基本的に安価なものが好まれる ○ 安価なマイコンの数々（Raspberry Pi, Arduino, ESP32, ...etc.） ○ GPUを搭載したものもある（NVIDIA Jetson） Copyright © 2022 by Future Architect, Inc.

エッジデバイスエッジデバイスにおけるDeepLearning技術の活用 ● 活用例：くら寿司（皿の数をカウントするのにGoogleのEdge TPUを活用）エッジデバイスでのAI推論の特徴 ● 安価 ○ 推論するためのクラウドなどといったサーバーを用意する必要がない ● リアルタイムで処理が可能 ○ その場で処理ができる（例：進入禁止エリアにおける人検知→アラート） ● 設置が容易 ○ 小型で電力消費量も少なく、持ち運びも可能 ● 計算リソースが限られる（主にCPUでの推論となる） ○ 主にCPUでの推論となる（通常はGPUを利用するケースが多い） Copyright © 2022 by Future Architect, Inc.

https://cloud.google.com/blog/ja/topics/customers/kurasushi-gke-edge-tpu/

とりあえず推論してみよう今日の話で使う環境 ❏ ハードウェア ❏ Raspberry Pi 4 Model B ❏ CPU：quad-core Cortex-A72 (ARM v8) 64-bit SoC ❏ CPUクロック数：1.5GHz ❏ メモリ：8GB ❏ GPU：無し ❏ ソフトウェア ❏ Python ❏ 3.6/3.7 ❏ ライブラリ ❏ TensorFlow ❏ PyTorch ❏ 検証に使うリポジトリ ❏ GitHub - Hzzone / pytorch-openpose ❏ （OpenPoseによる姿勢推定） Copyright © 2022 by Future Architect, Inc. Raspberry Pi 4 Model B

https://github.com/Hzzone/pytorch-openpose

エッジデバイスでのAI推論解決策 1. モデルの量子化 ○ 計算量を減らして、推論を高速化させる ■ モデルのコンバートが必要 ■ 精度は劣化してしまう（精度と速度のトレードオフ） 2. マシンパワーの底上げ ○ 計算リソースを別で用意する ■ NEURAL COMPUTE STICK2（Intel Movidius Myriad X VPU） ● 2022/06/30で販売終了😢 ● 2023/06/30で技術サポートが終了😢 ■ Google Edge TPU ● Coral USB Accelerator Neural Compute Stick2 (Intel) 3. ネットワークアーキテクチャを変更する ○ MobileNetなどを使う今日は主にこの話をやります Copyright © 2022 by Future Architect, Inc. Coral USB Accelerator (Google)

https://cloud.google.com/edge-tpu?hl=ja

10.

11.

推論処理における基本 ● 前処理（2値化したり、サイズ変更したり）モデルの中身はネットワーク構造になっている ○ いわゆる、ニューラルネットワーク ■ 人間の脳を模倣 ○ 画像の色や配置のパターンから物体を認識している ←高度に抽象化されたロゴがどこの会社かわかるのも、色や配置から画像を識別しているからと考えられている ● モデルの中では本来は単精度浮動小数点で計算が行われている ○ 単精度：32ビット（float型として扱われている） ● 量子化：半精度（16ビット）や整数型（8ビット）変換 ○ 計算量の減少→推論処理時間が短縮学習済みAIモデル秋田犬 Copyright © 2022 by Future Architect, Inc.

12.

推論処理における基本 [1] TensorFlow - 最適化の種類量子化の特徴 ● 一種の最適化 ○ ● リソースの限られている環境で計算できるようにする ■ 計算量を落とすことで推論にかかる時間を減少させる ■ 精度と速度はトレードオフモデルのサイズを縮小 ○ ○ ストレージ、メモリを圧迫しなくなるユーザーのデバイスにモデルをダウンロードする際も必要な時間と帯域が少なくなる Copyright © 2022 by Future Architect, Inc. 量子化にも色んな種類がある[1]

https://tensorflow.google.cn/lite/performance/model_optimization?hl=ja#最適化の種類

13.

モデルの量子化どうやって量子化するの？ ● 既存フレームワークのツールを利用する ○ ○ ○ TensorFlow Lite（以降、TFLite） PyTorch … どうやってTFLiteで量子化するの？ ● TensorFlowのモデルコンバートを利用 1. 既にTensorflowを使って学習させたモデルをTensorflowのコンバーターで量子化し、TFLite のモデルに変換 2. 他のフレームワーク（Keras、PyTorch、ONNX、OpenVINOなど）で作られたモデルをコンバートして、最終的にTensorflowのコンバーターで量子化し、TFLiteのモデルに変換 Copyright © 2022 by Future Architect, Inc.

14.

モデルの量子化手順モデルのコンバート（他フレームワークからのコンバート） PyTorchからTFLiteへコンバートする例： ● PyTorch→ONNX ○ PyTorchを利用する ● ONNX→OpenVINO ○ OpenVINOを利用する ● OpenVINO→TensorFlow、TFLite（半精度量子化まで） ○ openvino2tensorflowを利用する[3] ● TensorFlow→TFLite（整数型量子化） ○ TensorFlowを利用する Copyright © 2022 by Future Architect, Inc. [3] GitHub - openvino2tensorflow

https://github.com/PINTO0309/openvino2tensorflow

15.

モデルの量子化手順 PyTorch→ONNX PyTorchにONNXへコンバートするライブラリが存在する ● ○ torch.onnx.exportを使うモデルのコンバート例 ● ● ● ● ● 第1変数：コンバートする.pthモデル第2変数：モデルへの入力データ（入力サイズさえ合ってれば、値はランダムで良い）第3変数：変換中の出力を表示するかどうか第4変数：入力の名前（ONNXモデルでは入力の名前が必要）第5変数：出力の名前（ONNXモデルでは出力の名前が必要）出力が2つなので、2つ分の名前を指定している Copyright © 2022 by Future Architect, Inc. ※他にも変数はあるので、リファレンスを参照して下さい

https://pytorch.org/docs/stable/onnx.html

16.

モデルの量子化手順 ONNX→OpenVINO OpenVINOをインストールするとモデル最適化用のコードが同梱されている ● ○ ○ OpenVINOをインストールする必要がある /<インストール先>/intel/openvino_2021/deployment_tools/model_optimizser/mo.py モデルのコンバート例 ● ● ● input_model：コンバートするonnxモデル ○ Caffe, TensorFlow, MXNet, ONNX, Kaldiモデルに対応している output：出力名。ONNXコンバート時に指定したものと同じでよい output_dir：出力先のディレクトリ ※他にも変数はあるので、リファレンスを参照して下さい Copyright © 2022 by Future Architect, Inc. ※対応しているレイヤーは変換できるが、対応していない場合変換に失敗することもある

17.

18.

https://netron.app/

19.

モデルの量子化手順 OpenVINO→TensorFlow, TensorFlow Lite (float32, float16) openvino2tensorflowを使って変換する ● ○ ○ ○ オープンソースのモデルコンバートツール OpenVINOのIRモデルからTensorFlow, TensorFlow Liteへ一気に変換できる pipからインストールできる（実行はDocker環境が推奨）モデルのコンバート例 ● ● model_path：コンバートするOpenVINOのIRモデル（xmlファイルの方）残りの引数：出力するモデルファイルの種類 ○ saved_model, pb: TensorFlowのモデル ○ ~_quant_tflite: TensorFlow Liteの量子化されたモデル ○ ~_no_quant_~_tflite: TensorFlow Liteの量子化されていないモデル Copyright © 2022 by Future Architect, Inc. ※他にも変数はあるので、GitHubを参照して下さい

https://github.com/PINTO0309/openvino2tensorflow

20.

モデルの量子化手順 TensorFlow→TensorFlow Lite（int8量子化）[4] ● TensorFlowに同梱されているコンバーターを使って変換する ○ int8量子化（8ビット固定小数点）だけ量子化プロセスが異なる ○ float32、float16もTensorFlowのライブラリで量子化可能モデルのダイナミックレンジキャリブレーションが必要 ⚫ 代表的な画像データセットが必要 TensorFlowモデルキャリブレーション＆コンバート（学習に使ったデータセットでもOK） ⚫ 最大値・最小値の調整 Copyright © 2022 by Future Architect, Inc. TFLiteモデル (int8量子化) 代表的な画像群（学習に使ったデータなど） [4] TensorFlow - トレーニング後の量子化

https://www.tensorflow.org/lite/performance/post_training_integer_quant

21.

22.

23.

24.

量子化モデルによる推論 [5] GitHub - Kazuhito00/YOLOX-ONNX-TFLite-Sample [6] GitHub - YOLOX 他の推論モデル ❏ 物体検出モデル [5] ● モデル：YOLOX-nano [6] ● 量子化：float16 ● モデルサイズ：1.9MB 軽量なモデルを更に量子化しているため、約400ms/frameで推論できている Copyright © 2022 by Future Architect, Inc.

25.

量子化のまとめ ● モデルの量子化を行うことでエッジデバイスでも高速推論が可能となる ○ 精度をある程度保ちながら計算量を抑えることでモデルのサイズを縮小 ○ 但し、精度と速度はトレードオフなのでGPU搭載マシン上での動作精度・速度の実現は難しい ● 量子化にはfloat16, int8などが存在する ○ 目的に合わせて使い分ける ○ 精度と速度の落とし所が大切 ● 量子化には主にモデルコンバートを用いる ○ 既に学習済みのモデルへ適用可能 ○ 異なるフレームワークのモデル間で互換性がある ○ 対応していないレイヤー（計算手法）もあるので、全てのモデルがコンバート可能ではない Copyright © 2022 by Future Architect, Inc.

26.

マシンパワーの底上げ [7] EOL - Movidius Neural Compute Stick 2 (Intel Communities) [8] OAK-D OpenCV DepthAIカメラ (PoE版)（SWITCHSCIENCE) [9] GitHub - geaxgx/depthai_blazepose Neural Compute Stick2 USBスティック型のDeepLearning用デバイス ● CPUやクラウドに頼らずDeepLearning/MachineLearningができる ● ただ、既にEOL決まってるのでこの話はおまけ的な感じで😅 ● ○ 後継はM.2のカードタイプになるそう [7] ● Neural Compute Stick2を組み込んだOAK-D OpenCV DepthAIカメラもある ○ ○ しかもカメラはステレオなので、深度情報も得ることができる PoE版もあり、用途にあわせやすい [8] Neural Compute Stick2 Copyright © 2022 by Future Architect, Inc. OAK-D OpenCV DepthAIカメラ OAK-D OpenCV DepthAIカメラを用いた姿勢推定デモ [9]

27.

[10] How it Works - Intel® Distribution of OpenVINO™ Toolkit マシンパワーの底上げ Neural Compute Stick2での推論 ● OpenVINO*というフレームワークを使う必要がある ○ ○ Intelが提供するDeepLearningフレームワーク Intel製のチップで高速に計算できるよう特化されているまた新しいフレームワークかよ… DeepLearning フレームワーク大杉ワロタ基本的にはIntel公式が提供する OpenVINOへのコンバート [10] モデルコンバートツール**を使うだけでOK *OpenVINOはまだ現役（EOLは決まっていない） Copyright © 2022 by Future Architect, Inc. **全計算レイヤいけるわけではないので、コンバート出来ない時もある

https://www.intel.com/content/www/us/en/developer/tools/openvino-toolkit/overview.html

28.

マシンパワーの底上げ [10] How it Works - Intel® Distribution of OpenVINO™ Toolkit Neural Compute Stick2での推論 [12] Grouped Convolution Fusing - Intel ● [11] Model Optimization Techniques - Intel OpenVINO*というフレームワークを使う必要がある ○ ○ Intelが提供するDeepLearningフレームワーク Intel製のチップで高速に計算できるよう特化されているまた新しいフレームワークかよ… DeepLearning フレームワーク大杉ワロタ OpenVINOによるモデルコンバート ● モデルの最適化 ○ ○ 不要なオペレーションの除去（Linear Operation Fusing [11]）複数のオペレーションの統合（Grouped Convolution Fusing [12]） ● 量子化 ○ モデル内部の数値表現をfloat32→float16/int8に変換しスリム化 Copyright © 2022 by Future Architect, Inc. OpenVINOへのコンバート [10]

29.

30.

31.

マシンパワー底上げまとめ ● OpenVINO自体でモデルの最適化ができる ○ 不要な計算の除去したり統合したりなど ● AI推論に最適化されたCPUチップを用いることで推論の高速化が可能 ○ エッジデバイスに対して計算リソースの増設が可能 ■ ○ 但しUSB接続なので、I/Oの部分でボトルネックになる可能性もハードウェアはEOL決まっている場合もあるので業務利用には気をつける… Copyright © 2022 by Future Architect, Inc.

32.

全体まとめ ● エッジ/モバイル向けにはモデルの量子化がオススメ ● デバイスに頼らない推論の高速化が可能 ● GPU買わなくてもAI楽しめるので皆さんRaspberry Pi買って遊びましょう ● ● モデルの量子化自体にもGPUは不必要お家監視カメラとか簡単に作れる ● AIを過信しない ○ 精度100％はほぼ不可能 ■ ミッションクリティカルな部分には極力利用しない ■ AIはシステム全体の中の一部分で、その精度に頼りすぎない Copyright © 2022 by Future Architect, Inc.

33.

エッジデバイスによる 動画像AI推論