Co-MLOps プラットフォームのクラウドアーキテクチャと大規模データマネジメント_アップ用

Co-MLOps プラットフォームのクラウドアーキテクチャと大規模データマネジメント株式会社ティアフォー東浩稔

Speaker 経歴：製造業大手証券会社系列の SIer ● 個人投資家向けトレードシステムの Webエンジニア、プロジェクトマネージャーヤフー株式会社（現 LINEヤフー株式会社） ● ● ● 東浩稔 (Hirotoshi Azuma) Co-MLOps クラウドエンジニア広告事業エンジニアリングマネージャー、データディレクターデータエンジニアリング、アーキテクチャの設計、データ基盤の企画等アマゾンウェブサービスジャパン合同会社 ● ● ビッグデータコンサルタントデータ活用構想策定、パフォーマンスチューニング、要員育成等株式会社カケハシ ● ● ● 医療系スタートアップデータプロダクトマネージャー、エンジニアリングマネージャーデータ利用規約の策定、プロダクトの企画、アーキテクチャの設計等 2024年8月ティアフォー Future Solutionチーム

3.

アジェンダ 01 / はじめに Co-MLOps の概要 Co-MLOps プラットフォームのクラウドアーキテクチャと大規模マネージメント 02 / Co-MLOpsを支えるクラウドアーキテクチャ 03 / スケーラビリティと効率化の取り組み 04 / VLMを活用した事例 05 / まとめ 3

4.

はじめに Co-MLOpsの概要 01

5.

Co-MLOpsが提供する3つの機能 ● Data Recording System（DRS） ○ Camera、LiDARを搭載したデータ収集システムを提供 ● データマネジメント・MLOps基盤 ○ クラウド上に蓄積された走行データを効率的に活用するためのプラットフォームを提供 ● リファレンスAIモデル ○ 自動運転開発向けのAIモデルをリファレンスとして提供

6.

Co-MLOpsが提供する3つの機能本発表の対象 ● Data Recording System（DRS） ○ Camera、LiDARを搭載したデータ収集システムを提供 ● データマネジメント・ MLOps基盤 ○ クラウド上に蓄積された走行データを効率的に活用するためのプラットフォームを提供 ● リファレンスAIモデル ○ 自動運転開発用のAIモデルをリファレンスとして提供

7.

データマネジメント・MLOps基盤で扱うデータの特徴自動運転 AI開発において、学習に使用するデータセットの品質と、その規模および多様性は重要 ● 高品質欠損、ノイズの少なさ、一貫性のある構造プライバシーに配慮された匿名化済みのデータセット ○ ○ ● 大規模数PB級のデータサイズ数十万枚のアノテーション済みのデータセット ○ ○ ● 多様 ○ 異なる地理条件、天候、時間帯、そして稀なケース（エッジケース）

8.

データマネジメント・MLOps基盤の概要データマネジメント・ MLOps基盤データ提供者データ利用者本発表の対象 Upload Center センサー付車両アップローダー Cloud データパイプラインデータセット検索サンプリング等 Co-MLOps 利用者 Annotation Partner オペレーター

9.

Co-MLOps Console機能のご紹介データマネジメント・ MLOps基盤データ提供者 Upload Center センサー付車両アップローダーデータ利用者 Cloud データパイプラインデータセット検索サンプリング等 Co-MLOps 利用者 Annotation Partner オペレーター

10.

Co-MLOps Console / データ検索画面走行シーンの特徴をもとに、キーワード検索やタグフィルターで効率的にデータを探索する

11.

Co-MLOps Console / データセット詳細画面検索画面でカードをクリックすると、データセットの詳細情報を確認できるデータセットのメタ情報 Camera映像やLiDAR点群の鳥瞰図映像などの再生シーンごとのタグシーンごとの説明文

12.

Co-MLOps Console / 可視化画面検索条件に応じて、データセットを視覚的に確認できる Day of the week、Time Recording Location Velocity Tags

13.

Co-MLOps Console / サンプリング画面絞り込んだデータセットから、効率的にデータを抽出するためのサンプリングを実施するサンプル数の指定サンプリング方法の指定

14.

Co-MLOpsを支えるクラウドアーキテクチャ 02

15.

【再掲】データマネジメント・MLOps基盤データマネジメント・ MLOps基盤データ提供者 Upload Center センサー付車両アップローダーデータ利用者 Cloud データパイプラインデータセット検索サンプリング等 Co-MLOps 利用者 Annotation Partner ドライバー

16.

論理アーキテクチャ Cloud Sampling Pre-process / Converter Sample Result アプリ Sampling Raw Validator Anonymizer File Merge Dataset CLI Video Generator 凡例 Video Generator Video ストア Dataset Search Analysis パイプライン Thumbnail Extractor バックエンド Statistics Extractor Scene Caption Generator Model Uncertainty Calculator Dataset Search Index Updater Asset Co-MLOps 利用者

17.

物理アーキテクチャ Cloud Pre-process / Converter アプリ Sampling CLI Raw Contents Sampling Validator Anonymizer Sample Result Sampling File Merge Dataset Meta Video Generator Co-MLOps 利用者 Video Generator Video Analysis Dataset Search Thumbnail Extractor Statistics Extractor Scene Caption Generator Model Uncertainty Calculator Index Updater Assets Dataset Search

18.

物理アーキテクチャ / データパイプライン Cloud Pre-process / Converter アプリ Sampling CLI Raw Contents Sampling Validator Anonymizer Sample Result Sampling File Merge Dataset Meta Video Generator Co-MLOps 利用者 Video Generator Video Analysis Dataset Search Thumbnail Extractor Statistics Extractor Scene Caption Generator Model Uncertainty Calculator Index Updater Assets Dataset Search

19.

データパイプライン / Pre-process、Converter Cloud Pre-process / Converter アプリ Sampling CLI Raw Contents Sampling Validator Anonymizer Sample Result Sampling File Merge Dataset Meta Video Generator Co-MLOps 利用者 Video Generator Video Analysis Dataset Search Thumbnail Extractor Statistics Extractor Scene Caption Generator Model Uncertainty Calculator Index Updater Assets Dataset Search

20.

Pre-Process / Converter アップロードされたデータセットの品質を確保するための検証、利用可能な形式への変換プロセス ● Validator ○ ○ アップロードされたデータを直ちに検証し、エラーや不備をチェックすることで、データセットの品質向上を図る検証の例（一部） ■ ■ ■ ■ ● Anonymizer ○ ● 想定しているセンサーがすべて揃っているか数値が想定された範囲に収まっているかセンサー信号が、想定したフレームレートで取得できているか CameraとLiDARの同期がとれているか個人が特定される可能性を排除し、プライバシーが保護された状態で安全にデータを利用できる環境を提供する File Merge ○ 複数のセンサーから出力されたデータを時間軸で揃え、一つのデータセットに統合する

21.

データパイプライン / Video Generator Cloud Pre-process / Converter アプリ Sampling CLI Raw Contents Sampling Validator Anonymizer Sample Result Sampling File Merge Dataset Meta Video Generator Co-MLOps 利用者 Video Generator Video Analysis Dataset Search Thumbnail Extractor Statistics Extractor Scene Caption Generator Model Uncertainty Calculator Index Updater Assets Dataset Search

22.

Video Generate データセットから複数の動画タイプを生成する ● 1つのデータセットを基に、以下の動画タイプを生成する ○ LiDAR点群なしの全周囲 ■ ○ LiDAR点群あり ■ ○ 周囲のカメラ映像に加えて、車載カメラ＋ LiDAR点群データを重ね合わせた映像 LiDAR点群の鳥瞰 ■ ○ 周囲の状況を視覚的に把握できる映像上空からの視点で点群データを俯瞰する映像アノテーション重畳 ■ カメラ映像にアノテーションを重ね合わせた映像

23.

データパイプライン / Analysis Cloud Pre-process / Converter アプリ Sampling CLI Raw Contents Sampling Validator Anonymizer Sample Result Sampling File Merge Dataset Meta Video Generator Co-MLOps 利用者 Video Generator Video Analysis Dataset Search Thumbnail Extractor Statistics Extractor Scene Caption Generator Model Uncertainty Calculator Index Updater Assets Dataset Search

24.

Analysis データセットを分析し、必要な統計量を抽出するとともに、シーンの特徴を生成する ● Thumbnail Generator ○ ● Statistics Extractor ○ ● データセットから位置情報、車両の速度（平均・最高・最低など）、データセットの開始・終了時刻を抽出し、データベースに登録する Scene Caption Generator ○ ● データセットからサムネイル用の画像を抽出するデータセット全体に対して、一定間隔で VLMを使用して、説明文の生成およびタグ付けを行う Model Uncertainty Calculator ○ データセットから Uncertainty Score（不確実性スコア） ※1 を計算する ※1 ：What Uncertainties Do We Need in Bayesian Deep Learning for Computer Vision?, Alex Kendall, NIPS17

25.

スケーラビリティと効率化の取り組み 03

26.

【再掲】論理アーキテクチャ Cloud Sampling Pre-process / Converter Sample Result アプリ Sampling Raw Validator Anonymizer File Merge Dataset CLI Video Generator 凡例 Video Generator Video ストア Dataset Search Analysis Dataset Search バッチ Thumbnail Extractor バックエンド Statistics Extractor Scene Caption Generator Model Uncertainty Calculator Index Updater Asset Co-MLOps 利用者

27.

【再掲】物理アーキテクチャ Cloud Pre-process / Converter アプリ Sampling CLI Raw Contents Sampling Validator Anonymizer Sample Result Sampling File Merge Dataset Meta Video Generator Co-MLOps 利用者 Video Generator Video Analysis Dataset Search Thumbnail Extractor Statistics Extractor Scene Caption Generator Model Uncertainty Calculator Index Updater Assets Dataset Search

28.

アーキテクチャの設計方針以下の3つの方針を基に設計を行っている ● 運用効率 ○ ○ ● スケーラビリティ ○ ○ ● インフラ管理の負担を軽減し、開発に専念できる環境を提供する（人的リソースの効率化）サーバーレス技術（LambdaやDynamoDBなど）やマネージドサービスを活用することで、高可用性とスケーラビリティを維持しながら、柔軟なシステム設計を実現しているトラフィックの増加に耐えられるように、動的なリソース拡張を可能とする設計を採用特に、トラフィックピーク時でも高いパフォーマンスを維持できるよう、水平スケーリング（スケールアウト）を重視しているリソース効率 ● ● ● ● 大規模データの処理を考慮し、リソース使用を最適化することでコストを削減するスポットインスタンスを活用し、リソースのコスト効率を最適化する。 LambdaのApplication Autoscalingを活用し、負荷に応じた動的なリソース割り当てを行い、高いパフォーマンスを維持しつつコストを削減するデータ圧縮や適切なライフサイクルポリシーを適用することで、ストレージ使用量を効率的に削減する

29.

アーキテクチャの設計方針以下の3つの方針を基に設計を行っている ● 運用効率 ○ ○ ● スケーラビリティ ○ ○ ● インフラ管理の負担を軽減し、開発に専念できる環境を提供する（人的リソースの効率化）サーバーレス技術（LambdaやDynamoDBなど）やマネージドサービスを活用することで、高可用性とスケーラビリティを維持しながら、柔軟なシステム設計を実現しているトラフィックの増加に耐えられるように、動的なリソース拡張を可能とする設計を採用特に、トラフィックピーク時でも高いパフォーマンスを維持できるよう、水平スケーリング（スケールアウト）を重視しているリソース効率 ● ● ● ● 大規模データの処理を考慮し、リソース使用を最適化することでコストを削減するスポットインスタンスを活用し、リソースのコスト効率を最適化する。 LambdaのApplication Autoscalingを活用し、負荷に応じた動的なリソース割り当てを行い、高いパフォーマンスを維持しつつコストを削減するデータ圧縮や適切なライフサイクルポリシーを適用することで、ストレージ使用量を効率的に削減する

30.

運用効率化の取り組み：サーバーレス＋マネージドサービスデータパイプライン ETL Source Destination オーケストレーターとワークフロー AWS Step Functions Amazon Simple Storage Service (Amazon S3) 起動 Amazon Simple Storage Service (Amazon S3) 実行エンジン AWS Lambda Amazon DynamoDB AWS Batch Amazon OpenSearch Service Serverless

31.

運用効率化の取り組み：サーバーレス＋マネージドサービスフロントエンド＋バックエンド Datastore Backend Amazon Simple Storage Service (Amazon S3) Amazon DynamoDB Frontend Amazon CloudFront AWS Lambda Amazon API Gateway Amazon Simple Storage Service (Amazon S3) Amazon OpenSearch Service Serverless

32.

アーキテクチャの設計方針以下の3つの方針を基に設計を行っている ● 運用効率 ○ ○ ● スケーラビリティ ○ ○ ● インフラ管理の負担を軽減し、開発に専念できる環境を提供する（人的リソースの効率化）サーバーレス技術（LambdaやDynamoDBなど）やマネージドサービスを活用することで、高可用性とスケーラビリティを維持しながら、柔軟なシステム設計を実現しているトラフィックの増加に耐えられるように、動的なリソース拡張を可能とする設計を採用特に、トラフィックピーク時でも高いパフォーマンスを維持できるよう、水平スケーリング（スケールアウト）を重視しているリソース効率 ● ● ● ● 大規模データの処理を考慮し、リソース使用を最適化することでコストを削減するスポットインスタンスを活用し、リソースのコスト効率を最適化する。 LambdaのApplication Autoscalingを活用し、負荷に応じた動的なリソース割り当てを行い、高いパフォーマンスを維持しつつコストを削減するデータ圧縮や適切なライフサイクルポリシーを適用することで、ストレージ使用量を効率的に削減する

33.

スケーラビリティの取り組み：データパイプライン（ 1/3）データパイプラインではイベント駆動型のデータ処理方式を採用している ● クラウドへの入力データの特徴 ○ ○ ○ ○ 1日あたり数十 TBから数百 TB規模走行終了後にクラウドにアップロードされるアップロードは、数GB単位の圧縮済みファイル半構造、非構造データが含まれるターンアラウンドタイム※1 スケーラビリティリソース効率 Glue、EMR等あるタイミングでまとめて処理するため待ちが発生しするため高いまとめて処理するため、ピーク時にはリソース不足のリスクがある一括処理でアイドル時間が少ないストリームでは、数 M〜数十MBが上限のため、使用不可 Kinesis、MSK等流れてきたら逐次処理するため低いシャーディングなどで分割可能処理を継続的に行うため、リソース消費が大今回の入力データの特徴に対して、制限なし EventBridge、 DynamoDB等＋ StepFunctions等ファイル到着をトリガーに随時処理するため低いファイルごとにトリガが発生。スケールアウト可能アップロード毎処理されるため効率的処理方式概要制限事項バッチ処理データを一定期間に区切りまとめて処理する今回の入力データの特徴に対して、制限なしストリーム処理連続的に発生するデータを処理するイベント駆動処理ファイルの到着等をトリガーに処理する AWSサービスの例 ※1 ここでのターンアラウンドタイムは、待ち時間＋処理時間を表しています

34.

スケーラビリティの取り組み：データパイプライン（ 2/3） S3にファイルが到着するたびに、 StepFunctionsを起動する。これにより、 1. 起動までの時間が短く、 2. スケーラビリティを実現しているオブジェクト作成をトリガーにStep Functionsを起動 Raw EventBridge 順次アップロードされる Pre-process / Converter validator Anonymizer Pre-Process/ Convert 2. スケーラビリティ・・・アップローダー Pre-Process/ Convert 1. 起動までの時間 File Merge Convert

35.

スケーラビリティの取り組み：データパイプライン（ 3/3） Video GeneratorとAnalysisも同様の仕組み。 DynamoDBトリガーとLambdaでStepFunctionsを起動している Pre-process / Converter File Merge Meta EventTrigger Analysis Video Generate

36.

アーキテクチャの設計方針以下の3つの方針を基に設計を行っている ● 運用効率 ○ ○ ● スケーラビリティ ○ ○ ● インフラ管理の負担を軽減し、開発に専念できる環境を提供する（人的リソースの効率化）サーバーレス技術（LambdaやDynamoDBなど）やマネージドサービスを活用することで、高可用性とスケーラビリティを維持しながら、柔軟なシステム設計を実現しているトラフィックの増加に耐えられるように、動的なリソース拡張を可能とする設計を採用特に、トラフィックピーク時でも高いパフォーマンスを維持できるよう、水平スケーリング（スケールアウト）を重視しているリソース効率 ● ● ● ● 大規模データの処理を考慮し、リソース使用を最適化することでコストを削減するスポットインスタンスを活用し、リソースのコスト効率を最適化する。 LambdaのApplication Autoscalingを活用し、負荷に応じた動的なリソース割り当てを行い、高いパフォーマンスを維持しつつコストを削減するデータ圧縮や適切なライフサイクルポリシーを適用することで、ストレージ使用量を効率的に削減する

37.

リソース効率化の取り組み①：スポットインスタンスの活用と安定稼働の実現（1/3） Contents Cloud Sampling Pre-process / Converter アプリ Sampling CLI Raw Validator Anonymizer Sample Result Sampling File Merge Dataset Meta Video Generator Co-MLOps 利用者 Video Generator Video Analysis Dataset Search Thumbnail Extractor Statistics Extractor Scene Caption Generator Model Uncertainty Calculator Index Updater Assets Dataset Search

38.

リソース効率化の取り組み①：スポットインスタンスの活用と安定稼働の実現（2/3）コスト効率を高める取り組み ● ● ● 前述したように、データパイプラインはスケーラビリティを重視して設計しているスケーラビリティだけでなく、コストも重要 AWS Batchでは、スポットインスタンスを活用し、コストを抑える方針としているスポットインスタンスの特徴 ● ● EC2の空きキャパシティを活用して、最大90%の値引きが可能※1 スポットインスタンスでは、在庫の状況により中断の可能性がある ※2 ○ 中断された場合、InsufficientInstanceCapaciyエラーが発生する ※1 Amazon EC2 スポットインスタンスから引用 ※2 中断頻度の目安は、スポットインスタンスアドバイザーで確認が可能

39.

リソース効率化の取り組み①：スポットインスタンスの活用と安定稼働の実現（3/3）スポットインスタンスの在庫不足による対応方針方針取り組み説明設計インスタンスの配分戦略 ※1 AWS Batch はジョブのニーズに最も適したインスタンスタイプを、指定されたインスタンスタイプから選択する配分戦略は、AWS Batch が追加のキャパシティーを必要とする場合の動作を定義する複数のインスタンスタイプインスタンスタイプを複数指定することで、配分戦略に基づき、インスタンスが起動される複数のインスタンスタイプを指定バックオフ、ジッターを組み合わせたリトライ ※2 エラーが発生した際、リトライにより再実行するが、単純にリトライするだけでは、成功する確率は低い。このとき、Exponential backoffとJitterを組み合わせることで、再び在庫不足となることを避ける Step Functionsで、Exponential Backoff＋Jitterを組み合わせたリトライ処理を実装※3 BEST_FIT_PROGRESSIVEを採用実行時エラー発生時最初は安価なインスタンスタイプを選択し、インスタンスが不足した場合に、追加のインスタンスタイプを選択する ※1 詳細は、AWS Batch のインスタンスタイプの配分戦略を参照 ※2 詳細は、ジッターを伴うタイムアウト、再試行、およびバックオフを参照 ※3 AWS Batch でも実現可能と思われる（AWS Batch が設定可能なジョブの再試行のサポートを開始、ジョブ定義のデフォルト再試行戦略）

40.

リソース効率化の取り組み②： Lambdaにおけるコールドスタート対策と Application Auto Scaling(1/3) Cloud Pre-process / Converter アプリ Sampling CLI Raw Contents Sampling Validator Anonymizer Sample Result Sampling File Merge Dataset Meta Video Generator Co-MLOps 利用者 Video Generator Video Analysis Dataset Search Thumbnail Extractor Statistics Extractor Scene Caption Generator Model Uncertainty Calculator Index Updater Assets Dataset Search

41.

リソース効率化の取り組み②： Lambdaにおけるコールドスタート対策と Application Auto Scaling（2/3） Lambdaのコールドスタート ● Lambdaはリクエストを受け取る際に、実行環境を準備する。この準備段階を「コールドスタート」と呼び、この間はレイテンシーが高くなる特徴がある。 Provisioned Concurrency ● レイテンシーを可能な限り抑えるソリューション。関数は初期化されたウォーム状態を維持し、コールドスタートを回避する。実行環境のライフサイクル ※ 図は、 Lambda実行環境から抜粋 Provisioned Concurrency

42.

リソース効率化の取り組み②： Lambdaにおけるコールドスタート対策と Application Auto Scaling（3/3） ● ● AWS Lambdaを活用する際、パフォーマンスに影響を及ぼすコールドスタートの課題を解決するために、 Provisioned Concurrencyを導入ただし、Provisioned Concurrencyを常時有効にするとコストが増大するため、 Application Auto Scalingを組み合わて、利用状況に応じた動的なスケーリングを実現し、コストを最適化する ※ 図は、Application Auto Scaling を使用してプロビジョニングされた同時実行数の管理を自動化するから抜粋

43.

VLMを活用した事例 04

44.

VLMの利用箇所カードや詳細画面に記載されている説明、検索のタグフィルターで使用している検索画面のカード（説明文）データセット詳細画面検索のタグフィルター (99999) (99999) (99999) (99999) (99999) (99999) (99999) (99999) (99999) (99999) (99999) (99999)

45.

データパイプライン / Scene Caption Generator Cloud Pre-process / Converter アプリ Sampling CLI Raw Contents Sampling Validator Anonymizer Sample Result Sampling File Merge Dataset Meta Video Generator Co-MLOps 利用者 Video Generator Video Dataset Search Analysis Dataset Search Thumbnail Extractor Statistics Extractor Scene Caption Generator Model Uncertainty Calculator Index Updater Assets

46.

Scene Caption Generatorの処理概要 VLMを利用して説明文の生成とタグ付けを行う ● フロントカメラの画像を一定間隔で VLMに入力し、定義済みタグと説明文を生成し保存する。 ● 未定義タグが生成された場合は、新しいタグ候補として記録する（未定義タグ）。定義済みタグリストは不定期にメンテナンスを実施する。 ※不定期にタグリストをメンテナンスする定義済みタグリスト未定義タグ運用担当 ① 画像と定義済みのタグを渡す ④検索可能なように登録 VLM ③書き込み ② 説明文、定義済タグ、未定義タグを受け取る定義済タグ Index Updater Scene Caption Generator 説明文 Search用 Index

47.

まとめ 05

48.

まとめ Co-MLOpsの特徴 ● ● Data Recording System（DRS）、データマネジメント・ MLOps基盤、リファレンスAIモデルの機能を提供するデータマネジメント・MLOps基盤では、高品質・大規模・多様なデータを取り扱うスケーラビリティと効率化の取り組み ● 大規模データに対して、スケーラブルであること、安定稼働・コストを意識して設計している VLMの活用 ● VLMを活用することで、必要なデータセットを効率的に検索できるように、メタデータ（説明文、タグ付）を抽出している

49.

CONTACT US https://tier4.jp/ Thanks Again !

https://tier4.jp/

Co-MLOps プラットフォームのクラウドアーキテクチャと大規模データマネジメント_アップ用

TIER IV

関連スライド

Edge AIのためのDNN推論処理の最適化

Hailo-8上の低消費電力Edge AI

Openな資産とFPGAを活用して、領域特化型のProcessorを作ろう！

小さく始める Blue/Green Deployment

Autoware紹介と自動運転ハードウェアアーキテクチャ

Webエンジニアが自動運転企業でやっていること

各ページのテキスト