2K Views
February 03, 23
スライド概要
HEROZ勉強会、技術調査グループGPUチームの発表
GPUのサービス利用 HEROZ株式会社
アジェンダ はじめに クラウド市場シェア クラウドデザインパターン 機械学習システムのデザインパターン MLOps成熟度モデル GPU対応のクラウドサービス NVIDIA Multi-Instance GPU (MIG) GPUのスケジューリング NVIDIA GPU OPERATOR Containerized GPU (cGPU) サーバレス まとめ 2
はじめに
はじめに 教えて!ChatGPT 4
はじめに 教えて!ChatGPT 5
クラウド市場シェア
クラウド市場シェア グローバルのクラウドインフラ市場シェア グローバルのクラウドインフラ市場シェア、Google Cloudが拡大傾向、AWSとAzureの1 位2位は盤石。2022年第3四半期、Synergy ResearchとCanalysの調査結果 - Publickey (publickey1.jp) Q3 Cloud Spending Up Over $11 Billion from 2021 Despite Major Headwinds; Google Increases its Market Share | Synergy Research Group (srgresearch.com) 7
クラウド市場シェア アジア太平洋地域のクラウド市場シェア ワールドワイドのIaaSクラウド市場シェア、2021年は1位AWS、2位マイクロソフト、3位に はAlibaba、4位がGoogleとの調査結果。ガートナーが発表 - Publickey (publickey1.jp) AWS, Alibaba and Microsoft Lead the APAC Cloud Market; Tencent, Google and Baidu are in the Chasing Pack | Synergy Research Group (srgresearch.com) 8
クラウド市場シェア 国内クラウドサービスの市場規模 国内クラウドサービスの市場規模は3.5兆円に拡大 ≪ プレスリリース | 株式会社MM総研 (m2ri.jp) 9
クラウドデザインパターン
AWSクラウドデザインパターン AWS-CloudDesignPattern 11
AWSクラウドデザインパターン • CDP:Scale Outパターン - AWS-CloudDesignPattern • CDP:Scale Upパターン - AWS-CloudDesignPattern • 1台のWeb/APサーバは、 NginxのようなWebサーバ を活用することで、workerプロセスが複数のリク エストを処理することができる • スケールアウトすることで、複数台で1台では処理 できない大量のリクエストを処理することができ る • スケールアップし、CPU/メモリ/ディスクを増強す ることで、1台が1度に処理できるリクエスト数を 増やすこともできる • では、GPUはどうすればいいか? • 技術よりもビジネス/コスト的な問題でスケール アウト(GPUサーバ台数追加)/スケールアップ (GPU枚数追加)する構成は採用しにくい 12
AWSクラウドデザインパターン ⚫ サービス別資料 | AWS クラウドサービス活用資料集 (amazon.com) 13
AWSクラウドデザインパターン サーバーレスパターン (amazon.com) 14
AWSクラウドデザインパターン 「AWSではじめるデータレイク」出版記念データレイク解説セミナーの資料公開 | Amazon Web Services ブログ 15
AWSクラウドデザインパターン amazon-s3-datalake-handson/JP at master · aws-samples/amazon-s3-datalake-handson · GitHub 16
AWSクラウドデザインパターン • AWS re:Invent 2022 - How Stable Diffusion was built: Tips & tricks to train large AI models (CMP314) - YouTube • How Stable Diffusion was built: Tips and tricks to train large AI models 17
AWSクラウドデザインパターン • AWS re:Invent 2022 - How Stable Diffusion was built: Tips & tricks to train large AI models (CMP314) - YouTube • How Stable Diffusion was built: Tips and tricks to train large AI models 18
AWSクラウドデザインパターン • https://aws.amazon.com/jp/blogs/machine-learning/stability-ai-builds-foundation-models-on-amazon-sagemaker/ • https://docs.amazonaws.cn/en_us/sagemaker/latest/dg/distributed-training-notebook-examples.html • https://medium.com/@emilywebber/how-i-trained-10tb-for-stable-diffusion-on-sagemaker-39dcea49ce32 19
Azureクラウドデザインパターン クラウド設計パターン - Azure Architecture Center | Microsoft Learn 20
Azureクラウドデザインパターン Azure を使用した業界ソリューション - Azure Architecture Center | Microsoft Learn 21
Azureクラウドデザインパターン Azure でのイメージの分類 - Azure Architecture Center | Microsoft Learn 22
Google Cloudソリューション デザインパターン • Google Cloud ソリューションデザインパターンのサイトがリニューアルしてセッション動画や スライドの一覧ページができてます | DevelopersIO (classmethod.jp) • Solution Design Pattern (gc-solution-design-pattern.jp) 23
Google Cloudソリューション デザインパターン Solution Design Pattern - ゲーム業界向け (gc-solution-design-pattern.jp) 24
Google Cloudソリューション デザインパターン Solution Design Pattern - ゲーム業界向け (gc-solution-design-pattern.jp) 25
機械学習システムのデザインパターン
機械学習システムの設計パターン • 機械学習システムの設計パターンを公開します。 | メルカリエンジニアリング (mercari.com) • ml-system-design-pattern | System design patterns for machine learning (mercari.github.io) 27
機械学習システムの設計パターン • ml-system-in-actions/chapter4_serving_patterns/web_single_pattern at main · shibuiwilliam/ml-systemin-actions · GitHub 28
機械学習システムの設計パターン • Machine Learning 共通基盤構築の振り返り〜チーム立ち上げからクローズまで〜 | メルカリエン ジニアリング (mercari.com) 29
MLOps 成熟度モデル
MLOps 成熟度モデル 3大クラウド各社の MLOps 成熟度モデルの比較 - Qiita 31
MLOps 成熟度モデル MLOps: 機械学習における継続的デリバリーと自動化のパイプライン | Cloud アーキテクチャ セン ター | Google Cloud 32
MLOps 成熟度モデル MLOps: 機械学習における継続的デリバリーと自動化のパイプライン | Cloud アーキテクチャ セン ター | Google Cloud 33
MLOps 成熟度モデル Amazon SageMakerを利用したエンタープライズのためのMLOps基盤ロードマップ | Amazon Web Services ブログ 34
MLOps 成熟度モデル Amazon SageMakerを利用したエンタープライズのためのMLOps基盤ロードマップ | Amazon Web Services ブログ 35
MLOps 成熟度モデル Amazon SageMakerを利用したエンタープライズのためのMLOps基盤ロードマップ | Amazon Web Services ブログ 36
MLOps 成熟度モデル Amazon SageMakerを利用したエンタープライズのためのMLOps基盤ロードマップ | Amazon Web Services ブログ 37
GPU対応のクラウドサービス
GPU対応のクラウドサービス • 主要パブリッククラウドのサービス比較(GPU対応サービスは青字) • 拡張性は、サーバレス>コンテナ>仮想サーバ • アクティブ/アイドル時の待機コスト、初回起動/アイドル/スケールアウト時の復旧時間に 注意 Alibaba Cloud 仮想サーバ AWS Azure Google Alibaba Cloud Elastic Compute Amazon Elastic Compute Cloud Azure Virtual Machines Google Compute Engine (GCE) Service (ECS) (Amazon EC2) Alibaba Cloud Elastic Container AWS Fargate サーバレスコンテナ Instance (ECI) Azure Container Instances (ACI) Cloud Run Cloud Run for Anthos サーバレス関数 Alibaba Cloud Function Compute (FC) AWS Lambda Azure Functions Cloud Functions コンテナレジストリ Alibaba Cloud Container Registry (ACR) Amazon Elastic Container Registry (ECR) Azure Container Registry (ACR) Google Container Registry (GCR) コンテナクラスタ Alibaba Cloud Container (Kubernetes および独自 Service for Kubernetes (ACK) 仕様) 機械学習プラット フォーム Amazon Elastic Kubernetes Service (EKS) Amazon Elastic Container Service (ECS) Azure Kubernetes Service (AKS) Amazon SageMaker Alibaba Cloud Machine Azure Machine Learning Platform for AI (PAI) Amazon SageMaker Serverless Learning Inference Google Kubernetes Engine (GKE) Anthos Vertex AI 39
NVIDIA Multi-Instance GPU (MIG)
NVIDIA Multi-Instance GPU (MIG) GiNZA で体感する MIG のパフォーマンス スケーラビリティ - NVIDIA 技術ブログ 41
NVIDIA Multi-Instance GPU (MIG) NVIDIA Multi-Instance GPU User Guide :: NVIDIA Tesla Documentation 42
NVIDIA Multi-Instance GPU (MIG) NVIDIA Multi-Instance GPU User Guide :: NVIDIA Tesla Documentation 43
NVIDIA Multi-Instance GPU (MIG) クラウドベンダー各社のMIG検証手順 Utilizing NVIDIA Multi-Instance GPU (MIG) in Amazon EC2 P4d Instances on Amazon Elastic Kubernetes Service (EKS) | Containers マルチインスタンス GPU の実行 | Google Kubernetes Engine(GKE) | Google Cloud Use a node pool to partition an NVIDIA A100 GPU into multiple GPU instances (alibabacloud.com) 44
GPUのスケジューリング
GPUのスケジューリング • GPUのスケジューリング | Kubernetes • Schedule GPUs | Kubernetes 46
NVIDIA GPU OPERATOR
NVIDIA GPU OPERATOR Overview — NVIDIA Cloud Native Technologies documentation 48
NVIDIA GPU OPERATOR Platform Support — NVIDIA Cloud Native Technologies documentation 49
Containerized GPU (cGPU)
Containerized GPU (cGPU) cGPU overview (alibabacloud.com) 51
Containerized GPU (cGPU) • 【CEDEC2022】将棋AIの進化とクラウドサービスの活用 – YouTube • cGPUとAIACCご紹介_r8.pdf 52
Containerized GPU (cGPU) • 【CEDEC2022】将棋AIの進化とクラウドサービスの活用 – YouTube • cGPUとAIACCご紹介_r8.pdf 53
Containerized GPU (cGPU) • 【CEDEC2022】将棋AIの進化とクラウドサービスの活用 – YouTube • cGPUとAIACCご紹介_r8.pdf 54
Containerized GPU (cGPU) • 【CEDEC2022】将棋AIの進化とクラウドサービスの活用 – YouTube • cGPUとAIACCご紹介_r8.pdf 55
Containerized GPU (cGPU) cGPUのご紹介_2204r4.pdf 56
サーバレス
サーバレス • Function Compute の概要 (alibabacloud.com) • What is Function Compute? (alibabacloud.com) 58
サーバレス FunctionComputeのご紹介.pdf 59
サーバレス FunctionComputeのご紹介.pdf 60
サーバレス FunctionComputeのご紹介.pdf 61
サーバレス FunctionComputeのご紹介.pdf 62
サーバレス FunctionComputeのご紹介.pdf 63
サーバレス FunctionComputeのご紹介.pdf 64
サーバレス Serverless AI inference based on Function Compute and TensorFlow (alibabacloud.com) 65
サーバレス サンプルソース • Serverless Devs Registry/start-fc - 码云 - 开源中国 (gitee.com) • fc: 阿里云函数计算(FC)组件 - Gitee 66
まとめ
まとめ 教えて!ChatGPT 68
まとめ 教えて!ChatGPT 69