-- Views
December 30, 25
スライド概要
Kubernetes AI Conformance Program と Azure Kubernetes Service に関する情報について、技術メンタリングで活用した資料を一般にも公開しておきます。
「sou」という名前が好きなのですが、よくある名前でアカウントが取れなかったりするので「08thse」という名前でも活動しています。 Microsoft MVP for Microsoft Azure (2022-) / Microsoft Certified Trainer
AI Conformant AKS の概要 Kubernetes AI Conformance Program sou (08thse) 2025.12.20 と AKS
AI Conformant AKS の概要 アジェンダ 1. Kubernetes AI Conformance Program が重要な理由 3. AI Conformance の主要要件 4. AI Conformant AKS クラスタの構築 5. まとめと参考情報 2. AI Conformance とは 2 / 27
1. Kubernetes AI 適合プログラムとは Kubernetes AI 適合プログラム Kubernetes AI Conformance Program による新しい標準化プログラム クラスタが AI/ML ワークロードを確実かつ効率的に実行するため に必要な機能、API、構成を定義 Certified Kubernetes Conformance Program の実績を AI インフラに適用 100 以上の認定ディストリビューションとプラットフォームの実績 オープンな開発 Kubernetes コミュニティによってオープンに開発 CNCF Kubernetes 3 / 27
1. Kubernetes AI 適合プログラムとは AI Conformance AKS の認定 は初の認定プラットフォームの一つ 2025年11月 KubeCon North America で発表 Kubernetes 1.34 以降で対応 Microsoft のオープンスタンダードへのコミットメント 4 / 27
2. AI Conformance AI が重要な理由 ワークロードの課題 上で AI ワークロードを実行する際の課題 GPU ドライバーの互換性問題 分散トレーニングのための特殊なスケジューリング要件 推論エンドポイントの大規模公開の複雑さ ベンダ固有の実装によるリスク 柔軟性とポータビリティの制限 Kubernetes 5 / 27
2. AI Conformance が重要な理由 市場動向と必要性 Linux Foundation Research (Sovereign AI) の組織がカスタム AI ソリューションを構築中 58% が Kubernetes を AI ワークロードに使用 90% の企業が OSS を AI 戦略に不可欠と認識 82% 課題 断片化のリスク増加 パフォーマンスの不一致 → AI Conformance Program が解決 6 / 27
2. AI Conformance が重要な理由 AI Conformance のメリット 予測可能なスケーリング 標準化された API と自動スケーリング動作を使用した一貫したスケーリング 2. ハードウェアの最適化 実績のある Kubernetes による GPU とアクセラレータリソースの管理 3. ワークロードのモビリティ 適合プラットフォーム間でのアプリ移植性、ベンダーロックインの軽減 4. エコシステムの互換性 人気の ML フレームワーク、オペレーター、ツールの信頼性の高い動作 1. 7 / 27
3. AI Conformance 要件 の主要要件 Kubernetes AI Conformance Program は、バージョン別の仕様を維持 ~ 各要件は段階的なプロセスを経る SHOULD: 推奨事項として開始 MUST: 最終的に認証必須に昇格 Kubernetes v1.33 8 / 27
3. AI Conformance の主要要件 主要要件カテゴリ Accelerators Scheduling Observability DRA Gang scheduling GPU metrics Networking Cluster autoscaling AI service metrics Gateway API Security Secure access Pod autoscaling Operators AI operator support 9 / 27
3. AI Conformance の主要要件 Accelerators: Dynamic Resource Allocation (DRA) 従来の方法 resources: limits: nvidia.com/gpu: 1 シンプルな数値カウント DRA の柔軟性 デバイス特性の指定 特定の GPU モデルの要求 メモリ・計算能力の設定 AKS では Kubernetes v1.34 で有効 10 / 27
3. AI Conformance の主要要件 Networking: Gateway API for AI Inference 推論サービスに必要な高度なトラフィックルーティング カナリアデプロイメント 新しいモデルバージョンへのトラフィック割合制御 ヘッダーベースルーティング OpenAI プロトコルヘッダーを含むリクエストヘッダーに基づくルーティング AKS では Istio-based service mesh add-on Application Gateway for Containers 11 / 27
3. AI Conformance の主要要件 Security Secure Accelerator Access コンテナ内からのアクセラレータへのアクセスを適切に分離 Kubernetes リソース管理フレームワーク経由 デバイスプラグイン または DRA コンテナランタイム 不正アクセス防止 12 / 27
3. AI Conformance の主要要件 Scheduling: Gang Scheduling 課題 分散トレーニングジョブは複数の Pod を同時起動する必要がある 一部の Pod のみがスケジュールされると無限に待機してしまう リソースの無駄 Gang Scheduling の解決策 のグループを単一ユニットとして扱う すべての Pod が同時にスケジュール or すべてスケジュールされない AKS では Kueue による Gang Scheduling をサポート Pod 13 / 27
3. AI Conformance の主要要件 Scheduling: Cluster & Pod Autoscaling Cluster Autoscaling Pod Autoscaling ノードは高コスト 推論ワークロードの需要ベーススケー トレーニング/推論 Pod が Pending 時 リング にノードをプロビジョニング HPA が GPU 対応 Pod で正しく動作 アイドル時にスケールダウン カスタムメトリクスをサポート AKS では AKS では GPU Cluster Autoscaler KEDA + NVIDIA DCGM Metrics KEDA + NVIDIA DCGM Metrics DCGM_FI_DEV_GPU_UTIL ゼロへのスケールダウン などの GPU メ トリクスベースのスケーリング 14 / 27
3. AI Conformance の主要要件 Operators AI Operator Support トレーニングジョブ、モデルサーバー、分散トレーニングコーディネーターなど の複雑なリソース管理 AKS では AI Toolchain Operator (KAITO) 推論、ファインチューニング、RAG Ray on AKS 15 / 27
3. AI Conformance の主要要件 Observability: Accelerator Performance Metrics AI ワークロードの可観測性は重要 必要なメトリクス 使用率 メモリ消費量 温度 電力消費 その他のアクセラレータメトリクス GPU AKS でのサポート NVIDIA DCGM Exporter Prometheus クス公開 形式での GPU メトリ GPU Health Monitoring Node Problem Detector (NPD) よる予防的な問題検出 に 16 / 27
3. AI Conformance の主要要件 Observability: AI Service Metrics プラットフォーム要件 標準形式 (Prometheus など) でメトリクスを公開するワークロードからメトリクス を検出・収集できる監視システム AKS では Azure Monitor for Containers Container Insights GPU Monitoring Azure Managed Prometheus / Azure Managed Grafana 使用時 vLLM 推論メトリクスの監視と可視化 AI Toolchain Operator (KAITO) 17 / 27
4. AI Conformant AKS クラスタの構築 構築ステップの概要 クラスタを作成するためのステップ 1. AKS クラスタの作成 (Kubernetes 1.34 以降) 2. GPU ノードプールの追加 3. Istio-based service mesh add-on と Gateway API の有効化 (オプション) 4. Prometheus メトリクスの有効化 (オプション) AI Conformant AKS 18 / 27
4. AI Conformant AKS クラスタの構築 Step 1: AKS クラスタの作成 az aks create \ --resource-group <resource-group> \ --name <cluster-name> \ --enable-azure-monitor-metrics \ --kubernetes-version 1.34.0 ポイント 以降を指定 Azure Monitor メトリクスを有効化 Kubernetes 1.34 19 / 27
4. AI Conformant AKS クラスタの構築 Step 2: GPU ノードプールの追加 (1/2) フル マネージド GPU ノードプール (プレビュー) を追加 機能登録 az feature register \ --namespace Microsoft.ContainerService \ --name "ManagedGPUExperiencePreview" 自動インストール内容 GPU ドライバー デバイスプラグイン DCGM Metrics Exporter 20 / 27
4. AI Conformant AKS クラスタの構築 Step 2: GPU ノードプール追加 ノードプールの追加 (2/2) az aks nodepool add \ --resource-group <resource-group> \ --cluster-name <cluster-name> \ --name gpunp \ --node-count 1 \ --node-vm-size Standard_NC40ads_H100_v5 \ --node-taints sku=gpu:NoSchedule \ --enable-cluster-autoscaler \ --min-count 1 \ --max-count 3 \ --tags EnableManagedGPUExperience=true 21 / 27
4. AI Conformant AKS クラスタの構築 Step 3: Istio と Gateway API の有効化 (オプション) 高度なトラフィック管理機能が必要な場合 # 機能登録 az feature register \ --namespace "Microsoft.ContainerService" \ --name "ManagedGatewayAPIPreview" # Istio サービスメッシュの有効化 az aks mesh enable \ --resource-group <resource-group> --name <cluster-name> # Gateway API の有効化 az aks update \ --resource-group <resource-group> --name <cluster-name> \ --enable-gateway-api 22 / 27
4. AI Conformant AKS クラスタの構築 Step 4: Prometheus メトリクスの有効化 (オプション) アプリケーションとインフラストラクチャのメトリクス収集 az aks update \ --resource-group <resource-group> \ --name <cluster-name> \ --enable-azure-monitor-metrics のインストールと実行 (Gang Scheduling) バッチジョブのデプロイ Kueue 23 / 27
5. まとめと参考情報 まとめ Kubernetes AI Conformance Program エコシステムにとって重要な一歩 共有標準による一貫性と信頼性の向上 大規模 AI デプロイメントをより一貫的で信頼性の高いものに AI AKS の AI Conformance 認定 オープンスタンダードへのコミットメント 検証済みプラットフォームでの確実な AI ワークロード実行 互換性のあるツールとフレームワークの成長するエコシステム 24 / 27
5. まとめと参考情報 AI Conformant AKS の利点 プロダクションレディ 検証済みの標準に基づく信頼性の高いインフラ 2. ポータビリティ 適合プラットフォーム間でのワークロード移植性 3. 効率性 デプロイメントごとにインフラを再発明する必要なし 4. エコシステム 互換性のあるツールとフレームワークの活用 1. 25 / 27
5. まとめと参考情報 参考情報 CNCF Kubernetes AI Conformance Repository AKS AI/ML Documentation CNCF Kubernetes AI Conformance Announcement AI Conformant AKS Blog Post 26 / 27
ありがとうございました!