AzureサービスとAIエージェントによるシステム運用の現実解

0.9K Views

June 27, 26

#生成ai #aiエージェント #システム #システム運用 #azure #Azure #AIエージェント #NoOps #AIOps

スライド概要

.NETラボ勉強会 2026年6月の登壇資料です。
https://dotnetlab.connpass.com/event/390843/

カジュアル面談や友達採用もやっています。ご相談ください。
【デリバリーリード（Azure）】フルリモート
https://hrmos.co/pages/iret/jobs/0001131
【ソリューションアーキテクト（Azure）】フルリモート
https://hrmos.co/pages/iret/jobs/0001132
【クラウドエンジニア（Azure）】フルリモート
https://hrmos.co/pages/iret/jobs/0001133
【Webアプリエンジニア（Azure）】フルリモート
https://hrmos.co/pages/iret/jobs/0001134

Kento Yamada

@ymd65536

スライド一覧

Cloud Developer,404ニキ,Microsoft MVP,LINE API Expert,PagerDuty Ambassador,Google Cloud PTE/Tech Influencer,AWS Community Builder, #AIDD #AI駆動開発 #dotnetlab 投稿は個人の見解, #AzPoC

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

GitHub Copilot SDKによるマルチコーディングエージェントシステムの開発

生成ai azure aiエージェント github github copilot github copilot cli github copilot sdk

Kento Yamada 4.6K

AIエージェントの評価、上から見るか？下から見るか？

生成ai azure aiエージェント評価

Kento Yamada 3.3K

AIエージェントをAzureにホイっとデリバリーできるMicrosoft Foundryの魔法があることを君たちはまだ知らない

azure 生成ai .net

Kento Yamada 3.3K

GitHub Copilot CLIとSDKで複数のCopilotを起動してA2Aプロトコルで接続する方法

生成ai aiエージェント githubcopilot a2a kubernetes

Kento Yamada 2.1K

Agent Payments Protocol（AP2）の解説

ap2 agentpaymentsprotocol google cloud 生成ai 静止絵生成決済

Kento Yamada 1.9K

さまざまなAgent FrameworkとAIエージェントの評価

生成ai azure adk microsoftagentframework google cloud

Kento Yamada 1.8K

各ページのテキスト

AzureサービスとAIエージェントによるシステム運用の現実解 .NETラボ勉強会 2026年6月 1

自己紹介山田顕人（Kento.Yamada） @ymd65536 By the wayの人、404ニキなど呼び方はさまざま仕事：DevSecOps、クラウドインテグレーションコミュニティ運営：.NETラボ、AI運用、AI駆動開発受賞歴（10個、継続中の称号を掲載） ● 初代PagerDutyアンバサダー 2

By the way: 弊社、Azure求人募集開始（唐突な宣伝？！）カジュアル面談や友達採用もやっています。ご相談ください。 ● 【デリバリーリード（Azure）】フルリモート ○ https://hrmos.co/pages/iret/jobs/0001131 ● 【ソリューションアーキテクト（Azure）】フルリモート ○ https://hrmos.co/pages/iret/jobs/0001132 ● 【クラウドエンジニア（Azure）】フルリモート ○ https://hrmos.co/pages/iret/jobs/0001133 ● 【Webアプリエンジニア（Azure）】フルリモート Xのリンク ○ https://hrmos.co/pages/iret/jobs/0001134 3

前回の話 ● 有人対応から自動対応への昇華 ● システム運用にAIを導入、うまくできた例を紹介 ● システム運用のあり方（有人、ルールベース、AIOps） ● Azure SREエージェントの”SRE”は主語がデカい ● PagerDuty Advancedは役割ベースのシステム運用 ● 現実は伴走型運用、理想はAIエージェントによる自律型運用 4

24/365の有人対応から自動対応への昇華（実績共有）引用：「AI運用勉強会#2」登壇レポート： AMSとAIエージェントが切り拓くクラウド運用の未来 https://iret.media/185536 5

https://iret.media/185536

さまざまなシステム運用のあり方自律型 vs 伴走型 vs ルールベース/有人対応理想と現実の折衷案を見つける必要が出てくる。 ● AIエージェントにインシデント対応を任せる → 責任の所在が迷子 ● 逆に任せないとなるとルールベースで泥臭く立ち回る必要がある。 ● ルールベースだとシステム運用のためのシステム運用が必要 6

今日話すこと前半 ● そもそもシステム運用をするなって？ ● ルールベース運用の話 ● 伴走型運用の話後半 ● 自律型運用の話 ● 自律型運用が抱える問題点 7

そもそもシステム運用をするなって？（真のNoOps）引用：.NETラボ勉強会 2025年8月 AIエージェント開発、 DevOps and LLMOps https://www.docswell.com/s/ymd65536/KEYJXR-ai-agent-devops-and-llmops-2025-08-23#p8 8

https://www.docswell.com/s/ymd65536/KEYJXR-ai-agent-devops-and-llmops-2025-08-23#p8

NoOps、運用を最小限にするという選択（少しだけ運用）簡単にまとめると ● 運用のすべてをクラウドにアウトソーシングすれば、フルタイムの運用はいらないという考え方 ● 運用をゼロにすることは不可能なので実際は「運用作業を最小限にする」活動例： Azure Functionsでサーバーレスを活用、運用にまつわる作業を自動化する。 👉 SREとしてトイル（労苦）を削減しながらサービスを運用していく 👉 ここでもう一歩、AI時代のNoOpsを考えてみると？（次のスライド） 9

10.

AI時代のNoOps 人が運用しないという意味になるNoOps PaaSやサーバレスを活用して人がトイル（労苦）を削減してサービスを運用 PaaSやサーバレスを活用してAIがトイル（労苦）を削減してサービスを運用 10

11.

AI時代のNoOps 人が運用しないという意味になるNoOps PaaSやサーバレスを活用して人がトイル（労苦）を削減してサービスを運用ルールベース運用 PaaSやサーバレスを活用してAIがトイル（労苦）を削減してサービスを運用伴走型/自律型運用自律型運用 = AI時代のNoOps(人が一切介在しない運用) ※いずれにしてもシステム運用は残る。 11

12.

クラウドでタスクをアウトソースしても共有責任モデルは残るのでシステム運用は残り続ける https://learn.microsoft.com/ja-jp/azure/security/fundamentals/shared-resp onsibility-ai 12

https://learn.microsoft.com/ja-jp/azure/security/fundamentals/shared-responsibility-ai

13.

それぞれの運用について見てみよう 13

14.

ルールベース運用ルールセット Resolve ルール1 インシデントルール2 ルール3 アラート検知、インシデントとして発行（場合によってはインシデントグルーピング）、ルールセットでインシデント対応、ルールに無いものは有人対応 👉 シンプルに考えられる上に手動対応からの自動対応のサイクルを回しやすい。 14

15.

ルールベース運用の真価 AIの推論ではなく「透明性」と「100%の再現性」を担保ミッションクリティカルなシステムを確実に保護するアプローチ。つまりは多くのところで刺さりやすいフロー 15

16.

ルールベース型のAzureインシデント対応 2. トリアージ (Triage) 4. 修復 (Mitigate) Action Groups Azure Automation 確実なルーティングと通知承認済みRunbookの実行 1. 検知 (Detection) 3. 調査 (Investigate) 5. 事後対応 (Post) Azure Monitor Log Analytics (KQL) チケット管理エスカレーション厳格なしきい値とログ検索エンジニアによる確証取得 16

17.

※Copilotで表現していますが、深い意味はないです。 Resolve 伴走型（Copilotがいる運用）ルール1 インシデントルール2 ルール3 アラート検知、インシデントとして発行（場合によってはインシデントグルーピング）ルールセット対応、場合によっては有人対応 + CopilotのHuman in the loop 👉ルールベース運用にAI(Copilot)を入れることができる。つまり運用がより楽？ 17

18.

伴走型運用の真価ルールベースと有人対応にAIの推論を加えることによって未知のインシデントに対応できる柔軟性を獲得したアプローチつまりはバランスが良く提案しやすいインシデント対応に対して手段を多く持てるフロー 18

19.

伴走型のAzureインシデント対応 2. トリアージ (Triage) 4. 修復 (Mitigate) Copilot Observability 相関分析とノイズ除去 Automation + HITL 承認された⼿順の実⾏ 1. 検知 (Detection) Azure Monitor AI異常検知による監視 3. 調査 (Investigate) 5. 事後対応 (Post) Azure SRE Agent ログ突合と仮説⽣成 M365 Copilot タイムライン⾃動⽣成 19

20.

補足：Copilot Observabilityとは（最近GA）引用：https://techcommunity.microsoft.com/blog/azureobservabilityblog/azure-copilot-observability-agent-is-generally-available-with-autonomous-o perati/4528213 Azure Monitorを基盤として実行される機能 ● 横断で因果関係を特定 ● 仮説→検証→結論までを自動化 ● 自動でトリアージ補助 20

https://techcommunity.microsoft.com/blog/azureobservabilityblog/azure-copilot-observability-agent-is-generally-available-with-autonomous-operati/4528213

21.

※Copilotで表現していますが、深い意味はないです。（理想）自律型運用あるいは完全自律型運用 Resolve ルール1 インシデントルール2 ルール3 アラート検知、インシデントとして発行（場合によってはインシデントグルーピング）、ルールセット対応、ルールに無いものはCopilotが対応（Copilotを人が承認） 👉人がメインの運用(一次対応)に入ることがない。人はEnterを押すだけ。 21

22.

自律型運用の真価ルールベース + AIの推論 + 人間の承認でより迅速に対応可能つまりは何もすることがないの極地 22

23.

だがちょっと待ってほしい ※実際にできたら最高（複雑な気分だけど） 23

24.

自律型運用を考えるにあたっての壁（いくつか） ● 推論コスト vs インシデント対応コスト ● AI推論によるインシデント対応 = インシデント対応の可用性実際に動かす際に重要なこと ● AIエージェントがインシデント対応のために動き続ける ○ インシデントが長期化あるいは大量発生した際のメモリーマネジメント ● インシデント対応はマルチエージェント ○ 役割ベースのアーキテクチャ、エージェント間の連携 24

25.

※仮にAIが発生したインシデントに対応することを例にいくらかかるのか計算推論コスト vs インシデント対応コスト例：3か月で58万件のインシデント、平均1件/35秒、長くても平均1件/50秒で対応モデル GPT-4o (Global Deployment) GPT-4o-mini または Phi-4 3ヶ月の推論コスト（概算）約 $12,760 (約204万円) 約 $783 (約12.5万円) 運用のイメージログの相関分析や手順書（RAG）の検索、複雑な自律復旧コマンドの組み立て・実行まで対応。速度最優先。定型アラートの即時自動クローズ、エラーコードの分類、事前定義された復旧アクションの超高速実行 ※1ドル＝160円換算 ※1件あたりの想定トークン量:入力（Input）: 4,000 トークン/出力（Output）: 1,100 トークン ※GPT-4o: 入力 $2.50 / 出力 $10.00 （100万トークンあたり）: ※GPT-4o-mini: 入力 $0.15 / 出力 $0.60（100万トークンあたり）: 25

26.

インシデント対応の可用性さまざまなブロッカーがいる！ ● レートリミット（429 Too Many Requests エラー） ● AIの「空回り（無限ループ）」によるタイムアウト ● モデル自体の障害・リージョン停止例：Microsoft FoundryとAzure FunctionsまたはAzure Logic Appsで構築した自律型運用 Microsoft Foundryでは99.9%、Azure FunctionsやAzure Logic Appsでは99.9% 90日間で3時間くらいのサービス停止やエラー 26

27.

AIエージェントがインシデント対応のために動き続ける比較的に短期間のインシデント対応は問題ない。 ※それはルールベースで良いのでは？と思うこともあるがいったん置いておく ● AIエージェントの長期記憶 ○ インシデント対応履歴をどのように保持するか ● シングルエージェント/シングルLLMの限界 ○ モデルによって得意不得意がある。コストも関係してくる ● セッションはどういう単位で管理すべきか。セッションの寿命は？ ○ インシデント単位？案件単位？システム単位？etc 27

28.

AIエージェントが長期記憶できる仕組みmem9 参考：https://zenn.dev/ymd65536/articles/tidb_and_databricks_mem9 mem9を使ってTiDB CloudとAzure Databricksで長期記憶を可視化する検証 28

https://zenn.dev/ymd65536/articles/tidb_and_databricks_mem9

29.

インシデント対応はマルチエージェント役割ベースのアーキテクチャでかつマルチエージェントは必須（理由：可用性とパフォーマンスの観点から）さまざまなLLMでAIエージェントを作らないといけない ● 高速なインシデントレスポンスではより小さいLLM ● 精度を求められるインシデントレスポンスではより推論能力が高いLLM ● インシデント対応履歴の要約ではトークンあたりのコスト効率が良いLLM ※LLMと書いていますが、SLMでも良いと思っています。 29

30.

まとめ要件に合う運用設計を前提にシステム運用に立ち向かうエンジニアは単なるインシデント対応者にとどまることなくビルダーになるべきである。 ● 運用の自動化基盤を設計・構築（ビルド） ● AIに任せる領域と人間が承認・介在する領域の棲み分けを慎重に設計 ● マルチモデル/マルチエージェント（役割ベースのアーキテクチャ） ● AIエージェントによるインシデント対応の可用性 30

31.

次回予告 ● .NETラボ勉強会 2026年7月 ○ https://dotnetlab.connpass.com/event/393450/ 31

https://dotnetlab.connpass.com/event/393450/

32.

おわり 32