AIエージェントによるシステム運用の理想と現実

499 Views

May 23, 26

#生成ai #システム運用 #aiエージェント #azure #aiops #AIエージェント #SRE #AIOps #自動化

スライド概要

.NETラボ勉強会 2026年5月の登壇資料です。
https://dotnetlab.connpass.com/event/386362/

AIによる要約

### 【要約】AIエージェントによるシステム運用の理想と現実

現在のシステム運用において、AIエージェントは「完全自律型」ではなく、人間の意思決定を補佐する「伴走型（SRE Copilot）」として活用するのが現実的かつ最適解である。

#### 1. SREエージェントの現在地
* 「SREエージェント」という呼称は広義すぎ、現状の技術は「インシデント対応」という特定機能に特化した「SRE Copilot」と呼ぶのが適切である。

#### 2. システム運用におけるAIの役割分担
* 発生前：メトリクス分析による予兆検知、動的しきい値設定による不要アラートの削減
* 発生中：アラートの相関分析、グループ化、根本原因分析（RCA）の提示によるMTTRの短縮
* 発生後：対応履歴の自動要約、タイムライン作成、再発防止に向けたコード修正案の提示

#### 3. 伴走型運用（Human-in-the-Loop）の推奨
* 完全自律型の課題：権限移譲に伴う本番環境の破壊的リスクや説明責任の欠如。
* 伴走型アプローチ：AIが分析とアクションプランのドラフトを作成し、人間が最終的な承認と実行を担うことでリスクを管理する。
* コマンド実行の留意点：推論レイテンシやLLMの可用性リスク、誤実行による二次災害を防ぐため、AIにコマンドを打たせない運用を推奨。

#### 4. 運用エンジニアのあり方
* 「システムを維持する」だけの運用は価値を失いつつある。
* AIによるプロセス自動化を前提とし、今後は全員が「ビルダー（作り手）」へとシフトすることが求められる。

Kento Yamada

@ymd65536

スライド一覧

Cloud Developer,404ニキ,Microsoft MVP,LINE API Expert,PagerDuty Ambassador,Google Cloud PTE/Tech Influencer,AWS Community Builder, #AIDD #AI駆動開発 #dotnetlab 投稿は個人の見解, #AzPoC

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

GitHub Copilot SDKによるマルチコーディングエージェントシステムの開発

生成ai azure aiエージェント github github copilot github copilot cli github copilot sdk

Kento Yamada 4.6K

AIエージェントをAzureにホイっとデリバリーできるMicrosoft Foundryの魔法があることを君たちはまだ知らない

azure 生成ai .net

Kento Yamada 3.5K

AIエージェントの評価、上から見るか？下から見るか？

生成ai azure aiエージェント評価

Kento Yamada 3.3K

GitHub Copilot CLIとSDKで複数のCopilotを起動してA2Aプロトコルで接続する方法

生成ai aiエージェント githubcopilot a2a kubernetes

Kento Yamada 2.1K

Agent Payments Protocol（AP2）の解説

ap2 agentpaymentsprotocol google cloud 生成ai 静止絵生成決済

Kento Yamada 1.9K

さまざまなAgent FrameworkとAIエージェントの評価

生成ai azure adk microsoftagentframework google cloud

Kento Yamada 1.8K

各ページのテキスト

AIエージェントによるシステム運用の理想と現実 .NETラボ勉強会 2026年5月 1

自己紹介山田顕人（Kento.Yamada） @ymd65536 By the wayの人、404ニキなど呼び方はさまざま仕事：DevSecOps、クラウドインテグレーションコミュニティ運営：.NETラボ、AI運用、AI駆動開発受賞歴（９つ、継続中の称号を掲載） ● New! 初代PagerDutyアンバサダー 2

今日話すこと前半 ● ● ● ● 24/365の有人対応から自動対応への昇華（実績共有）システム運用にAIを導入、うまくいってる例を紹介有人対応、ルールベース、AIOps、それぞれの違い後半へのつなぎ：SREエージェントは主語デカだし、厳密には〇〇では？後半 ● ● ● ● SREとはなんだったか（SREエージェントの話の前にひとつ） Azure SREエージェントはSREなのか PagerDuty SREエージェントではどうか AIエージェントによるシステム運用の理想と現実 3

24/365の有人対応から自動対応への昇華（実績共有）引用：AI運用勉強会#2 2026/02/04 にライブ配信 https://www.youtube.com/live/y2kCoW4kYO0?si=Y1uTGxni91JGX-Xe&t=971 4

https://www.youtube.com/live/y2kCoW4kYO0?si=Y1uTGxni91JGX-Xe&t=971

24/365の有人対応から自動対応への昇華（実績共有）引用：「AI運用勉強会#2」登壇レポート： AMSとAIエージェントが切り拓くクラウド運用の未来 https://iret.media/185536 5

https://iret.media/185536

システム運用とAIエージェント引用： https://www.youtube.com/live/y2kCoW4kYO0?si=gDVH5TiqJSQSuD32&t=1065 6

https://www.youtube.com/live/y2kCoW4kYO0?si=gDVH5TiqJSQSuD32&t=1065

システム運用とAIエージェント引用： https://www.youtube.com/live/y2kCoW4kYO0?si=NDNNUrUoghN9ot_v&t=1200 7

https://www.youtube.com/live/y2kCoW4kYO0?si=NDNNUrUoghN9ot_v&t=1200

こんな感じでシステム運用にAIを取り入れる活動は進んでいるが、、、、うまくいっているところとそうでないところでバラバラうまくできているところの代表例 ● Looker会話分析を使ったインシデント情報分析 ● テクニカルサポート用のサポートデータ検索システム 8

Looker会話分析を使ったインシデント情報分析運用分析プラットフォーム引用：「AI運用勉強会#2」登壇レポート： AMSとAIエージェントが切り拓くクラウド運用の未来 https://iret.media/185536 9

https://iret.media/185536

10.

Looker会話分析を使ったインシデント情報分析引用：アーカイブ配信中【事例から学ぶ！】データ定義が 9割—AI分析を正しく動かすための「データの整え方」 https://wake-career.jp/community/events/7d034711-c3d7-473d-9f69-6cb439078c29 10

https://wake-career.jp/community/events/7d034711-c3d7-473d-9f69-6cb439078c29

11.

サポートデータ検索システムサポートデスク担当チーム向けに生成 AI を活用した「問い合わせ要約・検索機能（以下、cloudpack サポートデータ検索システム）」を開発。引用：https://www.iret.co.jp/works/24-35.html 11

https://www.iret.co.jp/works/24-35.html

12.

有人対応、ルールベース、AIOps、それぞれの違い特徴有人対応ルールベース AIOps 柔軟性非常に高い（未知に対応可）低い（定義済みのみ）高い（推論による適応）コスト非常に高い（人件費）低い（開発・維持のみ）中〜低（LLM利用料等）スピード経験値・熟練度による即時（スクリプト実行）高速（分析・提案まで数分）信頼性ムラがある（人的ミス）極めて高い（決定論的）注意が必要（非決定論的） 12

13.

有人対応メリット ● コミュニケーションの取りやすさ ● 未知の問題への対応 ● より高度なサポートができる（💰でサポートレベルを変えることも？） ○ ※サポートレベルで金額が異なることは運用ではよくあるデメリット ● 人件費 ● 熟練度や経験値による対応レベルの差 ● 人的ミス 13

14.

ルールベース決定論的な考え方で発生したインシデントを解決する。弊社の監視基盤はコレメリット ● Runbookで解決方法がコードになるデメリット ● 決まったパターンにのみ効果を発揮する ● Runbookの運用（運用のための運用が必要） 14

15.

AIOps 機械学習をシステム運用に取り入れてインシデントを解決する（昔ながらに言われているもの、今のPagerDutyはこの延長線にある）メリット ● 高い推論力によるインシデントの解決（柔軟性）デメリット ● 対応力への信頼性（誤った判断で対応してしまわないか） ● AI自体の可用性（AIが動作するインフラが不全） 15

16.

それぞれメリット・デメリットを見てきたところでやっぱ、システム運用でも積極的にAI使いたいよね？ →SRE エージェントの登場！だがちょっと待ってほしい。 16

17.

in my opinion: SREエージェントは〇〇「SREエージェント」意味するところはあまりにも大きいのではないだろうか。 17

18.

SREとはなんだったか引用：https://cloud.google.com/sre?hl=ja 信頼性の高い本番環境システムを実行するための職務あるいはマインドセット/手法のこと 18

https://cloud.google.com/sre?hl=ja

19.

SREの特徴を見てみると引用：https://cloud.google.com/sre?hl=ja ● コードの記述/サービスの実行 ● トイルの削減 ● 問題の解決と信頼性 19

https://cloud.google.com/sre?hl=ja

20.

Azure SREエージェントはSREなのか結論：今のところSREと呼ぶにふさわしくない（と考えられる）理由 ● トイルの削減/システム運用だけをすることをSREと定義していないから 20

21.

Azure SREエージェントはSREなのか引用：https://learn.microsoft.com/ja-jp/azure/sre-agent/overview?tabs=task#what-is-sre-agent SREの特徴はあるがSREではない。問題があったとき自らの考えとビジネス上の意思決定を元にエラーバジェットを意識してサービスを改善するという本質が抜けている。 21

https://learn.microsoft.com/ja-jp/azure/sre-agent/overview?tabs=task#what-is-sre-agent

22.

Azure SREエージェントはSREなのか機能面からも読み取れる。厳密には SREエージェントではなく SRE Copilot 22

23.

その裏でPagerDuty SREエージェントではどうか〜PagerDuty Advancedの紹介〜引用：https://iret.media/193920 23

https://iret.media/193920

24.

直近ではこんな話も引用：https://atmarkit.itmedia.co.jp/ait/articles/2605/20/news015.html#utm_term=share_sp ● 真に恐ろしいのは一度の失望をきっかけに顧客が競合へと乗り換え、二度と戻ってこない『信頼の喪失』というロングテールな損失 ● AIが各種運用プロセスを自動化できる今「限られたコストの中でシステムを維持する」だけの運用は、もはや価値を失っていく。「これからは全員がビルダー（作り手）になるべきだ」 24

https://atmarkit.itmedia.co.jp/ait/articles/2605/20/news015.html#utm_term=share_sp

25.

役割毎にAIエージェントが分かれている名前説明 SREエージェントインシデントのトリアージと解決を直接的に支援するエージェント Scribeエージェントインシデント対応中のコミュニケーションと記録の自動化に特化 Shiftエージェントオンコールシフトの管理とスケジュールの競合解決を担うAIアシスタント Insights エージェントシステム運用のデータから、予防的なアプローチと改善案を提示 Assistantエージェント SlackやTeams内でエンジニアが直接対話するための、汎用インターフェースとしての役割を持つ 25

26.

PagerDuty SREエージェントは役割ベースのアーキテクチャシステム運用は”誰が” ”何を” “どのように” “どこまで”担当するかが重要今は自律型運用ではない。システム運用者が複数のエージェントをオーケストレーションする。システム運用におけるエージェントを役割で分割して自律型運用を実現する 26

27.

in my opinion: SREエージェントはSRE Copilot（現在地） SRE Agent is “SRE Copilot” とはいえ、それが結論だとさみしいところがある。「こういうケース（インシデントの状況）を分けて話せば使えるよ」ということを経験ベースでいくつかお伝えします。 27

28.

インシデントの対応は3つの状態で分割できるインシデント発生前/発生中/発生後 AIまたはサービスで対応することを考えると？ 28

29.

インシデント発生前システムの「平常時の振る舞い」を機械学習ベースでベースライン化し、人間では気づけない静かな異常を検知して予防 ● ● ● ● メトリクスやログの傾向分析による予兆検知（AIOps）静的しきい値の動的最適化（不要なアラートの削減）カオスエンジニアリングのシナリオ生成支援潜在的な設定ミスや脆弱性の継続的スキャン 29

30.

インシデント発生前に使えるAzure ● Azure Monitor (Dynamic Thresholds) ○ インシデントの元になるアラートを点ではなく線で捉える ● Application Insights ○ パフォーマンス低下や例外の急増の自動検知 ● Microsoft Sentinel ○ ログの相関分析による不審な振る舞いの検知 30

31.

インシデント発生中いかにMTTR（平均修復時間）を短縮するかが焦点になる。アラートのノイズを削り、エンジニアの初動をアシストするのがAIの役割 ● アラートストームの抑制 ○ 複数アラートの相関分析とインシデントのグルーピング ● 分散トレーシングやエラーログからの根本原因分析（RCA）の自動実行 ● Runbookに基づいた一次対応の提案、または自動実行（これは補足） ○ 安全なバージョンへの自動ロールバックなど 31

32.

インシデント発生中に使えるAzure ● Azure Monitor (Smart Groups) ○ 複数アラートの相関分析と1つのインシデントへの圧縮 ● Copilot for Azure ○ RCA、原因調査 ● Logic Apps / Automation ○ 一次対応の自動化 32

33.

インシデント発生後対応の経緯を構造化してドキュメント化し、再発防止策をシステムの運用プロセスにフィードバック ● Slack、Teams等の対応ログやシステムのメトリクス推移からのタイムライン自動生成 ● ポストモーテム（障害報告書）のドラフト作成 ● 類似インシデントを防ぐためのIaC（Terraformやマニフェスト）の修正案提示 ● アラートのルールの見直し（検知漏れや過検知のフィードバックループ） 33

34.

インシデント発生後に使えるAzure ● Copilot for Azure / Security ○ ドキュメント化 ■ インシデント対応時のエラーログを収集、質問、要約 ● GitHub Copilot ○ 再発防止策の提示 ■ エラーログやアプリケーションコードから原因を特定 34

35.

AIエージェントによるシステム運用の理想と現実理想と現実の折衷案を見つける必要が出てくる。自律型運用 vs 伴走型運用 ● AIエージェントにインシデント対応を任せる → 責任の所在が迷子 ● 逆に任せないとなるとルールベースで泥臭く立ち回る必要がある。ジリ貧 ● ルールベースだとシステム運用のためのシステム運用が必要アプローチ：この業務/システム運用は人間じゃなくてもいいよねと勇気をもって発言すること 35

36.

理想：完全自律型運用（Zero-Touch Operations）障害対応において、AIエージェントが検知から原因特定、コードの修正、デプロイ、そして事後レポートの作成までをすべて自己完結する世界観現実の壁（ブロッカー） ● 権限移譲のリスク ● 説明責任の欠如 ● 未知のコンテキストへの脆弱性: 36

37.

現実：伴走型運用（Human-in-the-Loop / Copilot） AIエージェントを「高度な判断力を持ったオペレーターのバディ」として位置づけ、最終的な意思決定の権限と責任はエンジニアが持つアプローチ ● AIの役割 ○ ダッシュボードからのメトリクス抽出、ログのパースと相関分析、既知のランブックに基づく解決策の提示、実行コマンドのドラフト作成 ● 人間の役割 ○ AIが提示したコンテキストとアクションプランの妥当性評価、実行の承認（Approve） 37

38.

補足：AIにコマンドは打たせないほうが良い理由ルールベースと不変レイテンシの問題可用性と安全性決まったコマンドを打つだけな推論時間を待つよりも、スクリプ LLM自体の可用性リスクや、ら、ルールベースのアラート処ト実行の方が圧倒的に早く、障誤ったコマンドによる「二次災理で十分害復旧を妨げない。害」を考慮すべき。 38

39.

まとめ ● これまでの運用実績からシステム運用とAIエージェントの話 ● SREとはそもそも何なのかを振り返りつつ対応方法の違いを振り返り AIエージェントに関すること（Azure SREとPagerDuty、GitHub Copilot） ● （今のところ）SRE エージェントは支援 ○ 厳密にはSRE Copilot ● インシデント発生時、AIがどのような役割を担うかを解説今のところシステム運用におけるAIは自律型ではなく伴走型である。頼もしい相棒ではあるが、任せたままにはできない。 39

40.

次回予告 ● .NETラボ勉強会 2026年6月 ○ https://dotnetlab.connpass.com/event/390843/ 40

https://dotnetlab.connpass.com/event/390843/

41.

おわり 41