AIエージェントによるシステム運用の理想と現実

>100 Views

May 23, 26

スライド概要

.NETラボ 勉強会 2026年5月 の登壇資料です。
https://dotnetlab.connpass.com/event/386362/

AIによる要約

### 【要約】AIエージェントによるシステム運用の理想と現実

現在のシステム運用において、AIエージェントは「完全自律型」ではなく、人間の意思決定を補佐する「伴走型(SRE Copilot)」として活用するのが現実的かつ最適解である。

#### 1. SREエージェントの現在地
* 「SREエージェント」という呼称は広義すぎ、現状の技術は「インシデント対応」という特定機能に特化した「SRE Copilot」と呼ぶのが適切である。

#### 2. システム運用におけるAIの役割分担
* 発生前:メトリクス分析による予兆検知、動的しきい値設定による不要アラートの削減
* 発生中:アラートの相関分析、グループ化、根本原因分析(RCA)の提示によるMTTRの短縮
* 発生後:対応履歴の自動要約、タイムライン作成、再発防止に向けたコード修正案の提示

#### 3. 伴走型運用(Human-in-the-Loop)の推奨
* 完全自律型の課題:権限移譲に伴う本番環境の破壊的リスクや説明責任の欠如。
* 伴走型アプローチ:AIが分析とアクションプランのドラフトを作成し、人間が最終的な承認と実行を担うことでリスクを管理する。
* コマンド実行の留意点:推論レイテンシやLLMの可用性リスク、誤実行による二次災害を防ぐため、AIにコマンドを打たせない運用を推奨。

#### 4. 運用エンジニアのあり方
* 「システムを維持する」だけの運用は価値を失いつつある。
* AIによるプロセス自動化を前提とし、今後は全員が「ビルダー(作り手)」へとシフトすることが求められる。

profile-image

Cloud Developer,404ニキ,Microsoft MVP,LINE API Expert,PagerDuty Ambassador,Google Cloud PTE/Tech Influencer,AWS Community Builder, #AIDD #AI駆動開発 #dotnetlab 投稿は個人の見解, #AzPoC

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

各ページのテキスト
1.

AIエージェントによるシステム運用の理想と現実 .NETラボ 勉強会 2026年5月 1

2.

自己紹介 山田顕人(Kento.Yamada) @ymd65536 By the wayの人、404ニキなど呼び方はさまざま 仕事:DevSecOps、クラウドインテグレーション コミュニティ運営:.NETラボ、AI運用、AI駆動開発 受賞歴(9つ、継続中の称号を掲載) ● New! 初代PagerDutyアンバサダー 2

3.

今日話すこと 前半 ● ● ● ● 24/365の有人対応から自動対応への昇華(実績共有) システム運用にAIを導入、うまくいってる例を紹介 有人対応、ルールベース、AIOps、それぞれの違い 後半へのつなぎ:SREエージェントは主語デカだし、厳密には〇〇では? 後半 ● ● ● ● SREとはなんだったか(SREエージェントの話の前にひとつ) Azure SREエージェントはSREなのか PagerDuty SREエージェントではどうか AIエージェントによるシステム運用の理想と現実 3

4.

24/365の有人対応から自動対応への昇華(実績共有) 引用:AI運用勉強会#2 2026/02/04 にライブ配信 https://www.youtube.com/live/y2kCoW4kYO0?si=Y1uTGxni91JGX-Xe&t=971 4

5.

24/365の有人対応から自動対応への昇華(実績共有) 引用:「AI運用勉強会#2」登壇レポート: AMSとAIエージェントが切り拓くクラウド運用の未来 https://iret.media/185536 5

6.

システム運用とAIエージェント 引用: https://www.youtube.com/live/y2kCoW4kYO0?si=gDVH5TiqJSQSuD32&t=1065 6

7.

システム運用とAIエージェント 引用: https://www.youtube.com/live/y2kCoW4kYO0?si=NDNNUrUoghN9ot_v&t=1200 7

8.

こんな感じでシステム運用にAIを取り入れる活動は進ん でいるが、、、、 うまくいっているところとそうでないところでバラバラ うまくできているところの代表例 ● Looker会話分析を使ったインシデント情報分析 ● テクニカルサポート用のサポートデータ検索システム 8

9.

Looker会話分析を使ったインシデント情報分析 運用分析プラットフォーム 引用:「AI運用勉強会#2」登壇レポート: AMSとAIエージェントが切り拓くクラウド運用の未来 https://iret.media/185536 9

10.

Looker会話分析を使ったインシデント情報分析 引用:アーカイブ配信中【事例から学ぶ!】データ定義が 9割—AI分析を正しく動かすための「データの整え方」 https://wake-career.jp/community/events/7d034711-c3d7-473d-9f69-6cb439078c29 10

11.

サポートデータ検索システム サポートデスク担当チーム向けに生成 AI を活用した「問い合わせ要約・検索機能 (以下、cloudpack サポートデータ検索システム)」を開発。 引用:https://www.iret.co.jp/works/24-35.html 11

12.

有人対応、ルールベース、AIOps、それぞれの違い 特徴 有人対応 ルールベース AIOps 柔軟性 非常に高い(未知に対応可) 低い(定義済みのみ) 高い(推論による適応) コスト 非常に高い(人件費) 低い(開発・維持のみ) 中〜低(LLM利用料等) スピード 経験値・熟練度による 即時(スクリプト実行) 高速(分析・提案まで数分) 信頼性 ムラがある(人的ミス) 極めて高い(決定論的) 注意が必要(非決定論的) 12

13.

有人対応 メリット ● コミュニケーションの取りやすさ ● 未知の問題への対応 ● より高度なサポートができる(💰でサポートレベルを変えることも?) ○ ※サポートレベルで金額が異なることは運用ではよくある デメリット ● 人件費 ● 熟練度や経験値による対応レベルの差 ● 人的ミス 13

14.

ルールベース 決定論的な考え方で発生したインシデントを解決する。弊社の監視基盤はコレ メリット ● Runbookで解決方法がコードになる デメリット ● 決まったパターンにのみ効果を発揮する ● Runbookの運用(運用のための運用が必要) 14

15.

AIOps 機械学習をシステム運用に取り入れてインシデントを解決する (昔ながらに言われているもの、今のPagerDutyはこの延長線にある) メリット ● 高い推論力によるインシデントの解決(柔軟性) デメリット ● 対応力への信頼性(誤った判断で対応してしまわないか) ● AI自体の可用性(AIが動作するインフラが不全) 15

16.

それぞれメリット・デメリットを見てきたところで やっぱ、システム運用でも積極的にAI使いたいよね? →SRE エージェントの登場!だがちょっと待ってほしい。 16

17.

in my opinion: SREエージェントは〇〇 「SREエージェント」意味するところは あまりにも大きいのではないだろうか。 17

18.

SREとはなんだったか 引用:https://cloud.google.com/sre?hl=ja 信頼性の高い本番環境システムを実行するための職務 あるいはマインドセット/手法のこと 18

19.

SREの特徴を見てみると 引用:https://cloud.google.com/sre?hl=ja ● コードの記述/サービスの実行 ● トイルの削減 ● 問題の解決と信頼性 19

20.

Azure SREエージェントはSREなのか 結論: 今のところSREと呼ぶにふさわしくない(と考えられる) 理由 ● トイルの削減/システム運用だけをすることをSREと定義して いないから 20

21.

Azure SREエージェントはSREなのか 引用:https://learn.microsoft.com/ja-jp/azure/sre-agent/overview?tabs=task#what-is-sre-agent SREの特徴はあるがSREではない。 問題があったとき自らの考えとビジネス上の意思決定を元にエラーバジェットを意 識してサービスを改善するという本質が抜けている。 21

22.

Azure SREエージェントはSREなのか 機能面からも読み取れる。厳密には SREエージェント ではなく SRE Copilot 22

23.

その裏でPagerDuty SREエージェントではどうか 〜PagerDuty Advancedの紹介〜 引用:https://iret.media/193920 23

24.

直近ではこんな話も 引用:https://atmarkit.itmedia.co.jp/ait/articles/2605/20/news015.html#utm_term=share_sp ● 真に恐ろしいのは一度の失望をきっかけに顧客が競合へと乗り換え、二度と 戻ってこない『信頼の喪失』というロングテールな損失 ● AIが各種運用プロセスを自動化できる今 「限られたコストの中でシステムを維持する」だけの運用は、もはや価値を 失っていく。「これからは全員がビルダー(作り手)になるべきだ」 24

25.

役割毎にAIエージェントが分かれている 名前 説明 SREエージェント インシデントのトリアージと解決を直接的に支援する エージェント Scribeエージェント インシデント対応中のコミュニケーションと記録の自動 化に特化 Shiftエージェント オンコールシフトの管理とスケジュールの競合解決を担 うAIアシスタント Insights エージェント システム運用のデータから、予防的なアプローチと改善 案を提示 Assistantエージェント SlackやTeams内でエンジニアが直接対話するための、汎 用インターフェースとしての役割を持つ 25

26.

PagerDuty SREエージェントは役割ベースのアーキテクチャ システム運用は”誰が” ”何を” “どのように” “どこまで”担当するかが重要 今は自律型運用ではない。 システム運用者が複数のエージェントをオーケストレーションする。 システム運用におけるエージェントを役割で分割して自律型運用を実現する 26

27.

in my opinion: SREエージェントはSRE Copilot(現在地) SRE Agent is “SRE Copilot” とはいえ、それが結論だとさみしいところがある。 「こういうケース(インシデントの状況)を分けて話せば使えるよ」 ということを経験ベースでいくつかお伝えします。 27

28.

インシデントの対応は3つの状態で分割できる インシデント発生前/発生中/発生後 AIまたはサービスで対応することを考えると? 28

29.

インシデント発生前 システムの「平常時の振る舞い」を機械学習ベースでベースライン化し、人間で は気づけない静かな異常を検知して予防 ● ● ● ● メトリクスやログの傾向分析による予兆検知(AIOps) 静的しきい値の動的最適化(不要なアラートの削減) カオスエンジニアリングのシナリオ生成支援 潜在的な設定ミスや脆弱性の継続的スキャン 29

30.

インシデント発生前に使えるAzure ● Azure Monitor (Dynamic Thresholds) ○ インシデントの元になるアラートを点ではなく線で捉える ● Application Insights ○ パフォーマンス低下や例外の急増の自動検知 ● Microsoft Sentinel ○ ログの相関分析による不審な振る舞いの検知 30

31.

インシデント発生中 いかにMTTR(平均修復時間)を短縮するかが焦点になる。 アラートのノイズを削り、エンジニアの初動をアシストするのがAIの役割 ● アラートストームの抑制 ○ 複数アラートの相関分析とインシデントのグルーピング ● 分散トレーシングやエラーログからの根本原因分析(RCA)の自動実行 ● Runbookに基づいた一次対応の提案、または自動実行(これは補足) ○ 安全なバージョンへの自動ロールバックなど 31

32.

インシデント発生中に使えるAzure ● Azure Monitor (Smart Groups) ○ 複数アラートの相関分析と1つのインシデントへの圧縮 ● Copilot for Azure ○ RCA、原因調査 ● Logic Apps / Automation ○ 一次対応の自動化 32

33.

インシデント発生後 対応の経緯を構造化してドキュメント化し、再発防止策をシステムの運用プロセ スにフィードバック ● Slack、Teams等の対応ログやシステムのメトリクス推移からのタイムライン自 動生成 ● ポストモーテム(障害報告書)のドラフト作成 ● 類似インシデントを防ぐためのIaC(Terraformやマニフェスト)の修正案提示 ● アラートのルールの見直し(検知漏れや過検知のフィードバックループ) 33

34.

インシデント発生後に使えるAzure ● Copilot for Azure / Security ○ ドキュメント化 ■ インシデント対応時のエラーログを収集、質問、要約 ● GitHub Copilot ○ 再発防止策の提示 ■ エラーログやアプリケーションコードから原因を特定 34

35.

AIエージェントによるシステム運用の理想と現実 理想と現実の折衷案を見つける必要が出てくる。 自律型運用 vs 伴走型運用 ● AIエージェントにインシデント対応を任せる → 責任の所在が迷子 ● 逆に任せないとなるとルールベースで泥臭く立ち回る必要がある。ジリ貧 ● ルールベースだとシステム運用のためのシステム運用が必要 アプローチ: この業務/システム運用は人間じゃなくてもいいよねと勇気をもって発言すること 35

36.

理想:完全自律型運用(Zero-Touch Operations) 障害対応において、AIエージェントが検知から原因特定、コードの修正、デプロ イ、そして事後レポートの作成までをすべて自己完結する世界観 現実の壁(ブロッカー) ● 権限移譲のリスク ● 説明責任の欠如 ● 未知のコンテキストへの脆弱性: 36

37.

現実:伴走型運用(Human-in-the-Loop / Copilot) AIエージェントを「高度な判断力を持ったオペレーターのバディ」として位置づ け、最終的な意思決定の権限と責任はエンジニアが持つアプローチ ● AIの役割 ○ ダッシュボードからのメトリクス抽出、ログのパースと相関分析、既知のラ ンブックに基づく解決策の提示、実行コマンドのドラフト作成 ● 人間の役割 ○ AIが提示したコンテキストとアクションプランの妥当性評価、実行の承認 (Approve) 37

38.

補足:AIにコマンドは打たせないほうが良い理由 ルールベースと不変 レイテンシの問題 可用性と安全性 決まったコマンドを打つだけな 推論時間を待つよりも、スクリプ LLM自体の可用性リスクや、 ら、ルールベースのアラート処 ト実行の方が圧倒的に早く、障 誤ったコマンドによる「二次災 理で十分 害復旧を妨げない。 害」を考慮すべき。 38

39.

まとめ ● これまでの運用実績からシステム運用とAIエージェントの話 ● SREとはそもそも何なのかを振り返りつつ対応方法の違いを振り返り AIエージェントに関すること(Azure SREとPagerDuty、GitHub Copilot) ● (今のところ)SRE エージェントは支援 ○ 厳密にはSRE Copilot ● インシデント発生時、AIがどのような役割を担うかを解説 今のところシステム運用におけるAIは自律型ではなく伴走型である。 頼もしい相棒ではあるが、任せたままにはできない。 39

40.

次回予告 ● .NETラボ 勉強会 2026年6月 ○ https://dotnetlab.connpass.com/event/390843/ 40

41.

おわり 41