3-shake SRE Tech Talk #3 SLO違反への対処を継続的に改善する試み

SRE Tech Talk #3 SLO違反への対処を継続的に改善する試み 2022/3/18 Yuki Ando

Yuki Ando / あんどぅ AWS好きの駆け出しSRE 経済ニュースメディアのSREチーム所属好きなAWSのサービス：ECS、CodeDeploy 好きなSREのプラクティス：SLO、非難なきポストモーテム文化 @integrated1453 JAWS-UG SRE支部 AWS認定ネットワーク本 2

3.

＼突然ですがみなさん／

4.

SLO違反への対処やってますか？？🤔

5.

今日話すこと（所属会社の事業やSREとは何かについては触れません） 1 SLO違反への対処とは 2 SLO違反への対処をどうやって改善するか 3 わかったこと 5

6.

今日話すこと 1 SLO違反への対処とは 2 SLO違反への対処をどうやって改善するか 3 わかったこと 6

7.

SREが関わるテーマ信頼性に関わることすべて： SRE Book 目次より SLO トイルの撲滅分散システムのモニタリング自動化リリースエンジニアリングインシデント対応ポストモーテムと根本原因分析オンコール対応過負荷への対応 …etc 7

8.

サービスレベル目標(SLO) 顧客体験(CUJ)からSLI/SLOを決め、SLOを基準にサイトの信頼性を維持していく POINT 01 02 03 クリティカルユーザーサービスレベル指標サービスレベル目標ジャーニー(CUJ) (SLI) (SLO) SLOの主眼は顧客体験のユーザーにとって重要であ SLIで計測されるサービス改善。ユーザーにとって重ると考えられるサービスのレベルのターゲット値要なサービス上のタスクのアウトカムに対する評価と顧客が満足するレベルにステップを補足するその計測方法調整していく POINT POINT 8

9.

サービスレベル目標(SLO) 顧客体験(CUJ)からSLI/SLOを決め、SLOを基準にサイトの信頼性を維持していく APIのリクエスト成功率記事ページのレイテンシーをアクセスログから計測するスマホアプリからプッシュ通知された最新の経済ニュースを読みたい 100ms以内で応答したリクエストの割合>80% 可用性>99.8% POINT 01 02 03 クリティカルユーザーサービスレベル指標サービスレベル目標ジャーニー(CUJ) (SLI) (SLO) SLOの主眼は顧客体験のユーザーにとって重要であ SLIで計測されるサービス改善。ユーザーにとって重ると考えられるサービスのレベルのターゲット値要なサービス上のタスクのアウトカムに対する評価と顧客が満足するレベルにステップを補足するその計測方法調整していく POINT POINT 9

10.

教科書的なSLI/SLO 「サイトリライアビリティワークブック 2章 SLOの実装」を参考に作成 SLIの種類 SLI 顧客の階層 SLO 可用性リクエスト成功率有料会員 99.9%以上無料会員 99.8%以上モバイルアプリ 90%以上 Web 80%以上モバイルアプリ 99%以上 Web 95%以上レイテンシー 100ms以内のレスポンス 1000ms以内のレスポンス

11.

SREが関わるテーマ信頼性に関わることすべて： SRE Book 目次より SLO トイルの撲滅分散システムのモニタリング自動化リリースエンジニアリング SLO違反への対処インシデント対応ポストモーテムと根本原因分析オンコール対応過負荷への対応 …etc 11

12.

「サイトリライアビリティワークブック付録B エラーバジェットポリシー」より SLO違反のポリシー以下の場合、チームは機能の開発作業の代わりに信頼性に関する作業をしなければならない。コードのバグあるいは手続き的なエラーがサービスそのもののエラーバジェット超過を引き起こした。ストモーテムによって強い依存性を和ら分類を間違えられたエラーる必要明らかになった。、サースのSLO違反の原因となるようにエラーェットをきちんと消費しなかった。「信頼性こそが、あらゆるプロダクトの基本的な機能である」というSREの発想のもと、 SLO/エラーバジェットポリシーが信頼性の門番として機能するようにみえるジバがげビ 12 がポ教科書的なエラーバジェットポリシー

13.

つまりこういうこと？ SLOをモニタリングして、SREが信頼性の門番になる？ SRE？開発チームあ、SLO違反になってる😠 みんな〜〜！信頼性を回復するために機能の開発中断するやで〜〜〜！！！💪

14.

つまりこういうこと？ SLOをモニタリングして、SREが信頼性の門番になる？ SRE？開発チームは？は？あ、SLO違反になってる😠 みんな〜〜！信頼性を回復するために機能の開発中断するやで〜〜〜！！！💪 は？は？は？は？は？は？

15.

SLO違反したら全開発チームの作業止めるとか現実的にはありえない

16.

「SREの探求 22章成功の文化としてのSRE」よりフェー 1 : 消火活動/事後対応「システムを何とか動かし続ける」と同時に、自動化を通て新たなアローチを構築フェー 2 : 門番ロクションシステムに対する変更は必承認を受けて通過しなけれフェー 3 : 支持者/ 合意したターットをートナーならない唯一の関門として機能するートナー達成し、その後も引き続き満足していけるように支援するフェー 4 : 触媒あらゆるサースの構想から廃止まに関与して、適切なツールを提供きるように支援するプでばじずパでがパゲビズズズズ 16 ダプ SRE実施のフェーズ

17.

「門番」から「支持者」へ開発チームがSLOのモニタリングと改善を自走できるまでは、信頼性を高めるサポートをする SRE 開発チームこの前リリースしたAPIが原因で、ページを表示するまでの時間が遅くなってるみたいです〜ありがとう！ユーザーのために機能を追加したのに、ユーザー体験が悪くなるところだった🙏

18.

「門番」から「支持者」へ Google CloudのBlogにもいいことが書いてありました SLO の規定内でサービスが稼働していたとしても、積極的に信頼性を向上させることは、障害の将来的なリスクを抑え、効率性を改善し、そしてコスト削減につながります。一方、SLO を満たしていないからといって、すぐに内部での機能開発を完全にやめてしまう組織はほとんどありません。 (中略) 関連する開発チームにも知らせましょう。このプロセスは手動でもかまいません。SRE チームは違反をフィルターにかけて集約し、意味のあるコンテキストを提供するなど価値を付け加えることも可能です。 https://cloud.google.com/blog/ja/products/gcp/consequences-of-slo-violations-cre-life-lessons

https://cloud.google.com/blog/ja/products/gcp/consequences-of-slo-violations-cre-life-lessons

19.

／違反をフィルターにかけて集約し、意味のあるコンテキストを提供するなど価値を付け加える＼

20.

エスカレーションするまでの時間も信頼性に影響「SREの探求 4章インシデントのメトリクスを用いたSREの大規模な改善」より適切なエンジニアが関与するまでのエンゲージ時間(TTE)がインシデント全体の軽減時間(TTM)に含まれる SLO違反への対処として、エラーバジェットを消費する原因となった機能および担当チームを素早く特定する必要がある

21.

SLO違反時のSREからの見え方 Webのレイテンシーが問題ということしかわからない。この状態からどうする？ SLIの種類 SLI 顧客の階層 SLO 可用性リクエスト成功率有料会員 99.9%以上無料会員 99.8%以上モバイルアプリ 90%以上 Web 80%以上モバイルアプリ 99%以上 Web 95%以上レイテンシー 100ms以内のレスポンス 1000ms以内のレスポンス

22.

／エラーバジェットを消費する原因となった機能と担当チームを素早く特定して、信頼性を回復するための情報提供をしたい＼

23.

今日話すこと 1 SLO違反への対処とは 2 SLO違反への対処をどうやって改善するか 3 わかったこと 23

24.

SLO違反からエスカレーションまでの調査アクセスログを集計してSLOをモニタリングしている場合 SLO違反となったタイムウィンドウよりも高解像度でSLOを確認する 1dayのSLO違反であれば、hourlyのSLO達成状況を見て、悪化している時間帯を特定するエラーレートやレイテンシーが高いAPIエンドポイントを特定するエンドポイント別のエラーレート・レイテンシーの集計を行い、過去の傾向と比較するエラーバジェットの消費が発生し始めた時間帯の前後のイベントを確認する機能のリリース、インフラ作業、エンドユーザーへのPush通知、マスプロモーションインフラリソースのプロビジョニングが十分だったかを確認する ECSのタスク数、DBのCPUやメモリ使用率、I/Oスループット 24

25.

毎回実施するのは大変なので、 New Relicで素早く確認できるようにしました

26.

SLO違反からエスカレーションまでの調査アクセスログを集計してSLOをモニタリングしている場合 SLO違反となったタイムウィンドウよりも高解像度でSLOを確認する 1dayのSLO違反であれば、hourlyのSLO達成状況を見て、悪化している時間帯を特定するエラーレートやレイテンシーが高いAPIエンドポイントを特定するエンドポイント別のエラーレート・レイテンシーの集計を行い、過去の傾向と比較するエラーバジェットの消費が発生し始めた時間帯の前後のイベントを確認する機能のリリース、インフラ作業、エンドユーザーへのPush通知、マスプロモーションインフラリソースのプロビジョニングが十分だったかを確認する ECSのタスク数、DBのCPUやメモリ使用率、I/Oスループット 26

27.

直近24hに絞り込んで詳細を確認するリンクをブックマーク登録 SLOアラートを検知後、24h以内のSLO達成状況を確認するダッシュボードのリンクを登録アクセスログを都度集計していると毎回時間がかかるので、リンクから一瞬で確認できるのは便利です。 27

28.

SLO違反からエスカレーションまでの調査アクセスログを集計してSLOをモニタリングしている場合 SLO違反となったタイムウィンドウよりも高解像度でSLOを確認する 1dayのSLO違反であれば、hourlyのSLO達成状況を見て、悪化している時間帯を特定するエラーレートやレイテンシーが高いAPIエンドポイントを特定するエンドポイント別のエラーレート・レイテンシーの集計を行い、過去の傾向と比較するエラーバジェットの消費が発生し始めた時間帯の前後のイベントを確認する機能のリリース、インフラ作業、エンドユーザーへのPush通知、マスプロモーションインフラリソースのプロビジョニングが十分だったかを確認する ECSのタスク数、DBのCPUやメモリ使用率、I/Oスループット 28

29.

API別のレスポンスやエラー率を、直近1日と1週間で比較 SLOアラートを検知後、24h以内の500Errorとレイテンシーが高い順ランキングを、直近1週間と比較 29

30.

SLO違反からエスカレーションまでの調査アクセスログを集計してSLOをモニタリングしている場合 SLO違反となったタイムウィンドウよりも高解像度でSLOを確認する 1dayのSLO違反であれば、hourlyのSLO達成状況を見て、悪化している時間帯を特定するエラーレートやレイテンシーが高いAPIエンドポイントを特定するエンドポイント別のエラーレート・レイテンシーの集計を行い、過去の傾向と比較するエラーバジェットの消費が発生し始めた時間帯の前後のイベントを確認する機能のリリース、インフラ作業、エンドユーザーへのPush通知、マスプロモーションインフラリソースのプロビジョニングが十分だったかを確認する ECSのタスク数、DBのCPUやメモリ使用率、I/Oスループット 30

31.

デプロイのイベントとエラー／レイテンシーの変化を確認する New RelicのDeployment MarkerをCI/CDに組み込み、変化のトリガーになってそうな変更を特定 Deployしたユーザーとrevisionを特定 31

32.

SLO違反からエスカレーションまでの調査アクセスログを集計してSLOをモニタリングしている場合 SLO違反となったタイムウィンドウよりも高解像度でSLOを確認する 1dayのSLO違反であれば、hourlyのSLO達成状況を見て、悪化している時間帯を特定するエラーレートやレイテンシーが高いAPIエンドポイントを特定するエンドポイント別のエラーレート・レイテンシーの集計を行い、過去の傾向と比較するエラーバジェットの消費が発生し始めた時間帯の前後のイベントを確認する機能のリリース、インフラ作業、エンドユーザーへのPush通知、マスプロモーションインフラリソースのプロビジョニングが十分だったかを確認する ECSのタスク数、DBのCPUやメモリ使用率、I/Oスループット 32

33.

SLOとインフラリソース状況を同じダッシュボードで確認できるようにする New RelicのAWSインテグレーションでSLOダッシュボードにECSタスク数やCPU使用率を表示インフラがソフトウェアの機能特性やユーザーのアクセスパターンが変化したことに対応できているかを確認 33

34.

今日話すこと 1 SLO違反への対処とは 2 SLO違反への対処をどうやって改善するか 3 わかったこと 34

35.

わかったことコンテキストを補足して開発チームへのエスカレーションを早めることがサイト信頼性を高めることにつながるので、日々のSLO違反への対処を地道に改善していくとよい SLO違反の発生検出時間インシデント継続… エンゲージ時間検出時間エンゲージ時間修正時間信頼性回復・SLO再遵守 35

36.

＼ご清聴ありがとうございました／

3-shake SRE Tech Talk #3 SLO違反への対処を継続的に改善する試み

Yuki Ando

関連スライド

3年間運用したCDKの失敗から学ぶCDK開発のプラクティス

意外とマネージドなECS on EC2の運用

SREチームがNew Relicを使って AWSコスト最適化に貢献した話

AWSコストを全体で43.75%削減するためのコストモニタリング技術

インフラエンジニア・SREを経てCTOになるために必要だったこと

プロダクト開発エンジニア全員で取り組むオブザーバビリティ

各ページのテキスト