7.3K Views
August 28, 23
スライド概要
ゆるSRE勉強会 #1のLT発表資料です
https://yuru-sre.connpass.com/event/292063/
経済ニュースアプリのSREの仕事をしています。
ゆるSRE勉強会 #1 SREチームの定例、色々やってるので アジェンダと確認ポイントをまとめて紹介 2023/8/28 Yuki Ando
自己紹介 Yuki Ando / あんどぅ NewsPicksのSREチームリーダー&エンジニア採用担当 趣味:アニメ、サウナ、蒙古タンメン中本 2
はじめに ゆるSREということなので オチのある話はしません!!!! こんなSRE現場もあるよという紹介です 3
SREチームのミッションと4つの軸 インフラチーム+開発基盤チームが合体したイメージ。開発基盤の開発を結構やってます 例:デプロイパイプラインのチャットボットやワークフロー開発、本番→開発データ同期ツール ユーザー体験を守る 開発者体験を高める 常にユーザー視点のモニタリングを行い、可用性やレイテ ンシーのSLO達成を通じて快適なユーザー体験を提供する メディアとしてニュースのスパイクアクセスを難なく捌く ユーザーに価値を届けるプロダクト開発のパフォーマンスを 最大化するため、開発者の負を取り除き快適・安全・高速に 使える開発基盤サービスを提供する レガシーを捨てる セキュリティ・コストを適正化する レガシーなサーバーOSやミドルウェア、言語ランタイム、 アーキテクチャーを継続的に刷新していく モダンな技術スタックによりエンジニア採用の競争力を 高め、プロダクト開発組織の成長阻害要因を取り除く SNSの側面があるソーシャル経済メディアをユーザーが安心 して利用できるセキュリティを確保する サービスの規模拡大に比例してサーバーのコストが増えない ようにし、売上に対するコストの割合を低くする 4
SREチームの仕事の進め方 スクラムをベースにした開発サイクル 参考:カンバン vs スクラム、どちらのアジャイルですか? https://www.atlassian.com/ja/agile/kanban/kanban-vs-scrum - 2週間のスプリントを計画 - プロダクトオーナーは不在(リーダーが説明責任を果たす) なのでスプリントレビューはない - スクラムマスターは決まっていない スプリント計画やデイリーの司会は全員で回り持ち 5
SREチームの定例ミーティング 日次・週次・隔週・月次で色々やってます 月次 隔週 週次 コスト Debug Friday ふりか えり 日次 朝会+ Securi ty Day 朝会 スプリ ント計 画 SLO リファ インメ ント 6
スクラムイベントに対応しないものも多い 「レトロスペクティブ」「プランニング」とかかっこいい呼び方はしないスタイル タイミング 会議体 スクラム用語との対応 日次 朝会 デイリースクラム 週次 朝会+ コストモニタリング定例 SLOモニタリング定例 ー 隔週 ふりかえり タスクリファインメント スプリント計画 Debug Friday レトロスペクティブ バックログリファインメント スプリントプランニング ー 月次 Security Day ー 7
SREチームの定例ミーティング 日次・週次・隔週・月次で色々やってます 月次 隔週 週次 コスト Debug Friday ふりか えり 日次 朝会+ Securi ty Day 朝会 スプリ ント計 画 SLO リファ インメ ント 8
朝会 いわゆるデイリースクラムだが、異常検出や他チームの状況キャッチに重点を当てる ・Slackチャンネルチェック システムのSOSチャンネル、プロダクト全体チャンネル、アラートチャンネル、 コスト異常検出、自チーム宛の依頼をキャッチしてチケット化 ・デイリースクラム 昨日やったこと・今日やること・困ってることの共有 Clickupでチケット管理しているのでメンバー別にチケットをフィルターしながら ・PRレビューのアサイン・リリース確認 レビュー待ちのPRがあれば誰がレビューするかをその場で決める レビュー済みのPRはいつ誰がリリースするかを確認する PRは可能な限り早くリリースする 9
SREチームの定例ミーティング 日次・週次・隔週・月次で色々やってます 月次 隔週 週次 コスト Debug Friday ふりか えり 日次 朝会+ Securi ty Day 朝会 スプリ ント計 画 SLO リファ インメ ント 10
朝会+ 毎週月曜日の朝会は、通常の朝会に以下を加える ・リーダー会共有(事業状況・全社通達事項など) 事業の状況や総務連絡、プロダクト開発組織の方針などを共有 ・チームの開発生産性モニタリング Findy Team+を利用してチームのFour Keysメトリクスなどをモニタリング デプロイ頻度やレビューのリードタイムなどを確認しチーム運営を見直す ・DevOpsメトリクスのモニタリング 開発者体験を向上することがミッションのチームとして、 プロダクト開発組織全体のデプロイ頻度やビルド時間をモニタリング CloudWatchアラームなどアラート状態の監視がないかも確認してエスカレーション 11
SLOモニタリング定例 エンドポイントごとに決めたSLOの準拠状況と、アラートや問い合わせに対するターゲットの調整 サイトリライアビリティワークブックより: 12
コストモニタリング定例 スプシ芸でAWSコストをモニタリング 13
SREチームの定例ミーティング 日次・週次・隔週・月次で色々やってます 月次 隔週 週次 コスト Debug Friday ふりか えり 日次 朝会+ Securi ty Day 朝会 スプリ ント計 画 SLO リファ インメ ント 14
ふりかえり・タスクリファインメント・スプリント計画 一般的なスプリントイベントとそんなに違わないと思う ・ふりかえり KPTやStarfishなど色々試したが、SREチームではYWTに落ち着いている インフラの対応は個別性と個人の学びが大きいのでやったこと・わかったことの共有は良い ・タスクリファインメント バックログリファインメントではなく、タスクのリファインメント インフラは差し込み優先タスクがあったりするので、バックログの整理とは限らない ・スプリント計画 前スプリントをクローズしてスプリントポイントを確定 ベロシティを計測して、祝日や勤怠など稼働量を反映して翌スプリントのポイント数を決定。 スプリントポイントに対してタスクを見積もってリファインメントされたタスクをスプリント に投入 15
SREチームの定例ミーティング 日次・週次・隔週・月次で色々やってます 月次 隔週 週次 コスト Debug Friday ふりか えり 日次 朝会+ Securi ty Day 朝会 スプリ ント計 画 SLO リファ インメ ント 16
エラー対応とセキュリティ対応に集中する日 なにも設定しないと、四半期のプロジェクト目標や緊急対応に追われがちなので ・Debug Friday Bugsnagにエラーが出ているが、頻度の低いエラーがレポートされても対応されないことも ある。適切にbugfixのチケット化をしたり、担当チームにエスカレーションして 対応も担当も決まっていないエラーを潰しこむ ・Security Day ライブラリやクラウド設定の脆弱性対応を集中的にチケット化 ライブラリ脆弱性はyamory、クラウド設定はSecurityHubをモニタリングして 優先度の高いものを、次スプリントに入れる 17
おわりに オチはありません!! こんなSRE現場もあるよという紹介でした 18