SRE文化の導入とプラットフォームの信頼性向上の取り組み

22.5K Views

August 04, 24

#SRE #プラットフォーム信頼性 #マルチテナント #負荷試験 #開発スピード

スライド概要

SRE NEXT 2024

mugi

@mugioka

スライド一覧

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

Backstage のプラグイン使って色々可視化してみた

mugi 17.2K

猫でも分かるUnreal Engineの学び方 - 超初心者向け編 - 2023 v1.0

ue4 ue5 ue-beginner

エピックゲームズジャパン 1.6M

Unreal Engine5 Lumenの仕組みと肝心なところ

ue5 ue-rendering ue-lumen

エピックゲームズジャパン 1.3M

Meta XR SDK(V66-74)でQuestアプリを開発

spatial anchor unity quest pro shaperecognizeractivatestate oculus integration transformfeaturestateprovider building blocks transformrecognizeractivestate ovrsemanticclassification jointdeltaprovider ovrscenemanager jointvelocityactivestate オクルージョン sequenceactivestate scene manager ambisonic depth api metaxraudiosource playerlocomotor meta xr sdk quest3 ovrplayercontroller マルチモーダル meta haptics studio direct touch ui meta xr haptics sdk ovrspatialanchor ovrtrackedkeyboard hapticclipplayer fingerfeaturestateprovider hapticclip ワイドモーションモード wmm mruk mr utility kit voice sdk jointrotationactivestate meta horizon os ui set asw application spacewarp ovr metrics tool unityscene manager colocation discovery コロケーション mx ink passthrough camera api hand tracking microgestures webcamtexturemanager passthroughcamerautils cameraviewermanager hand pose selector recorder

あうぜん 1M

UE5レンダリングフロー総おさらい(2024) 基礎編！[CEDEC+KYUSHU 2024]

ue5 unreal engine ue-rendering

エピックゲームズジャパン 1M

各ページのテキスト

SRE文化の導入とプラットフォームの信頼性向上の取り組み株式会社 CAM / 株式会社サイバーエージェント岡麦 SRE NEXT 2024

プロフィール岡麦 - 2022年度新卒入社株式会社サイバーエージェント/株式会社 CAMへ出向 - 社内プラットフォームの運用・保守をメインとして活動 @mugiokax #Kubernetes #Istio #Datadog @mugioka

会社紹介株式会社 CAM 2025年で設立 25周年サイバーエージェントで最初にできた子会社エンタメコンテンツ、ビジネスバラエティメディア、ライフスタイルメディアを主軸に 30サービス以上を開発・運用エンジニアは約60名

本セッションで話すこと「高品質なサービスを、より早くユーザーに提供」し、開発者によるビジネスインパクトを最大化するために、「Fensi Platform」という独自のマルチテナント型プラットフォームを構築しています 20以上のサービスがプラットフォーム上で稼働

本セッションで話すことマルチテナントってやっぱり難しい 1. プラットフォームの信頼性・全体最適 2. 突発的な負荷が発生するサービスの信頼性・個別最適これらをコントロールしながら、円滑なサービス開発が行える必要がある

本セッションで話すこと開発者、ビジネス職の方を巻き込みながら二つの軸となる信頼性のコントロールに取り組んでいる事例を紹介します

1.Fensi Platform の信頼性 2.突発的な負荷が発生するサービスの信頼性 3.開発スピードを落とさず信頼性をコントロールする 4.終わりに

Fensi Platform の信頼性

マルチテナント型プラットフォームの課題複数のサービスをプラットフォーム上で同時に支えるということは... 「1つのサービスが過負荷になっても、他のサービスの信頼性はコントロールし全体最適化を行える必要がある」先行チケット販売やグッズ販売などが定期的に発生するファンビジネスでは、これが難しい...

10.

負荷試験で浮き彫りになる課題ファンクラブサイトのイベントに備えて負荷試験を実施複数のサービスが依存している決済サーバーが不安定になる芋づる式に、他のサーバーも不安定になるプラットフォームで稼働している全サービスの様々な機能が不安定に...

11.

負荷試験から学んだ大切なこと常に「最悪の状態」を想定し、それに対する対応を考えておくことで自分達で信頼性をコントロールできるようにしておく必要がある複数のサービスを同時に支えるプラットフォームの場合は、特に「全体最適化」に気を配り続ける必要がある

12.

学びをシステムに反映する Envoy Global rate limiting を活用したテナントごとの流量制限「過負荷状態」を想定した信頼性のコントロールプラットフォームで稼働しているサービス全体の信頼性のコントロール、影響範囲の極小化＝全体最適化 https://developers.cyberagent.co.jp/blog/archives/41989/

https://developers.cyberagent.co.jp/blog/archives/41989/

13.

ガードレールと信頼性のコントロールガードレールを整備することで、信頼性のコントロールが行える場所を増やす - Rate Limiting Circuit Breaker WAF 様々な場所で蛇口を閉められる = 信頼性のコントロールがしやすくなる

14.

突発的な負荷が発生するサービスの信頼性

15.

全体最適化と個別最適化「最悪の状態」を想定した「信頼性のコントロール」を行うことによって「全体最適化」は行えるようになったがファンクラブサイトを利用しているユーザーから見たときに流量制限がされている状態は「信頼性が高い」と言えるのか理想は「最悪の状態」を想定しつつも、流量制限が行われず、サービスに要求されたユーザーのニーズに応えられることつまり、「全体最適化」が行えるプラットフォーム上で「個別最適化」も行える必要がある

16.

信頼性はシステムだけでコントロールできないファンクラブサイトの様な、ある特定のイベントの時だけ「リクエスト数が x00倍になる」ようなサービスの信頼性はシステムだけでコントロールできるのか？システムを構築して、放置しとけばよしなにユーザーのニーズに対応してくれるのか？オートスケーリング？サーバーレス？ FaaS？

17.

信頼性はシステムだけでコントロールできない「リクエスト数が x00倍になる」様な状況下では「適切な負荷の見積もり」「サーバーの事前スケールアップ・アウト」などを「人」が行う必要がある

18.

連携して信頼性をコントロールするビジネス職の方はよりユーザーのニーズを把握し、イベントに対するユーザーの動向に詳しい開発者はサービスのドメインに詳しい SRE はプラットフォームのキャパシティに詳しいそれぞれの強みを生かし、協調することで「突発的負荷」が発生するファンクラブサイトの様なサービスの「個別最適化」を行う

19.

すとふぁみの事例突発的負荷が発生するイベントへの対応 1. 2. 3. 4. イベント情報の記入ビジネス職キャパシティプランニング SRE/開発者イベント仕様の擦り合わせビジネス職 /SRE/開発者イベントの実施

20.

すとふぁみの事例 ~ イベント情報の記入キャパシティプランニングに必要な情報を集める「イベントの時間帯や告知方式」「予想されるユーザーの流入数」

21.

すとふぁみの事例 ~ キャパシティプランニングユーザーのニーズに応えるために、負荷試験や過去のイベントの振り返りを行う「想定されるリクエスト数を捌けるスペックの見積り」「パフォーマンスチューニング」「Istio Fault Injection を活用した異常ケースの観測」

22.

すとふぁみの事例 ~ イベント仕様の擦り合わせ過負荷に陥ってしまった場合、プラットフォームの「全体最適化」を行うために「流量制限」を行うことへの合意過負荷に陥らせないために、「告知方法の変更」や「ユーザーの導線の分散」を行うことができないかの相談

23.

すとふぁみの事例 ~ イベントの実施イベントがうまく行けば大ハッピーうまくいかなかったパターンでも「信頼性をコントロール」できる様に想定をしておく「データストアが過負荷になってしまった」「サイトの機能がほとんど使えなくなってしまった」

24.

組織として信頼性に向き合う様々な職種の方と連携し「プラットフォーム特有のこと」「サービス特有のこと」などを理解してもらうことで「組織として信頼性に向き合い」より「ユーザーのニーズを満たすサービス」を提供していく

25.

開発スピードを落とさず信頼性をコントロールする

26.

開発スピードと信頼性はトレードオフ？開発スピードが上がる = リリース数が増えるリリース数が増える = 信頼性に影響をきたしやすくなる信頼性の維持に固執 = リリースにより慎重になるリリースにより慎重になる = 新しい価値をユーザーに届ける開発スピードが低下する開発スピードが上がり、リリース数が増え、信頼性に影響をきたしやすくなってもロールしたい信頼性はコント

27.

開発スピードと信頼性をトレードオフにしない「開発スピード」が上がりリリースが増えるほど、「信頼性」は低下しやすくなる逆に「信頼性」のコントロールを意識しすぎると、「開発スピード」は低下し新しい価値をより早くユーザーに届けることが難しくなる一定の「信頼性」を保ちつつ、「開発スピード」を向上させられるシステム・仕組みを構築することで、トレードオフとなる両者のバランスをうまく取りたい

28.

使いやすい負荷試験環境「central-load-testing」サービス横断で使用できるChatOps 型負荷試験環境「使いやすさに特化」「システムのキャパシティを見積もることに専念」「ナレッジの蓄積による属人性の排除」「負荷試験の敷居を下げる」-> 適切なキャパシティプランニングが高頻度で行える様になる https://cam-inc.co.jp/p/techblog/717710149145330844 https://cadc.cyberagent.co.jp/2023/sessions/sre-eng/

29.

高い可観測性 Datadog/Istio を活用「APM を活用した一気通貫のトレーシング」「Istio を活用したマイクロサービスごとのメトリクス」「MongoDB スロークエリの可視化」

30.

GitOps による運用高度化 Argo CD を活用「オペレーションミスの削減」「安全で早いロールバック」「インフラ構築のセルフサービス化」

31.

継続的に信頼性をコントロールしていく SREと開発者の連携を深めるための、週次定例を実施「インシデントの振り返り」「各種 EOL 対応の方針決め」「メトリクスを眺める・改善タスクの起票とアサイン」

32.

今後の展望と課題開発スピードと信頼性をトレードオフにせず、継続的にコントロールしていくための土台作りはしてきたが課題もある「無限に続いてしまう改善作業」信頼性が定量化されていないため、「信頼性のコントロール」と「新規機能開発」どちらを優先すべきかの意思決定が人に依存してしまう

33.

信頼性を定量化し、意思決定に活用するクリティカルユーザージャーニーを定義し、信頼性を定量化することで、今やるべきことに注力したい「レイテンシが 10ms 悪化しているが、 SLO 違反していないので新規機能開発に注力」「エラーバジェットを使い果たしてしまったので、信頼性のコントロールに注力」定量化された適切な信頼性を維持しつつ、高頻度でユーザーに新しい価値を届けられる意思決定

34.

終わりに

35.

まとめプラットフォーム上で多数のサービスを同時に支える際の、信頼性のコントロールは「全体最適化」、「個別最適化」どちらも大切システムでコントロールしきれない信頼性を組織で協調しコントロールする「開発スピード」と「信頼性」をトレードオフにしないためのシステム・仕組みを構築することが大切

36.

SRE Technology Map 弊社の SRE チームの取り組みや事業部ごとの体制、カルチャーについて網羅的にまとめてます https://www.cyberagent.co.jp/techinfo/info/detail/id=28998

https://www.cyberagent.co.jp/techinfo/info/detail/id=28998

37.

採用新卒採用、中途採用（事業部ごと）、実施しています！！興味がある方はぜひエントリーを！！新卒 https://www.cyberagent.co.jp/careers/students/tech/jobs/detail/id=27087 中途 https://www.r-agent.com/kensaku/kyujin/20240405-089-01-045.html https://hrmos.co/pages/cyberagent-group/jobs/2004419278284361758 https://www.green-japan.com/company/126/job/174675 https://hrmos.co/pages/cyberagent-group/jobs/0000663

38.

ご清聴ありがとうございました