1.8K Views
November 10, 24
スライド概要
2024年11月7日に行われた、Jagu'e'r O11y-SRE分科会 Meetup#10 での登壇資料です。
ーーーお仕事についてーーー 【現在(2社目):クラウドエンジニア】 2022/2/1より勤務中 クラウドサービスを利用したシステムの設計、開発、構築の業務を行なっています。 ーーージェンダー・お仕事以外についてーーー 私のジェンダーについて、簡単にまとめると以下のとおりです。 身体的性:男性 性的指向:女性が好き 性自認:Xジェンダー、Non-binary、MtX LGBTQ+:Q また、趣味として女装をやっておりまして、「酒井謎子」(sakai-nako)というハンドルネームで活動しています。
これはSRE? Platform Engineering? Other? ~プロダクトと一緒にSREの道を歩き始めた、インフラエンジニアの現在地~ 2024年11月7日 Jagu’e’r O11y-SRE分科会 Meetup#10 フェンリル株式会社 太田有人(sakai-nako)
自己紹介 太田有人(sakai-nako) 1987年生まれ ずっと京の都に住んでいる コンビニバイト10年の後、IT業界に飛び込む(現在8年目) SES企業:システムエンジニア(2017~2021) ↓ フェンリル:クラウドエンジニアin GIMLE Team (2022~2024/6) ↓ フェンリル:インフラエンジニアin NILTO Team (2024/7~) 「理想の彼女がいなければ、自分で作ればいいじゃない」と 思い立ち、女装を始めて3年くらい 最近はRustにハマリ気味 個人サイト(リニューアル準備中……)
アジェンダ 発表の背景 この数ヶ月でやってきたことを振り返る 私の現在地 まとめ(という名の所感)
発表の背景
発表の背景 社内異動により、7月にヘッドレスCMS「NILTO」の開発チームにインフラエンジニアとしてジョイン サービス立ち上げ期で、インフラ含めて全体の設計が大きく変動中 8月にProfessional Cloud DevOps Engineerの資格を取得 学習の中で、SREの考え方に触れる サービスが立ち上げフェーズで、インフラ部分もこれから作っていける部分が多い ⇨IaC・CI/CDの構築経験はあるので、それを活かしてSREの0からの実践ができるチャンス! ちょうどJagu’e’r O11y-SRE Meetup#10の案内が来た ⇨せっかくだから、ここ数ヶ月の振り返りを共有してみよう!
この数ヶ月でやってきたことを 振り返る
この数ヶ月でやってきたことを振り返る Terraform/TerragruntによるIaCの導入 最初は、インフラドキュメントや構成図の作成からスタート 新たに取り組む領域から徐々に、Terraform/Terragruntを導入 現時点(2024/11/7)では、以下のようなリソースで導入 ※いずれも開発環境で絶賛テスト中 Artifact Registryのリポジトリ GKEクラスター Cloud Runサービス CDN (Fastly)関連のリソース ⇨これはSREというより、Platform Engineeringっぽい
この数ヶ月でやってきたことを振り返る App EngineからGKEへの移行検討 GKEクラスターをTerraformで構築 限定公開クラスターを構築しようとするもネットワーク周りの設定でつまづき、一旦一般公開クラスタ ーでの構築に切り替え 主に、Cloud BuildやCloud Deployを利用したDBマイグレーションからコンテナデプロイまでの流 れに課題感あり Managed Service for Prometheus、GKE Dataplane V2 observabilityを利用したモニタリングの検 討 CDNの導入に集中するため、現在保留中(12月に再開予定) ⇨Platform Engineeringに近そうだが、モニタリング実装のあたりからはSREに入りそう
この数ヶ月でやってきたことを振り返る ステータスページの検討 サービスとしてのSLOはある ステータスページを提供しているサービスを選定 今回は(よく見かける)Atlassian Statuspageのアカウントを作成して、試用中 APIが準備されているので、稼働状態変更やインシデントの登録処理の実装自体は難しくなさそう その分、しっかりした運用設計が必要になってくる ⇨これこそSREの領域っぽい!
インシデント と、ここで事 件が!
この数ヶ月でやってきたことを振り返る インシデント発生 APIに対するリクエストが急増し、レイテンシとエラー率が急上昇 App Engineをスケールアップ・スケールアウトするも、改善せず 一時的にCloud CDNを導入して、リクエストをキャッシュする対応を実施 ⇨これで一旦は収束
この数ヶ月でやってきたことを振り返る インシデント発生(その後) 内部APIと外部APIで同一のコンテナを使っていたため、分離 ボトルネック箇所を判断するため、トレースの計装を行い、外部APIを検証環境のCloud Runにデプロ イ、負荷試験の準備 ボトルネックを解消できるように負荷試験とインフラ見直しを実施中 アプリ側も、11月は機能開発を一時ストップしてパフォーマンス改善・品質改善に力を注ぐ ⇨これが一番SREの領域!?
私の現在地
私の現在地 SRE領域 ここ数ヶ月でやったこと トレースの計装・負荷試験 ステータスページの検討 これから取り組むこと トレースの計装・負荷試験(継続) ステータスページの検討(継続) インフラの移行(CDN・GKE)に伴うモニタリング・SLO・SLIの検討
私の現在地 Platform Engineering領域 ここ数ヶ月でやったこと Terraform/TerragruntによるIaCの導入 APIの分離と外部APIのCloud Runへの載せ替え CDNの移行・新規導入に伴うインフラ設計・構築 これから取り組むこと インフラの見直しに伴う構成の検討・IaC実装 CDNの移行・新規導入に伴うインフラ設計・構築(継続) GKEへの移行 Terraform/Terragruntが導入できるところは積極的に使っていく
まとめ (という名の所感)
まとめ(という名の所感) ここ数ヶ月でやったこととしては、SREというよりもPlatform Engineeringの領域が多め 個人的に得意なIaCの領域から徐々に歩みを進めている途中 インシデントの発生により、一気にパフォーマンス改善・品質改善の流れがやってきた 後回しにしていたログ・モニタリング・トレースの実装や負荷試験の実施など インシデントの経験が、チームの視点を信頼性・パフォーマンスにフォーカスさせた ⇨SREの道をゆくスピードが一気に上がった!
ご清聴 ありがとうございました!