5.5K Views
August 29, 24
スライド概要
ゆる SRE 勉強会 #7 ~ 1 周年記念企画 真夏の SRE 怖い話 ~ 2024/8/30
Qiita や Zenn でいろいろ書いてます。 https://qiita.com/hmatsu47 https://zenn.dev/hmatsu47 MySQL 8.0 の薄い本 : https://github.com/hmatsu47/mysql80_no_usui_hon Aurora MySQL v1 → v3 移行計画 : https://zenn.dev/hmatsu47/books/aurora-mysql3-plan-book https://speakerdeck.com/hmatsu47
ある日突然 DB の性能が ½ になった話 ゆる SRE 勉強会 #7 ~ 1 周年記念企画 真夏の SRE 怖い話 ~ 2024/8/30 まつひさ(hmatsu47)
ある日突然 DB の性能が ½ になった話 サイズのインスタンス相当 ゆる SRE 勉強会 #7 ~ 1 周年記念企画 真夏の SRE 怖い話 ~ 2024/8/30 まつひさ(hmatsu47)
自己紹介 松久裕保(@hmatsu47) ● https://qiita.com/hmatsu47 ● 現在: ○ 名古屋で Web インフラのお守り係をしています ○ SRE チームに所属しつつ技術検証の支援をしています ■ フロントエンド(Next.js App Router)など ○ 仕事に関係なく pgvector の周辺を追っかけ中です ■ 本来(?)は MySQLer です 3
それは真夏…じゃなくて真冬の出来事 ● 2018 年、正月 ○ その前に、 4
前年の某社(オンプレ運用) ● 壊れるストレージ ○ 冗長化電源が両系同時故障 ● 繋がらない修理窓口 ○ 専属担当者付きのプレミアムサポートのはずなのに ■ 下位サポート窓口の支援に追われて本来の担当窓口に出られず🤔 ● 終わらない修理立ち会い ○ 保守部品への交換完了→動作確認→保守部品の不良発覚→再修理 ○ 金曜夜に故障→土曜に直らず→日曜夜まで修理は続く 5
秋になり、 ● なんとか AWS への Lift & Shift が完了 ○ DB は MySQL → Aurora MySQL へ ○ でも、若干不安定… ○ アクセスが多いときフェイルオーバーすると DB 接続が刺さる ■ オンプレ比でネットワークレイテンシが大きくなったため 6
有効な解決策がないまま、年末年始へ ● そして 2018 年 1 月 3 日、 7
あいつらがやってきた! ● Meltdown & Spectre コンニチハ! \ / 8
と同時に、 ● AWS のコンピュート基盤にパッチが当てられる(1 回目) ○ 結果、起きたことは… 9
AWS コンピュート基盤性能低下 ● 「EC2 上で動作中の memcached の性能が ⅔ になった」 ○ ネットから流れてきた情報 ● …Aurora は? 10
やっぱり性能低下していた ● 同タイプ 1 段階下(½ サイズ)相当の性能に(約 ⅔) https://qiita.com/hmatsu47/items/656ebb6575c31bf1a90e 11
仕事始め早々、 ● 祈りながら🐶のメトリクスグラフを眺め続けることに ○ DB(Aurora)も心配だけど Web(EC2)も気になる… ● いざとなったらスケールアップできるよう手配 ○ 稟議を通す(💰の弾丸) ○ ついでに新しいインスタンスタイプへの変更(R3 → R4)を準備 12
数日後、いきなり ● 性能が(ほぼ)元に戻った https://qiita.com/hmatsu47/items/656ebb6575c31bf1a90e 13
結局、 ● スケールアップは不要に ○ 新しいインスタンスタイプへの変更(R3 → R4)のみ実施 ■ 少しだけ性能アップ 14
その後、 ● DB 接続の改善を実施 ○ コネクションプーリングライブラリを(高速なものに)置き換え ● フェイルオーバーが怖くなくなった! 15
一安心。 ● しかし、怖い話には続きが… 16
ある日の偉い人(フィクションです。たぶん) AWS だけでは不安だ マルチクラウド化を進めてくれ 【補足】 当時、満足な性能が出てクラウド間レプリケーションが可能な 他クラウドの MySQL 系マネージドサービスはありませんでした (GCP の Cloud SQL for MySQL は v1・v2 とも要件を満たさず) さすがに IaaS はいやです… 17