k8sで画像PFを1年半運用してみた振り返り #yjbonfire

7.1K Views

December 03, 19

#yjbonfire #Kubernetes #移行 #監視 #Prometheus #マイクロサービス

スライド概要

「Bonfire#4 Kubernetesで課題解決」で使用した資料になります。
https://yj-meetup.connpass.com/event/153658/

Yahoo!デベロッパーネットワーク

@ydnjp

スライド一覧

2023年10月からSpeaker Deckに移行しました。最新情報はこちらをご覧ください。 https://speakerdeck.com/lycorptech_jp

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

深層学習による自然言語処理入門: word2vecからBERT, GPT-3まで

Yahoo!デベロッパーネットワーク 193.5K

ゼロから始める転移学習

Yahoo!デベロッパーネットワーク 92.2K

ヤフーにおける WebAuthn と Passkey の UX の紹介と考察 #idcon #fidcon

idcon fidcon

Yahoo!デベロッパーネットワーク 82.4K

OpenID Connectとネイティブアプリを取り巻く仕様と動向 Yahoo! JAPANの取り組み #openid #openid_tokyo

openid openid_tokyo

Yahoo!デベロッパーネットワーク 65K

運用業務とスクラムは本当に組み合わせにくいのか︖運用業務が大半を占めるプロダクト開発での試行錯誤

devsumi

Yahoo!デベロッパーネットワーク 43.1K

ヤフーのオンプレ機械学習基盤AIPFについて #ml_kubernetes

ml_kubernetes

Yahoo!デベロッパーネットワーク 33.5K

各ページのテキスト

注意事項あくまで社内のマネージドKubernetesを利⽤した経験談です • • コントロールプレーンの運⽤はしてないですすべてにおいて、実際に試してみることをおすすめします • • もしかしたら間違ってるかも。。。 • 軽めの話題なので気軽に聞き流してください • ⼈⽣初登壇です。 Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 5

10.

移⾏に⾄るまでの経緯古いシステム新しいシステム • 社内VMで構築 • Kubernetesで︕ • ⼀部オンプレ環境あり • CDN,NAT等は社内PFで • リカバリは⼿動 • 秘伝のコード、⼝伝の構成… • HVの障害でVMが⽌まると夜でも起こされる Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. • 基本的に⾃動復旧を⽬指す • Infrastructure as Code • 夜は寝る︕ 10

11.

12.

13.

14.

15.

16.

17.

18.

19.

20.

21.

22.

23.

24.

25.

26.

27.

28.

29.

30.

31.

32.

33.

閾値が重要なんじゃない • 例えばリソース消費率って本当に⼤事︖ • • • Podのリソースをフルに使い切って何が悪い特にKubernetesにおいてPod単位のリソース消費はそこまで重要ではない可能性がある Eviction Manager超優秀 • リソース使いすぎな⼦はこの⼈がなんとかしてくれる。 (空いてるNodeに配置転換とか) Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 33

34.

Kubernetesの監視はどうか︖ とはいえ、物理サーバーやIaas上のVMだとそうはいかない • • • メンテナンスの必要があるので軽微な変化も⾒逃せなかったりする特に物理。蓄積されたダメージが突然発⽕するでもKubernetesなら結構いい感じにやってくれる • • • • そもそも⾼い⾃⼰修復⼒を持っているアラートを出す前に⾃⼰修復を試みるやりたい監視を実現できるチャンスがある︕︕ Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 34

35.

Prometheusはどうか︖ • ツールにこだわる必要はないけれど… • (個⼈的に)理想に近い監視ができるイメージ • ⼤量のメトリクスで常に細かくデータを収集してるので「後からでも」なんとかなる • Promqlも少し覚えればやりたいことができてくる • 学習コストに⾒合ったリターンはあると感じた • 例えばどういう監視ができるか︖ Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 35

36.

予測的に監視する • 例えばリソース監視 • 本質的には「今○％」より「△時間以内に100％」が重要ではないか︖ • • Disk使⽤量みたいに消費ペースが重要なものは予測的に監視するべき「 predict_linear() 」を使う • • Range vectorから単純な線形回帰を利⽤して任意の時間後の値を予測するただしメトリクスタイプ「Guage」のみ Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 36

37.

[beta]

予測的に監視する
- alert: 12時間以内にNodeのDiskがなくなるかも
expr:
predict_linear(node_filesystem_avail_bytes{device=~"^/dev/.*$"}[1h],
12 * 3600) <= 0

Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved.

37

38.

変化率を重視する • リクエスト数とかNetworkTrafficとか • 何Byte受けたらアラートって根拠がわかりにくい • リクエストのスパイクを検知したほうが良さそう • delta()とか使えばできそう • • • • Range vectorの最初と最後の値の差分を出してくれるこれもGuageのみ http_requests_totalはCounterなので注意いい案があれば誰か教えて…︕ Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 38

39.

40.

41.

42.

43.

44.

45.

46.

⾼負荷環境での運⽤テストをやった • やってみると結構なリクエストがエラーで落ちる • ⾜りない設定が⾒つかる • PodDisruptionBudget • SIGTERMのハンドリング • 危険なメンテナンスがわかる • Ingressのルーティング変更とかは⾮常に低い割合で502エラーが発⽣した Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 46

47.

備考︓Node,Podを安全に終了させる SIGTERMのハンドリング • • • termination lifecycle GracePeriodSeconds内にコンテナを安全に落とすコンテナ単位のGraceful Shutdown • • JavaとかGraceやりにくい⾔語はSideCarでProxyサーバー⽴ててそっちでやってもいいかも PDBを設定する • • • Nodeを安全に停⽌するため Podの稼働状況をみながらkubectl drainを待機させる Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 47

48.

1コンテナ1プロセスを意識した • コンテナの基本︖ • Kubernetesに管理させることで運⽤状態の把握が楽になった • Node.js等のマルチプロセス化はちょっと厄介 • • • • clusterモジュールでプロセスをForkできるけど… ⼦プロセスのダウンをアプリケーション側で管理する必要がある 1コンテナで複数プロセスを使⽤するときのNodeへの影響を把握しきれなかった迷ったらシンプルな⽅がいい Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 48

49.

50.

とりあえず使ってみた • 意外となんとかなる (と思う) • 何も知らない状態で始めたけど、調べながらリリースまでこぎつけた • 情報量は少ないようで多い • • • • アップデート多くて情報追いかけるのも⼤変ネガティブなニュースも多い使わずに情報だけを集めると億劫になるかも批判だけして使わないのはもったいない Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 50

51.

52.

53.

54.

55.

56.

Keep Aliveが切断されてしまう︕ • Ingress直下に配置したPodのキャッシュ⽤コンテナで60秒程度のKeep Aliveを設定 • にもかかわらず数秒で接続元からKeep Aliveが切断されてしまう • Keep Aliveを無効にすると10msくらいパフォーマンスが落ちる… Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 56

57.

58.

59.

60.

61.

62.

63.

64.

メモリはなかなか開放されない • コンテナのリソース≒配置されたNode︖ • • • コンテナにログインしてリソース確認するとNodeのリソース量と同じコンテナに対してはKubernetes上からリソースの制限をかけている︖ メモリにresouces.limitsを設定すると閾値周辺でメモリ解放が⾛っているような Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 64

65.

確認するべきなのは • container_memory_working_set_bytes • コンテナのワーキングセット使⽤量 • KubernetesのOOM Killerもこれを監視︖ • やたらPodのリスタートがかかる場合はここがメモリ制限を超えている可能性あり • メモリのlimitsやrequestを⾒直す Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 65

66.

Request/Limitを設定する • コンテナのリソース設定 • Requestで設定した分、そのコンテナ⽤にNode のリソースが確保される • 設定しなくても動くには動くが… • １つのPodが際限なくNodeのリソースを消費する • Pod同⼠がリソースを奪い合う • 計画的なPodの配置に⽀障がでる • container_memory_~等の値が取れない Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 66

67.

68.

69.

70.

Prometheusの基礎データモデルについて • • • すべてのデータを時系列として保存メトリクス名とラベル(キーバリューペア) ４種類のメトリクスタイプについて • • • • • Guage : 減ったり増えたりする値。温度計とか Counter : リセットしない限り積み重ねる値。ガスメーターとか Histgram : 予め設定したバケットに累積的にカウントする。難しい Summary: Histgramに似ている認識。詳しくは公式を。 Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 70

71.

httpリクエストを取得する例 • HTTPリクエスト数を取得する例 rate( http_requests_total{status=~”2.."}[3m]) 12 @1574089523.732 12 @1574089583.732 13 @1574089643.732 • 5分間のRange Vectorの数値変化の平均で「だいたいの」リクエスト数を取得している Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 71

72.

73.

HPAの注意点すぐにはスケールされない • • • デフォルト30秒に1回のチェック --horizontal-pod-autoscaler-sync-period スケールイン/アウト後にはしばらく待機時間がある※ • • • スケールアウト: 最後の3分間にリスケーリングがなければ発⽣スケールイン: 最後のリスケーリングから5分間待機実際のサービスインにはHealcheckも影響 • • • initialDelaySeconds periodSeconds ※kubernetes/community Horizontal Pod Autoscalingより原文ではScale-up、 Scale-downと記載されています。 Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 73

74.

コンテナの軽量化 RUNをチェーンさせる • • 分けるとその分ステージが増えるのでレイヤを結合する ADD, COPYに注意 • • COPYのほうがシンプルな機能。ADDはtarの展開とかで使う。不要なデータを消す • • Yumのキャッシュとかアーカイブファイルとかマルチステージビルド • • Docker17.05以上で。ビルドするディレクトリを分ける • • Dockerfileのあるディレクトリをビルドの対象にしてしまうので Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 74

75.

76.

Kustomize • YAML管理ツール • 環境ごとの設定は差分のYAMLだけ書く • ConfigMap generationでイミュータブルなConfigmapを⽣成 • いずれkubectlに統合される • されました https://kubernetes.io/blog/2019/03/25/kubernetes-1-14-release-announcement/ Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 76

https://kubernetes.io/blog/2019/03/25/kubernetes-1-14-release-announcement/

77.

K9S • グラフィカルなCUIでkubectlみたいな操作ができる。 • 専⽤のシェルが起動するのでなんか安⼼。 • ClusterとかNamespaceとかも表⽰されてる • podのリソース消費がリアルタイムで⾒れる • Yamlの表⽰、編集、Podのログ表⽰、Describe、コンテナへのSSH… • 危ない操作(podのDelete)は⼀応Confirmがついてる • Vimライクなキーバインドが使える(︕) • これは便利︕ Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 77

78.

79.