レガシー環境でもPrometheus はイケるんです

2.1K Views

January 17, 20

#Prometheus #監視システム #レガシーシステム #スケールアップ #PromQL

スライド概要

Prometheusは大規模なレガシー環境に最適で一台のサーバで実行ファイルを動かすだけで数万台監視できる。
レガシー環境で動かす上でのノウハウを紹介。

Yahoo!デベロッパーネットワーク

@ydnjp

スライド一覧

2023年10月からSpeaker Deckに移行しました。最新情報はこちらをご覧ください。 https://speakerdeck.com/lycorptech_jp

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

深層学習による自然言語処理入門: word2vecからBERT, GPT-3まで

Yahoo!デベロッパーネットワーク 189.1K

ゼロから始める転移学習

Yahoo!デベロッパーネットワーク 91.1K

ヤフーにおける WebAuthn と Passkey の UX の紹介と考察 #idcon #fidcon

idcon fidcon

Yahoo!デベロッパーネットワーク 80.5K

OpenID Connectとネイティブアプリを取り巻く仕様と動向 Yahoo! JAPANの取り組み #openid #openid_tokyo

openid openid_tokyo

Yahoo!デベロッパーネットワーク 64.2K

運用業務とスクラムは本当に組み合わせにくいのか︖運用業務が大半を占めるプロダクト開発での試行錯誤

devsumi

Yahoo!デベロッパーネットワーク 41.6K

ヤフーのオンプレ機械学習基盤AIPFについて #ml_kubernetes

ml_kubernetes

Yahoo!デベロッパーネットワーク 32.9K

各ページのテキスト

Who • 所属ヤフー新卒一年目 • 好物システムの歴史（闇） • お仕事 Apache Solr(検索エンジン) の SaaSを提供 https://www.slideshare.net/techblogyahoo/serving-engine-as-a-service-at-yahoo-japan-solrjp Copyright (C) 2020 Yahoo Japan Corporation. All Rights Reserved. 2

https://www.slideshare.net/techblogyahoo/serving-engine-as-a-service-at-yahoo-japan-solrjp

監視システム構成

スケールアウト vs スケールアップ

スケールアウト戦略は複雑である • Prometheusはメモリがあれば監視対象が増えてもスケールする • OOMKillerに64GBメモリの亭主を殺されたら128GBと再婚すれば良い • 数年前のサーバ1台でも1万台超の監視は可能 • あと5倍は札束で楽勝(๑•̀д• ́๑) by 先輩 Copyright (C) 2020 Yahoo Japan Corporation. All Rights Reserved. 9

10.

スケールアウトさせないことによる闇

11.

12.

欠損の症状を緩和することは可能 • 再起動の回数を減らす • • DBのリカバリが終わるまでヘルスチェックを失敗させたい • • 設定のリロードはHUPシグナルを利用する kill -HUP 1234 Management APIを利用する curl -S http://localhost:9090/-/ready 二台のPrometheusはActive/Stanbyでロードバランシングする • ロードバランサの設定をRound-Robinではなく、Source-IPなどに設定 Copyright (C) 2020 Yahoo Japan Corporation. All Rights Reserved. 12 12

http://localhost:9090/-/ready

13.

システム管理構成がレガシー環境で独自進化したことによる闇

14.

[beta]

監視対象サーバの追加/削除を自動化する
•

独自のサーバ管理システムではCRONでサーバリストを流し込む
/etc/prometheus/prometheus.yml
- job̲name: 'node'
scrape̲interval: 60s
ﬁle̲sd̲conﬁgs:
- ﬁles:
- '/etc/prometheus/targets/node.json'

/etc/prometheus/targets/node.json
[
{
"labels": {
"cluster": "prod"
},
"targets": [
"example001.yahoo.co.jp:9100",
“example002.yahoo.co.jp:9100"
]
}]

PS. https://prometheus.io/blog/2018/07/05/implementing-custom-sd/ の方法でも良い

Copyright (C) 2020 Yahoo Japan Corporation. All Rights Reserved.

14
14

https://prometheus.io/blog/2018/07/05/implementing-custom-sd/

15.

16.

Appendix

17.

セルフFAQ

18.

19.

Q. 監視対象側へのExporterの導入が大変なのでは？ • node̲exporter, jmx̲exporter, mtailなど必要な機能はOSSにあり事例も豊富です • https://prometheus.io/docs/instrumenting/exporters/ もバイナリを動かすだけなので特に大変ではないです Copyright (C) 2020 Yahoo Japan Corporation. All Rights Reserved. 19 19

20.

異常検知を人力で良い感じにしてしまえるという闇

21.

22.

23.