Ambari運用ツラたん #ambarimeetup

>100 Views

May 12, 16

スライド概要

Ambari Meetup Tokyo #1 at Yahoo! JAPANのスライドです。
http://connpass.com/event/30398/

profile-image

2023年10月からSpeaker Deckに移行しました。最新情報はこちらをご覧ください。 https://speakerdeck.com/lycorptech_jp

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

(ダウンロード不可)

関連スライド

各ページのテキスト
1.

Ambari運用ツラたん ヤフー株式会社 データ&サイエンスソリューション統括本部 データプラットフォーム本部 開発2部グリッド 山口 寛 2016年04月28日 http://www.yahoo.co.jp/

2.

自己紹介 氏名 山口 寛 業務 - 2015/9 広告レポート機能開発 2015/10 - Hadoopクラスタの設計・構築・運用 Ambari 歴 : 3ヶ月ぐらい 興味・趣味 DevOps (SD1月号にChatOpsで寄稿) ビール・ダーツ・ボルダリング Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 2

3.

全体で約7000台のHadoop そのうち約1600台をAmbariで運用! (※800台/1クラスタ) Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 3

4.

今回のお話 構築・運用時にハマったこと Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 4

5.

構築編 Ambariでの構築 Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 5

6.

Ambariでの構築 Agentの自動インストール コンポーネントの追加 クラスタ Master Node / Application 通常構築は簡単! Data Node Ambari Server デプロイ Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 6

7.

Ambariでの構築 構築中にバージョンアップってしたことありますか? Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 7

8.

Ambariでの構築 AmbariのUpdate手順(ドキュメントより) • Server こちらは公式ドキュメントより抜粋となり • yum clean all ます。 CentOS版をみてみると、Ambariの更新に • yum info ambari-server はServerとAgentの両方が必要なことがわか • yum upgrade ambari-server ります。 • Agent • yum upgrade ambari-agent http://docs.hortonworks.com/HDPDocuments/Ambari-2.1.0.0/bk_upgrading_Ambari/content/_upgrade_to_ambari_2.1.html Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 8

9.

Ambariでの構築 Node数 Agents = Ambari agent数 Master Node / Application Data Node Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 9

10.

Ambariでの構築 AgentのUpdate手順(一部省略してます) • Server Agentの更新はすべてのhost • yum clean all で必要なものであり、台数が増 えると更新作業も手間になる • yum info ambari-server • yum upgrade ambari-server • Agent each host • yum upgrade ambari-agent Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 10

11.

Ambariでの構築 全サーバへ更新コマンドって!(ノω・`。) Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 11

12.

対応方法 • ツールの選択肢は沢山存在しています etc Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 12

13.

何がツラたん? 数百台のhadoopクラスタを管理するためにAmbariを利用 しているが、Ambariの更新や管理するためのツールは別途必 要となってしまう ただし、更新頻度は高いものではないので、現状はfabric を活用し運用している AmbariのVersion UPなど全台へ反映が必要! Agent管理のためのツールが必要!!(´・ω・`) バージョンアップどうやる? Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 13

14.

運用編 Ambari Serverの負荷って見てます? Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 14

15.

Ambari-Serverの負荷:起動直後 Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 15

16.

Ambari-Serverの負荷:時間が経つと Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 16

17.

Ambari-Serverの負荷:時間が経つと 繰り返されるFGC! Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 17

18.

Ambari-Serverの負荷:時間が経つと 繰り返されるFGC! 解放されないOld領域! Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 18

19.

Ambari-Serverの負荷:時間が経つと そう!メモリーリークか?! Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 19

20.

この状態に近づくと起きること Server Agent • WebUIが応答しない > Ambariでクラスタの状況がわからない! • HeartBeatが途切れだす > Agentが止まりHostの運用ができない! Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 20

21.

暫定対応方法 Server Agent Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 21

22.

暫定対応方法 Server • Ambari-ServerをRestart Agent Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 22

23.

暫定対応方法 Server • Ambari-ServerをRestart Agent • Ambari-AgentをRestart Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 23

24.

暫定対応方法 Server • Ambari-ServerをRestart 困ったらRestart!(`・Д・´)ドヤッ Agent • Ambari-AgentをRestart Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 24

25.

原因 • 実際は現在調査中 Agentとの通信のたびにOld領域が増えている気がする • • • • Old領域が解放されてなさそう Agentが増えると増加しやすい jmapみるとalert周りが怪しい Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 25

26.

原因 • 実際は現在調査中 Agentとの通信のたびにOld領域が増えている気がする • • • Old領域が解放されてなさそう Agentが増えると増加しやすい • こちら報告ずみ 次回はなんらかの形で解決話をはなしたいです Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 26

27.

Server運用も当然必須(´・ω・`) Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 27

28.

まとめ Node増えるとAgentの運用管理がツラい(´・ω・`) Serverも当然運用管理が必要でツラい(´・ω・`) Node数が少なければ気にならないかもねb Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 28

29.

E.O.P ご質問などありましたら個別にお声がけください! Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 29

30.

後日確認したこと 発表時に紹介しました、メモリーリークの疑いはメモ リーリークではなさそうです。 検証中のサーバのためアラートを止めずに作業を行っ ていました。 その結果、Ambariのalert検知が10秒毎に動きサーバ AgentからServerへと通知されていました。この処理 の負荷によりServerが応答してない状況でした。 Nodeの整理とアラート通知の整理した結果現在は発 生しておりません。 Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 30