>100 Views
July 06, 17
スライド概要
2017.07.05 Hadoopソースコードリーディング 第23回
「Apache BigData + DataWorks Summit報告会」
https://connpass.com/event/60047/
2023年10月からSpeaker Deckに移行しました。最新情報はこちらをご覧ください。 https://speakerdeck.com/lycorptech_jp
DataWorks Summit San Jose 2017 で見た クエリエンジンの今 2017年7月6日 ヤフー株式会社 クエリエンジンチーム Co p yrig ht © 2 0 1 7 Yaho o Jap an Co rp o ratio n. All Rig hts Reserved . 曾臻
1.自己紹介 名前 : 曾 臻 所属 :ヤフー株式会社 D&Sソリューション 統括本部 クエリエンジン 経歴 : Presto開発・運用 広告システム開発 2 Co p yrig ht © 2 0 1 7 Yaho o Jap an Co rp o ratio n. All Rig hts Reserved .
2.全体的な所感(1) • Hadoop技術は成熟期に入っている • • • 3 クエリエンジン関連のセッションが多い セキュリティ関連のセッションも多い エンタプライズ向けの機能が増えている(HAなど) Co p yrig ht © 2 0 1 7 Yaho o Jap an Co rp o ratio n. All Rig hts Reserved .
2.全体的な所感(2) • 4 クエリエンジンの選択肢が増えている。例えば • Hive on Tez • Hive on LLAP • Druid • Impala (on HDFS/Kudu) • Spark SQL • Presto • HAWQ Co p yrig ht © 2 0 1 7 Yaho o Jap an Co rp o ratio n. All Rig hts Reserved .
2.全体的な所感(3) • Past, Present, Future題名のセッションが多い。 (Linkedin/Uber/Hive/YARN) 5 • Kerberos対応はスタンダードになりつつ。 • Rangerの重要性は上がっている。 • Hive/HAWQのRanger対応が進んでいる。 Co p yrig ht © 2 0 1 7 Yaho o Jap an Co rp o ratio n. All Rig hts Reserved .
2.全体的な所感(4) • 速度の重要性を感じた。 6 Co p yrig ht © 2 0 1 7 Yaho o Jap an Co rp o ratio n. All Rig hts Reserved .
2.全体的な所感(5) • クエリエンジンを選ぶ時、TPC-H/TPC-DSパフォーマンス 比較も大事ですが、自社が持っているデータセットに基いた チューニングとパフォーマンス比較も重要。 • 7 データフォーマットも進化している。例えばJSONとORC。 Co p yrig ht © 2 0 1 7 Yaho o Jap an Co rp o ratio n. All Rig hts Reserved .
3.クエリエンジンの紹介・比較 • Hadoop Query Performance Smackdown セッション詳細: https://dataworkssummit.com/san-jose-2017/sessions/hadoop-query-performancesmackdown/ • Comcastの方が発表。 • Comcast Bigdata環境の特徴: • 24*7 • Speed & Stability are King & Queen! • PBレベルのHiveデータ • 色々データベースでクエリを実行して、パフォーマンスを比較 8 Co p yrig ht © 2 0 1 7 Yaho o Jap an Co rp o ratio n. All Rig hts Reserved .
3.クエリエンジンの紹介・比較 検証用のHardware • 5 Master • 32 core/90GB ram/12x4TB HDD /10Gb Nic • 32 core/90GB ram/12x4TB HDD /10Gb Nic • 11 Workers • 40GB Rack Top Switches 9 Co p yrig ht © 2 0 1 7 Yaho o Jap an Co rp o ratio n. All Rig hts Reserved .
3.クエリエンジンの紹介・比較 10 Co p yrig ht © 2 0 1 7 Yaho o Jap an Co rp o ratio n. All Rig hts Reserved .
3.クエリエンジンの紹介・比較 ポイント • LLAPは一番速い • Spark SQLは不安定だから、比較結果から外された 11 Co p yrig ht © 2 0 1 7 Yaho o Jap an Co rp o ratio n. All Rig hts Reserved .
3.クエリエンジンの紹介・比較 • 気になるところ • プレゼンテーション後の質問応答、質問が殺到。今回Dataworks Summitで自分が 見たセッションの中一番多いかも。10+個。 • 質問のポイントはハードウェア構成、チューニングどうやって行っている?質問者 はSparkが外されたことに対してあまり納得していないようです。 • 質問と回答のやり取りを見ると、今回検証ではLLAP中心にやっているので、Spark のパラメータはまだチューニング余地があるのでは?という印象を受けている。 • 結局、PrestoはTPC-DSに対して幾つかクエリが失敗した。それもHW/Parameter が最適化していないところがあると思う。例えばメモリがもっと増やせるはず。 12 Co p yrig ht © 2 0 1 7 Yaho o Jap an Co rp o ratio n. All Rig hts Reserved .
3.クエリエンジンの紹介・比較 • EVEN FASTER: WHEN PRESTO MEETS PARQUET @ UBER • 13 https://dataworkssummit.com/san-jose-2017/sessions/even-faster-whenpresto-meets-parquet-uber/ Co p yrig ht © 2 0 1 7 Yaho o Jap an Co rp o ratio n. All Rig hts Reserved .
3.クエリエンジンの紹介・比較 14 Co p yrig ht © 2 0 1 7 Yaho o Jap an Co rp o ratio n. All Rig hts Reserved .
3.クエリエンジンの紹介・比較 15 Co p yrig ht © 2 0 1 7 Yaho o Jap an Co rp o ratio n. All Rig hts Reserved .
3.クエリエンジンの紹介・比較 • Uberは主にデータが2種類。 • RAWテーブル、Modelテーブル。 • RAWテーブルはNested構造が深い。30階層ぐらいある。array [ map .... [array [.... の感じ。 • Nestedファイルに対して、Uberの方針はFlattern • RAWファイルはPrestoからしかアクセスできない。 • Modelテーブルは12時間遅れ • RAWデータは30分遅れ • ETLは30分〜2時間かかる • どれを使うかはTrade-Off。 • どのテーブルを使うかはアナリストが自分で選ぶ。 • Application、AdHoc両方Prestoを使っている。2つクラスターに分けている。 • 1日12万クエリ。 • HAは実装していないけど、Coordinatorはあまり故障したことない。 • なぜParquetを選んだか? • 既につかっているから 16 Co p yrig ht © 2 0 1 7 Yaho o Jap an Co rp o ratio n. All Rig hts Reserved .
EOP Co p yrig ht © 2 0 1 7 Yaho o Jap an Co rp o ratio n. All Rig hts Reserved .