116 Views
December 16, 15
スライド概要
http://yahoo-ds-event.connpass.com/event/22017/
2023年10月からSpeaker Deckに移行しました。最新情報はこちらをご覧ください。 https://speakerdeck.com/lycorptech_jp
ヤフーの広告レポートと SQL on Hadoop の選択 ヤフー データ&サイエンスソリューション統括本部 データインフラ本部 杉⼭山 朋広 1
⾃自⼰己紹介 杉⼭山 朋広 (すぎやま ともひろ) 2002年年 ヤフー株式会社中途⼊入社 2002年年ー2011年年 Yahoo!ウォレットの開発・運⽤用 Yahoo! JAPAN IDのログイン・登録・DBの運⽤用 2012年年ー現在 Hadoopクラスタの構築・運⽤用 広告集計システムの開発 広告システム向けのデータプラットフォームの構築 2
メッセージ 成⻑⾧長する広告事業と業界を技術で加速
Agenda 1. 広告レポートの使命 2. これまでの取り組み 3. 挑戦と貢献 4
Agenda 1. 広告レポートの使命 2. これまでの取り組み 3. 挑戦と貢献 5
1.広告レポートの使命:求められるもの スループット・スケーラビリティ
1.広告レポートの使命:⽬目指すもの 機能・体感・使い勝⼿手 YDNの運⽤用コスト (対GDN⽐比較) 調査考察 約4倍 運⽤用 約3倍
Agenda 1. 広告レポートの使命 2. これまでの取り組み 3. 挑戦と貢献 8
2.これまでの取り組み:レガシーシステム 内部仕様に依存した機能制限 データ量量とユーザ数に⽐比例例しサービスレベルが低下 約10億⾏行行/Day(当時) : : ・・・ 2015-11-24 ・・・ 2015-11-23 : : ・・・ アカウント グループA アカウント グループB アカウント グループC : 2014-10-01 アカウント グループn 13ヶ⽉月
2.これまでの取り組み:SQL on Hadoopの導⼊入 機能制限が解消しサービスレベルが向上 スケーラビリティの問題をTezで解消 Impala Hive on Tez レイテンシのイメージ 1秒前後 10〜~20秒 1時間あたりクエリ(25ノード) 2,500 7,500 2,500 15,000 性能要件を満たすノード数 約200ノード(6クラスタ) 50ノード(1クラスタ) サービス開始 2015年年7⽉月 2016年年1⽉月(予定) ※当社環境 1時間あたりクエリ(50ノード) ※当社環境 ※当社環境
Agenda 1. 広告レポートの使命 2. これまでの取り組み 3. 挑戦と貢献 11
3.挑戦と貢献:Sub-secondクエリを⽬目指す 更更なる⾼高みへ Hive on Tez + llap Phoenix 開発元 Hortonworks SalesForce 概要 Live Long and Process SQL on HBase ⽅方式 キャッシュ KVS + クラスタ側集約 ストレージ HDFS/ORCFile HBase レイテンシ 1〜~3秒 1秒前後 備考 HIVE-12049 HIVE-11525 PHOENIX-2126 ※当社環境でのイメージ
EOP