Yahoo! JAPANのデータ基盤とHadoop #dbts2016

141 Views

July 15, 16

スライド概要

http://www.db-tech-showcase.com/tokyo_2016_jp

profile-image

2023年10月からSpeaker Deckに移行しました。最新情報はこちらをご覧ください。 https://speakerdeck.com/lycorptech_jp

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

(ダウンロード不可)

関連スライド

各ページのテキスト
1.

Yahoo! JAPANのデータ基盤とHadoop ヤフー株式会社 データ&サイエンスソリューション統括本部 杉山 朋広

2.

自己紹介 杉山 (すぎやま 朋広 ともひろ) 2002年 ヤフー株式会社中途入社 2002年ー2011年 Yahoo!ウォレットの開発・運用 Yahoo! JAPAN IDのログイン・登録・DBの運用 2012年ー現在 Hadoopクラスタの構築・運用 広告集計システムの開発 広告システム向けのデータプラットフォームの構築 Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 2

3.

74% of smartphone users >8000万 DUB >3000万 No.1 App publisher 以上 100 82% of PC users >100 MAU ※1 services ※1 ゲームアプリケーションを除く 2億 商品数

4.

Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 4

5.

Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 5

6.

Agenda • データ基盤の概要 • データ基盤の歴史 • 次世代基盤 Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 6

7.

Agenda • データ基盤の概要 • データ基盤の歴史 • 次世代基盤 Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 7

8.

データ基盤の概要 日本有数の規模 1.7 PB 500 dbs 200 dbs 2000 nodes 6000 nodes 1500 nodes S3互換ストレージ Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 8

9.

データ基盤の概要>Hadoop利用の歴史 Caption スケールの問題と共に成長 6,000 100 80 70 4,000 60 3,000 50 40 分析データ 拡張 2,000 マルチテナ ント化 1,000 30 20 一部の部署 で先行利用 Row HDFS Storage (in PB) → 5,000 Number of Nodes → 90 タイムライン型 コンテンツ&広告 10 0 0 2009 2010 2011 2012 Nodes 2013 2014 2015 2016 HDFS Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 9

10.

データ基盤の概要>Hadoop利用の歴史 Caption スケールの問題と共に成長 6,000 100 80 70 4,000 60 3,000 50 40 分析データ 拡張 2,000 マルチテナ ント化 1,000 30 20 一部の部署 で先行利用 10 0 0 2009 Hadoop以前 Row HDFS Storage (in PB) → 5,000 Number of Nodes → 90 タイムライン型 コンテンツ&広告 2010 黎明期 2011 導入期 2012 Nodes 2013 HDFS 2014 データ爆増 Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 2015 2016 これから 10

11.

Agenda • データ基盤の概要 • データ基盤の歴史 • 次世代基盤 Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 11

12.

データ基盤の歴史>Hadoop以前 Caption Hadoopがデータ基盤に採用される前の時代 6,000 100 80 70 4,000 60 3,000 50 40 分析データ 拡張 2,000 マルチテナ ント化 1,000 30 20 一部の部署 で先行利用 10 0 0 2009 Hadoop以前 Row HDFS Storage (in PB) → 5,000 Number of Nodes → 90 タイムライン型 コンテンツ&広告 2010 黎明期 2011 導入期 2012 Nodes 2013 HDFS 2014 データ爆増 Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 2015 2016 これから 12

13.

データ基盤の歴史>Hadoop以前 高性能なストレージを中心に置いた設計 • • • • ストレージをスケールインすることで性能を向上 バッチ処理は独自の分散フレームワーク クエリエンジンはRDBが主流 独自の分散フレームワークの限界・・ Web Server Web Server Web Server Data Pipeline (Y!Inc origin) Network Storage Batch C++ Teradata Batch perl ORACLE Batch php MySQL Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 13

14.

データ基盤の歴史>黎明期 Caption Hadoopをはじめて投入 6,000 100 80 70 4,000 60 3,000 50 40 分析データ 拡張 2,000 マルチテナ ント化 1,000 30 20 一部の部署 で先行利用 10 0 0 2009 Hadoop以前 Row HDFS Storage (in PB) → 5,000 Number of Nodes → 90 タイムライン型 コンテンツ&広告 2010 黎明期 2011 導入期 2012 Nodes 2013 HDFS 2014 データ爆増 Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 2015 2016 これから 14

15.

データ基盤の歴史>黎明期>Hadoop 内製分散システムの限界からHadoopを選定 • • • 既存の分散フレームワークの限界 事業部ごとに予算化し、10〜100ノード程度のHadoopクラスタを個別に保有 ストレージのI/O軽減にも寄与 最大並列数 分散フレームワーク 開発リソース 開発範囲 レガシーシステム Hadoop 30ノード 4,000ノード 内製で開発 hadoopがサポート 内製 オープンソース 分散フレームワークと アプリケーション アプリケーションのみ Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 15

16.

データ基盤の歴史>黎明期>データ基盤 予算がある部門による検証段階 • • • Hadoopは事業部予算で10〜100ノード程度のクラスタが乱立 部門の予算では100ノードくらいが限界 予算とスケーラビリティの限界・・ Web Server Web Server Web Server Data Pipeline (Y!Inc origin) Network Storage Batch C++ Teradata Batch perl ORACLE Batch php MySQL Hadoop (x10〜x100) Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 16

17.

データ基盤の歴史>導入期 Caption クラスタを集約しコストを最適化 6,000 100 80 70 4,000 60 3,000 50 40 分析データ 拡張 2,000 マルチテナ ント化 1,000 30 20 一部の部署 で先行利用 10 0 0 2009 Hadoop以前 Row HDFS Storage (in PB) → 5,000 Number of Nodes → 90 タイムライン型 コンテンツ&広告 2010 黎明期 2011 導入期 2012 Nodes 2013 HDFS 2014 データ爆増 Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 2015 2016 これから 17

18.

データ基盤の歴史>導入期>Hadoop 大きなクラスタを共同利用 • • • 事業部予算から全社共通な予算へ マルチテナンシーを実現するためにHadoop Securityに対応 空いたリソースを有効活用 Hadoop x100 Hadoop x50 事業部A Hadoop x50 Hadoop x30 事業部A リソース 事業部B リソース 事業部C リソース 共通 リソース 35% 25% 20% 20% 事業部B Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 Hadoop x 1000 18

19.

データ基盤の歴史>導入期>データ基盤 全社基盤化により利用促進 • • • • ストレージからアップロードする機能をサポート 事業部のアプリケーションが直接ストレージにアクセスしなくなった 予算がない部門も利用可能に Hadoopへの使用率が加速・・ Web Server Web Server Teradata Data Pipeline (Y!Inc origin) Network Storage Hadoop (x1000) ORACLE MySQL Web Server Hadoop (x10〜x100) Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 19

20.

データ基盤の歴史>データ爆増期 Caption 本格的なデータ利活用のはじまり 6,000 100 80 70 4,000 60 3,000 50 40 分析データ 拡張 2,000 マルチテナ ント化 1,000 30 20 一部の部署 で先行利用 10 0 0 2009 Hadoop以前 Row HDFS Storage (in PB) → 5,000 Number of Nodes → 90 タイムライン型 コンテンツ&広告 2010 黎明期 2011 導入期 2012 Nodes 2013 HDFS 2014 データ爆増 Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 2015 2016 これから 20

21.

データ基盤の歴史>データ爆増期>Hadoop クラスタの全体最適化 • • メインのクラスタのノード数を増強 SLAが厳しいサービスに特化したクラスタを用意 アドホック 定常ジョブ 高SLA アドホック 定常ジョブ 高SLA Hadoop (x3000) Hadoop (x1000) Data Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 Hive/Tez (x700) 21

22.

データ基盤の歴史>データ爆増期>データ基盤 データ利用の効率化を促進 • • • Hadoopクラスタの増強 高SLAなサービスには専用クラスタを提供 Hive, cassandraなど次世代のデータストアを導入 cassandra ObjectStore (YJ origin) Web Server Web Server Data Pipeline (Y!Inc origin) Network Storage Hadoop (x3000) Teradata ORACLE MySQL Web Server Hive/Tez Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 22

23.

データ基盤の歴史>まとめ 性能・コストの最適化からマルチビッグデータへ 開発リソースのフォーカス 全社基盤化による性能・コスト最適 データ集約によるマルチビッグデータ基盤の実現 Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 23

24.

Agenda • データ基盤の概要 • データ基盤の歴史 • 次世代基盤 Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 24

25.

次世代基盤 Caption 技術革新による最適化 6,000 100 80 70 4,000 60 3,000 50 40 分析データ 拡張 2,000 マルチテナ ント化 1,000 30 20 一部の部署 で先行利用 10 0 0 2009 Hadoop以前 Row HDFS Storage (in PB) → 5,000 Number of Nodes → 90 タイムライン型 コンテンツ&広告 2010 黎明期 2011 導入期 2012 Nodes 2013 HDFS 2014 データ爆増 Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 2015 2016 これから 25

26.

次世代基盤 最適化の3要素 設備投資 効率化 進化 Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 26

27.

次世代基盤>設備投資 積極的な設備投資 設備投資額(億円) 設備投資 380 効率化 180 進化 2012年度 Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 2015年度 27

28.

次世代基盤>効率化 DC・HW・SWの相乗効果による効率化 設備投資 データセンター ✖️ 2 効率化 ハードウェア ✖️ 2 進化 ソフトウェア ✖️ 2 Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 ✖️ 8 28

29.

次世代基盤>効率化 コストの削減と性能向上の施策 設備投資 データセンター 海外DC利用で電力コスト圧縮 効率化 ハードウェア 保守性重視から性能重視へ 進化 ソフトウェア HadoopやCassandraの開発 Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 29

30.

次世代基盤>進化 トップベンダーとの開発協力 設備投資 効率化 進化 Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 30

31.

次世代基盤>進化 シリコンバレー拠点の開設 設備投資 効率化 進化 Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 31

32.

次世代基盤>データ基盤 パイプラインのOSS化・コモディティ化 • • • データ取得においてもストレージ依存を脱却 ストリーム処理基盤の追加 Hadoopだけでなく、KVS,RDBも適材適所で活用 Web Server Web Server Web Server cassandra Hadoop New Data Pipeline (Kafka cluster) ObjectStore (YJ origin) Teradata Tez llap Stream Platform Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 ORACLE MySQL Hive/Tez 32

33.

次世代基盤>まとめ ROIを引き上げデータ基盤の課題を解決 キャパシティの上限を増やす ⇒ 設備投資 コスト効率を上げる ⇒ 技術革新 進化のスピードを上げる ⇒ パートナー・SV拠点 Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 33

34.

Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 34

35.

Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 35