>100 Views
December 16, 15
スライド概要
http://yahoo-ds-event.connpass.com/event/22017/
2023年10月からSpeaker Deckに移行しました。最新情報はこちらをご覧ください。 https://speakerdeck.com/lycorptech_jp
ヤフーの次世代パイプラインについて ヤフー(株) D&S統括本部 データインフラ本部 浅野 遼平 2015年年11⽉月23⽇日 Copyright (C) 2015 Yahoo Japan Corporation. All Rights Reserved. 無断引⽤用・転載禁⽌止
発表者紹介 発表者 浅野 遼平 所属 パイプラインチーム 兼務データセンターネットワークチーム 経歴 2013年年新卒⼊入社 パイプライン歴:2年年 ネットワーク歴:1年年 データセンターで僕の年年収 より⾼高い機器にさわって 緊張していた時の写真 Copyright (C) 2015 Yahoo Japan Corporation. All Rights Reserved. 無断引⽤用・転載禁⽌止
アジェンダ 1.パイプラインの重要性 2.旧システムの課題 3.次世代のシステムの紹介
データインフラ基盤では パイプラインも重要です Copyright (C) 2015 Yahoo Japan Corporation. All Rights Reserved. 無断引⽤用・転載禁⽌止 画像:アフロ
データパイプラインとは? 分散したデータを効率率率良良く解析基盤にあつめるためのシステム 分散したサーバと そのデータ PIPELINE Copyright (C) 2015 Yahoo Japan Corporation. All Rights Reserved. 無断引⽤用・転載禁⽌止
パイプラインは データソリューションの好循環を⽣生みだす データを 解析する データを転送・蓄積 サービスにフィードバック 好循環のどこが⽋欠けてもサイクルは回りません データを 取得 課題解決 する データが増える Copyright (C) 2015 Yahoo Japan Corporation. All Rights Reserved. 無断引⽤用・転載禁⽌止
Yahoo! JAPAN のパイプライン DataHighway Copyright (C) 2015 Yahoo Japan Corporation. All Rights Reserved. 無断引⽤用・転載禁⽌止 の実⼒力力
データ量量と安定性が抜群 データ量量 約125TB/⽇日 累累積停⽌止時間 約3時間/年年 (2014年年実績値) クライアント側 ログ送信プログラム 7年年ほぼ致命的なバグなし このSLA・低事故率率率で、YJのログ転送を7年年間⽀支える Copyright (C) 2015 Yahoo Japan Corporation. All Rights Reserved. 無断引⽤用・転載禁⽌止
パイプラインをさらに進化させるための課題 Copyright (C) 2015 Yahoo Japan Corporation. All Rights Reserved. 無断引⽤用・転載禁⽌止 画像:アフロ
ヤフーのパイプラインが抱える課題 課題1: データ量量と種類は指数関数的に増える 課題2: クローズなシステムの限界 Copyright (C) 2015 Yahoo Japan Corporation. All Rights Reserved. 無断引⽤用・転載禁⽌止
課題1 : データ量量と種類は指数関数的に増える 001 4 3 9 5 31 0 ( 0 212:, 2 0 0 : 0 0 0 4 3 9 85746 ,2 ヤフー社内でも爆増 5 ) 0 Copyright (C) 2015 Yahoo Japan Corporation. All Rights Reserved. 無断引⽤用・転載禁⽌止
課題1 : 売上はデータ量量の爆増的に増えない データ量量は指数関数で増えても・・・ 9 85746 ,2 31 0 ( 0 212:, 2 0 0 : 0 0 0 売上は指数関数的に増えない ) 0 Copyright (C) 2015 Yahoo Japan Corporation. All Rights Reserved. 無断引⽤用・転載禁⽌止
課題1 : データ量量と種類は指数関数的に増える 001 4 3 9 5 31 0 ( 0 212:, 2 0 0 : 0 0 0 4 3 9 85746 ,2 ヤフー社内でも爆増 5 ) 0 受けられるトラフィックは線形の成⻑⾧長ではなく… 指数関数に成長させたい! Copyright (C) 2015 Yahoo Japan Corporation. All Rights Reserved. 無断引⽤用・転載禁⽌止
課題2 : クローズなシステムの限界 • 試⾏行行回数が少ない • システムそのものの開発スピードが遅い • インターフェースがオープンではないため、 ガラパゴス化する Copyright (C) 2015 Yahoo Japan Corporation. All Rights Reserved. 無断引⽤用・転載禁⽌止
難しい課題を解決するためにやっていること Copyright (C) 2015 Yahoo Japan Corporation. All Rights Reserved. 無断引⽤用・転載禁⽌止 画像:アフロ
爆増対策 : 売上はデータ量量の爆増的に増えない データ量量は指数関数で増えても・・・ 9 85746 ,2 31 0 ( 0 212:, 2 0 0 : 0 0 0 売上は指数関数的に増えない ) 0 技術⼒力力でカバーする Copyright (C) 2015 Yahoo Japan Corporation. All Rights Reserved. 無断引⽤用・転載禁⽌止
爆増対策:掛け算で考える サーバを増やすだけでなく、様々なレイヤで技術的に向上させる い ま ま で : サ ー バ を ⾜足 す x2 アプリケーション . . . . . . 400 台 こ れ か ら : 各 レ イ ヤ を 技 術 で 効 率率率 化 x2 プラットフォーム + +40 台 OS x2 ハードウェア x2 ネットワーク x2 データセンター x2 Copyright (C) 2015 Yahoo Japan Corporation. All Rights Reserved. 無断引⽤用・転載禁⽌止 64 倍
オープンな技術を使う クローズ オープン 試⾏行行回数 少ない 多い 開発スピード 遅い 速い インタフェース ガラパゴス 豊富 Copyright (C) 2015 Yahoo Japan Corporation. All Rights Reserved. 無断引⽤用・転載禁⽌止
次世代パイプライン Soft : Kafka , MirrorMaker Hard : OCP , sw Network : Fabric network Copyright (C) 2015 Yahoo Japan Corporation. All Rights Reserved. 無断引⽤用・転載禁⽌止
次世代パイプライン Kafkaとは メッセージングブローカーで、データを分散・分割・レプリケーションを⾏行行い、 管理理することができるサービス。 クライアントとサーバの通信は、⾔言語にとらわれず TCP protocol によってシンプルに⾏行行われる。 • 低遅延で⾼高スループット • インターフェースが豊富 • 耐障害性が⾼高い • スケールアウトが容易易・低コスト • トピックやパーティションの概念念 • 開発コミュニティが活発である Copyright (C) 2015 Yahoo Japan Corporation. All Rights Reserved. 無断引⽤用・転載禁⽌止
次世代パイプライン Kafkaのコンポーネント producer producer producer producer:メッセージを書き込む broker :メッセージをストアする broker consumer :メッセージを読み込む cluster : 複数のbroker で形成する consumer consumer consumer Copyright (C) 2015 Yahoo Japan Corporation. All Rights Reserved. 無断引⽤用・転載禁⽌止
次世代パイプライン MirrorMaker kafka cluster • あるKafkaクラスタから、 他のKafkaクラスタに対して、 対象のログを転送しミラーする • Scala製 • ConsumerとProducerが 組み合わさった構造 Copyright (C) 2015 Yahoo Japan Corporation. All Rights Reserved. 無断引⽤用・転載禁⽌止 Mirror Maker kafka cluster
次世代パイプライン Copyright (C) 2015 Yahoo Japan Corporation. All Rights Reserved. 無断引⽤用・転載禁⽌止
次世代パイプライン n Local cluster • Daily Traffic : 44.5 TB(圧縮済み) • サーバ台数:35台 • レプリケーションファクター:3 n Aggregate cluster • Daily Traffic : 135 TB(圧縮済み) • サーバ台数:83台 • レプリケーションファクター:3 Copyright (C) 2015 Yahoo Japan Corporation. All Rights Reserved. 無断引⽤用・転載禁⽌止
まとめ 課題と解決策 • データの爆増 → 各レイヤで技術的に解決する • クローズなシステム → オープンなシステムに 次世代パイプラインの特徴 • ユーザレスポンスを意識識した構成に Copyright (C) 2015 Yahoo Japan Corporation. All Rights Reserved. 無断引⽤用・転載禁⽌止
最後に このパイプラインで得られた知⾒見見や課題を Kafka に FB やコントリビュートし、 データパイプラインの発展に 貢献していきます Copyright (C) 2015 Yahoo Japan Corporation. All Rights Reserved. 無断引⽤用・転載禁⽌止