>100 Views
February 15, 16
スライド概要
Hadoop/Spark Conference Japan 2016のLT(ランチタイム: A会場)で話した資料になります。
http://hadoop.apache.jp/hcj2016-program/
2023年10月からSpeaker Deckに移行しました。最新情報はこちらをご覧ください。 https://speakerdeck.com/lycorptech_jp
いろいろなストリーム処理理プロダクトを ベンチマークしてみた ヤフー株式会社 データ&サイエンスソリューション統括本部 データインフラ本部 開発2部 アナリティクス基盤 三⽊木 健司 2016年年2⽉月8⽇日 http://www.yahoo.co.jp /
⾃自⼰己紹介 名前 三⽊木 健司(みつぎ けんじ) エコシステム歴 MR, Hive, storm, Kafka... 仕事 アクセス解析 -‐‑‒> ETL処理理 -‐‑‒> インフラ構築 Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引⽤用・転載禁⽌止 2
動機 どのストリーム処理理が良良いか知りたい YARNで動かしたい Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引⽤用・転載禁⽌止 3
ストリーム処理理プロダクト紹介 Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引⽤用・転載禁⽌止 4
Storm紹介 初期リリース: 2011 主開発: Yahoo!(⽶米), Hortonworks 特徴 ⽅方式: stream, micro-‐‑‒batch 保証: at least once, exactly once YARN対応: ◯(Sliderを使えば) Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引⽤用・転載禁⽌止 5
Spark Streaming紹介 初期リリース: 2013 (Spark 0.7.0より) 主開発: Databricks 特徴 ⽅方式: micro-‐‑‒batch 保証: at least once, exactly once YARN対応: ◯ Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引⽤用・転載禁⽌止 6
Samza紹介 初期リリース: 2013 主開発: LinkedIn 特徴 ⽅方式: stream 保証: at least once YARN対応: ◯ Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引⽤用・転載禁⽌止 7
Flink streaming紹介 初期リリース: 2014(Flink 0.7.0より) 主開発: Data Artisans 特徴 ⽅方式: stream 保証: at least once, exactly once YARN対応: ◯ Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引⽤用・転載禁⽌止 8
ベンチマーク Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引⽤用・転載禁⽌止 9
ベンチマークする前に チューニングほぼなしで試してみた → 今回はこちら チューニング⾏行行い実環境に近い → 次回あれば Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引⽤用・転載禁⽌止 10
ベンチマーク⽅方法 項⽬目 内容 CPU Xeon E5-‐‑‒2630L v2 2.40GHz 12Core メモリ 64GB HDD 500GB ネットワーク 1G 台数 32台(実質動作は3台、他は管理理やKafka) 構築 Ambari 2.2 (HDP 2.3.4) データ Apache License v2を永遠ループ(平均67byte) 処理理 word count Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引⽤用・転載禁⽌止 11
ベンチマーク⽅方法 Hadoop(YARN) HDFSへ投⼊入 3台 データ投⼊入 4台 20台 Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引⽤用・転載禁⽌止 12
ベンチマーク結果 CPU使⽤用割合 平均 15 10 5 0 Storm Spark Samza Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引⽤用・転載禁⽌止 Flink 13