黄色いゾウさんと愉快な仲間たちの近況報告 #hadoopreading

105 Views

August 22, 16

スライド概要

Hadoopソースコードリーディング 第21回のスライドです。
https://www.eventbrite.com/e/hadoop-21-tickets-26913657474

profile-image

2023年10月からSpeaker Deckに移行しました。最新情報はこちらをご覧ください。 https://speakerdeck.com/lycorptech_jp

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

(ダウンロード不可)

関連スライド

各ページのテキスト
1.

黄色いゾウさんと 愉快な仲間たちの 近況報告 2016年8月24日 @shoe116 1

2.

0. 本日の内容 1. 2. 3. 4. 自己紹介 注目キーワード紹介 黄色いゾウさんと愉快な仲間たちの近況 個人的な所感 注) 内容は筆者の個人的見解であり、筆者の所属組織とは無関係です 2

3.

1. 自己紹介:@shoe116 なまえ:しゅう (@shoe116) お仕事:データプラットフォーム部データフィード - いろんなデータをETLしてHDFSに置いておく これまで:広告システム→Qubitalデータサイエンス 言語:Python, Java > JavaScript > Scala, C++ 興味:No music, no life. No idol, no life. 課外活動:お歌を歌ったり、戯言を並べたり - https://shoe116.tumblr.com/ 3

4.

2. 注目キーワード紹介

5.

#HS16SJの注目キーワード 独断と偏見で選んだ、Hadoop界隈注目キーワード。 1. data in motion, data at rest 2. Stream Processing 3. Enterprise [1] 5

6.

Data in Motion, Data at Rest • • • • data in motion = 今まさに生まれているデータ data at rest = 蓄積済みのデータ 今までは“at rest”、つまりデータレイクメイン 今後は“in motion”と“at rest”を組み合わせる [1] 6

7.

Stream Processing • 生まれ続けるデータ(“data in motion”)から、いかに速 く価値をだすか? • 全セッションの1/4はデータの継続的な逐次処理、い わゆるストリーム処理がテーマ • 今までbatchでしか処理出来なかったことを、どう やってStreamで処理するか 7

8.

Enterprise • 簡単に言うと、HAとセキュリテイ(ACL)のこと。keynote では大人気(ある意味当たり前) • HAは、各社具体的な取り組み報告あり • セキュリティは「Enterpriseにはセキュリティ大事だよ ね!」「うんうん!」という感じ • ACLの話を始めると、HDFSが結局“ファイルシステ ム”であるという問題が顕在化する 8

9.

3. 黄色いゾウさんと 愉快な仲間たちの 近況報告

10.

Hadoopとエコシステムの現状 独断と偏見で選んだ、最近のエコシステムのあり方。 1. 2. 3. 4. Kafkaはデファクトスタンダード Stream処理エンジンは群雄割拠 HDFSへのSQLはHiveへ収束 Sparkは分析ツール [1] 10

11.

Kafkaはデファクトスタンダード • 流行りというより、常識になった • データはKafkaから流れてきて、最終的にHDFSに置 かれる • Stream処理の入り口はほぼKafka一択な感じ [2] 11

12.

Stream処理エンジンは群雄割拠 • Storm, Spark Streaming, Flink, Flume, Kafka Streams, Heron, and etc • プロダクションの実績ではStromが一歩リード。 • 注力領域だけあってポジショントークがすごい • Hortonworks 「Strom1.0がでたよ!2系も来るよ!」 • Cloudera 「Stormは直に歴史の1ページ」 • “Ingest and Stream Processing - What will you choose?”[3]にまとまっている 12

13.

HDFSへのSQLはHiveへ収束 • HDFSへのSQL(いわゆるSQL on Hadoop)はHiveに 落ち着いた。特にメモリに載り切らないSQLはHive 一択 • Presto, Drill, Impala等はmassively-parallel processing (MPP)でインタラクティブ、かつデータソ ースを跨ぐ部分で競争中 • “Apache Hive 2.0: SQL, Speed, Scale”[4]に一通りまと まっている 13

14.

Sparkは分析ツール • パフォーマンスというより、多機能でプログラミングし やすいインターフェースが売り • Hiveやprestoと同じ、データから価値を出すツール [5] 14

15.

4. 個人的な所感

16.

#HS16SJの個人的な感想 Hadoop Summit 2016に行った個人的な感想。 1. セキュリティ、特にACLについて 2. オンプレとクラウドの使い分け 3. アメリカすごい、日本ヤバい [1] 16

17.

セキュリティ、特にACLについて • file systemであるHDFSに直接アクセスされると、 schemaでのACLは当然かけられない • 列指向フォーマットファイル(ORC等)に、抽象化した アクセスを提供するレイヤが待たれる • つまりそれがLLAP(+Renger)で、目下開発中 17

18.

オンプレとクラウドの使い分け • ちょっと前までは「とりあえずデータはクラウド」って 言う感じ • “data in motion”の処理は当然プロダクションから 近いほど有利 • クラウドとオンプレを組み合わせる • “data at rest”はクラウド • “data in motion”はプロダクション環境 18

19.

アメリカすごい、日本ヤバい • HDFS+kafkaをmongoDB+rabbitMQくらいの感じでみ んな自然に使ってる • 日本のビッグデータはまだ目的な気がする、アメリ カではすでに手段になっている • 抱えている課題は日米同レベル、違うのは解決力 19

20.

参考資料等 [1] Hortonworks Modern Architecture http://www.slideshare.net/MatsJohansson4/data-in-motion-data-at-rest-hortonworks-a-modern-architecture [2][3] Ingest and Stream Processing - What will you choose? http://www.slideshare.net/HadoopSummit/ingest-and-stream-processing-what-will-you-choose?qid=bcf794fa-e2eb-4eb9-947867d42c5a790c&v=&b=&from_search=2 [4] Apache Hive 2.0: SQL, Speed, Scale http://www.slideshare.net/HadoopSummit/apache-hive-20-sql-speed-scale-63920205 [5] Producing Spark on YARN for ETL http://www.slideshare.net/HadoopSummit/producing-spark-on-yarn-for-etl 20