データテクノロジースペシャル:Yahoo! JAPANにおけるメタデータ管理の試み

1.3K Views

March 02, 17

スライド概要

profile-image

2023年10月からSpeaker Deckに移行しました。最新情報はこちらをご覧ください。 https://speakerdeck.com/lycorptech_jp

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

(ダウンロード不可)

関連スライド

各ページのテキスト
1.

データテクノロジースペシャル: Yahoo! JAPANにおける メタデータ管理の試み 2017年2月16日 吉野 彰真 Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.

2.

アジェンダ 1. 2. 3. 4. 5. 6. 自己紹介 ヤフーの事業 ヤフーのビッグデータ データマネジメント概論 メタデータ管理の取り組み まとめ Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved. 1

3.

自己紹介 データ&サイエンスソリューション統括本部 データガバナンスチーム 吉野 彰真 (YOSHINO Akimasa) 2011年 ヤフーに入社 大規模RDB環境(Oracle/MySQL)の 構築・運用を経て、データマネジメ ント領域を担当 Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved. 2

4.

データ&サイエンスソリューション統括本部 データ&サイエンスソリューション統括本部 サイエンス Yahoo! JAPAN サービス データサービス データ&サイエンス データプラットフォーム データセンター 研究所 Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved. 3

5.

1. ヤフーの事業 Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.

6.

事業状況 20 years 19 18 17 Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved. 5

7.

企業価値 as of May 2016 600 500 bilion U.S. dollars 400 300 200 世界18位 100 0 http://www.statista.com/statistics/277483/market-value-of-the-largest-internet-companies-worldwide/ Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved. 6

8.

ユーザー規模 1日約 9,000万 ユニーク ブラウザ ※出典:ヤフー株式会社 2016年度第3四半期事業指標推移表(2016年4月-12月の平均) Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved. 7

9.

提供サービス Media US YAHOO! Search Video Answer Google NETFLIX Quora Mail GMail JP US Membership C2C Payment C2C EC B2C EC Local Aol. PayPal ebay amazon yelp JP Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved. 8

10.

社外秘 Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved. 9

11.

ネット企業から データドリブン 企業へ Copyright Copyright © © 2017 2017 Yahoo Yahoo Japan Japan Corporation. Corporation. All All Rights Rights Reserved. Reserved.

12.

データ = AIによる産業革命 ●産業革命 蒸気機関 機械 生産能力の向上 AI 認知能力の向上 ●新産業革命 ビッグデータ ーーーーー ビッグデータがないとAIは作れない Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved. 11

13.

社外秘 Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved. 12

14.

マルチなデータセット EC FinTech メディア など など など Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved. 13

15.

データ = 直接的資産 興味のある言葉 検索 買ったもの EC ユーザーの資産 金融 メッセージングサービス 自然言語 地図、カーナビ 位置情報 Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved. 14

16.

データ = エコシステムの源泉 データから 気づきを得る AI ユーザー サービスや 機能を提供 データ データがたまる Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved. 15

17.

データ = エコシステムの源泉 データから 気づきを得る サービスや 機能を提供 無限の再帰性 AI ユーザ データ データがたまる Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved. 16

18.

例: タイムライン 検索クエリ おすすめ 記事 おすすめ 検索 AI クリック履歴 Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved. タイム ライン 17

19.

例:広告 クリック履歴 クリック したくなる 広告 (最適な情報) 検索クエリ AI 訪問履歴 PV履歴 Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved. 広告 検索 パートナー サイト Yahoo! JAPAN サービス 18

20.

これからのヤフー データから得た気づきを 最大限に活用した ヤフーにしかできない 提案・サービス Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved. 19

21.

社外秘 Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved. 20

22.

取り組んでいくこと 5 1 データを効率よく運用する 2 計算力 強化 3 人財の強化 4 サービスの 5 ものづくりの変革 4 2 ユーザー AI 3 1 データ の Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved. 磨き込み 21

23.

2. ヤフーのビッグデータ Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.

24.

膨大なデータボリューム 月間 674億PV PC + その他 281億 PV Smart Phone 393億 PV FY16-3Q事業指標 http://ir.yahoo.co.jp/jp/archives/present/2016q3/index.html Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved. 23

25.

巨大なデータプラットフォーム Hadoop RDB NoSQL Object Storage Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved. DWH 24

26.

巨大なデータプラットフォーム 7,000 nodes 150 PB Hadoop 800 2,000 1,500 600,000 DBs nodes nodes Query/day NoSQL Object Storage DWH RDB *弊社独自の調査 2017年1月時点 Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved. 25

27.

技術 Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved. 26

28.

Global Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved. 27

29.

どれだけ価値を引き出せるか? ? Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved. 28

30.

どれだけ価値を引き出せるか? データマネジメント ↓ ? データの資産化 資産価値の最大化 Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved. 29

31.

3. データマネジメント概論 Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.

32.

フレームワーク Data Management Body of Knowledge (DMBOK) • PMBOK → DMBOK • 知識体系 https://www.dama.org/content/body-knowledge Data Management Maturity (DMM)℠ Model • CMMI → DMM • 成熟度モデル http://cmmiinstitute.com/data-management-maturity Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved. 31

33.

難しいポイント データの構造 事業の構造 Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved. 企業文化 32

34.

ヤフーの考えるマネジメント領域 データスチュ ワードシップ メタデータ管理 データストレー データインテグ データアーキ レーション&イ ジ&オペレー ンターオペラビ テクチャ ション リティ データウェアハウス & ビジネスインテリジェン ス データセキュリティ データモデリ ドキュメント& リファレンス& データクォリ ング&デザイ コンテンツ マスターデータ ティ ン Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved. 33

35.

ヤフーの考えるマネジメント領域 データストレー データインテグ レーション&イ データスチュ データアーキ ジ&オペレー ンターオペラビ フレームワークを参考に領域を定義 テクチャ ワードシップ ション リティ データウェアハウ ス&ビジネスインテ リジェンス データセキュリティ 領域ごとにやること整理 メタデータ管理 データモデリ ドキュメント& リファレンス& データクォリ ング&デザイ コンテンツ マスターデータ ティ ン イニシアチブ化 Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved. 34

36.

目下注力しているイニシアチブ a.データスチュワードシップ b.データ標準化 c.データライフサイクル&エコシステム d.メタデータ管理 Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved. 35

37.

a. データスチュワードシップ 全社横断 カンパニーA の ネットワーク ・ 場 カンパニーB Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved. カンパニーC 36

38.

b. データ標準化 標準 カンパニーA カンパニーB と 計測 サービスC Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved. サービスD 37

39.

c. データライフサイクル/エコシステム 利用 ・利用量の可視化 ・利用状況の可視化 ・保管方針 ・コスト可視化 蓄積 Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved. 38

40.

c. データライフサイクル/エコシステム ログ種別毎 Hadoopアクセス回数(2016/2/1実績) Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved. 39

41.

d. メタデータ管理 Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved. 40

42.

4. メタデータ管理の 取り組み Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.

43.

メタデータ管理とは? • メタデータ = “データについてのデータ” DATA METADATA {タイトル} {シリーズ} {あらすじ} {著者} {翻訳者} {出版社} {版} {発行年月日} {価格} : Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved. 42

44.

メタデータ管理とは? メタデータ管理 = データ資産化の第一歩 Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved. 43

45.

メタデータの種類 データの価値 意思決定・ビジネス利用の実績・ポテンシャル データ品質 定量化・スコア化された指標、正確性・完全性・精度… データフロー リネージ、加工元 → 加工先の関連 運用メタデータ SLA、 連絡先、オーナー ビジネスメタデータ 日本語の説明、コード体系(男性=0,女性=1) テクニカルメタデータ テーブル/カラムの定義、ファイルパス、サーバ Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved. 44

46.

メタデータの種類 データの価値 意思決定・ビジネス利用の実績・ポテンシャル データ品質 定量化・スコア化された指標、正確性・完全性・精度… データフロー リネージ、加工元 → 加工先の関連 運用メタデータ SLA、 連絡先、オーナー ビジネスメタデータ 日本語の説明、コード体系(男性=0,女性=1) テクニカルメタデータ テーブル/カラムの定義、ファイルパス、サーバ Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved. 45

47.

メタデータの種類 データの価値 意思決定・ビジネス利用の実績・ポテンシャル データ品質 定量化・スコア化された指標、正確性・完全性・精度… データフロー リネージ、加工元 → 加工先の関連 運用メタデータ SLA、 連絡先、オーナー ビジネスメタデータ 日本語の説明、コード体系(男性=0,女性=1) テクニカルメタデータ テーブル/カラムの定義、ファイルパス、サーバ Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved. 46

48.

メタデータの種類 データの価値 意思決定・ビジネス利用の実績・ポテンシャル データ品質 定量化・スコア化された指標、正確性・完全性・精度… データフロー リネージ、加工元 → 加工先の関連 運用メタデータ SLA、 連絡先、オーナー ビジネスメタデータ 日本語の説明、コード体系(男性=0,女性=1) テクニカルメタデータ テーブル/カラムの定義、ファイルパス、サーバ Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved. 47

49.

メタデータの種類 データの価値 意思決定・ビジネス利用の実績・ポテンシャル データ品質 定量化・スコア化された指標、正確性・完全性・精度… データフロー リネージ、加工元 → 加工先の関連 運用メタデータ SLA、 連絡先、オーナー ビジネスメタデータ 日本語の説明、コード体系(男性=0,女性=1) テクニカルメタデータ テーブル/カラムの定義、ファイルパス、サーバ Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved. 48

50.

ポイント 自動と人手 課題ベースで選択 & Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved. 49

51.

課題感 (1/2) データ資産の全体観が把握できていない 存在レベルでもいいのでひととおり把握したい × 資産の把握 × 横断利用 ? ? ? Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved. ? 50

52.

課題感 (2/2) “人手” に 膨大な工数が必要 Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved. 51

53.

充実度 データ資産把握のイメージ カバレッジ (100%) Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved. 52

54.

充実度 データ資産把握のイメージ 技術 カバレッジ (100%) Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved. 53

55.

データ資産把握のイメージ 充実度 ルール/マネジメント 技術 カバレッジ (100%) Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved. 54

56.

メタデータ管理の仕組み(構想) データプラットフォーム Object Storage Hadoop 準構造化 構造化 new new (Hive) RDB Oracle/MySQL KVS 構造化 非構造化 new new (HDFS) Teradata メタデータ管理 new new (S3ライクなFS) 網羅率100%で自動収集 ルールに基づき人手で追記 Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved. 55

57.

今後の予定 ・仕組み構築 ・ルールの策定と展開 ソリューション 明快なルール 開発 スチュワードシップ すべての事業の基礎としてやり遂げる Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved. 56

58.

5. まとめ Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.

59.

まとめ データ=資産 メタデータ管理は資産管理の第一歩 模範をめざす Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved. 58

60.

仲間募集中! 日本の課題解決エンジンを支える Yahoo! JAPAN の データ部門 名刺交換 スマホ or PC から 「ヤフー 採用」 or で検索! ※写真はイメージです Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved. 59

61.

(写真:アフロ)