1.2K Views
March 02, 17
スライド概要
2023年10月からSpeaker Deckに移行しました。最新情報はこちらをご覧ください。 https://speakerdeck.com/lycorptech_jp
データテクノロジースペシャル: Yahoo! JAPANにおける メタデータ管理の試み 2017年2月16日 吉野 彰真 Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.
アジェンダ 1. 2. 3. 4. 5. 6. 自己紹介 ヤフーの事業 ヤフーのビッグデータ データマネジメント概論 メタデータ管理の取り組み まとめ Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved. 1
自己紹介 データ&サイエンスソリューション統括本部 データガバナンスチーム 吉野 彰真 (YOSHINO Akimasa) 2011年 ヤフーに入社 大規模RDB環境(Oracle/MySQL)の 構築・運用を経て、データマネジメ ント領域を担当 Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved. 2
データ&サイエンスソリューション統括本部 データ&サイエンスソリューション統括本部 サイエンス Yahoo! JAPAN サービス データサービス データ&サイエンス データプラットフォーム データセンター 研究所 Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved. 3
1. ヤフーの事業 Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.
事業状況 20 years 19 18 17 Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved. 5
企業価値 as of May 2016 600 500 bilion U.S. dollars 400 300 200 世界18位 100 0 http://www.statista.com/statistics/277483/market-value-of-the-largest-internet-companies-worldwide/ Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved. 6
ユーザー規模 1日約 9,000万 ユニーク ブラウザ ※出典:ヤフー株式会社 2016年度第3四半期事業指標推移表(2016年4月-12月の平均) Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved. 7
提供サービス Media US YAHOO! Search Video Answer Google NETFLIX Quora Mail GMail JP US Membership C2C Payment C2C EC B2C EC Local Aol. PayPal ebay amazon yelp JP Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved. 8
社外秘 Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved. 9
ネット企業から データドリブン 企業へ Copyright Copyright © © 2017 2017 Yahoo Yahoo Japan Japan Corporation. Corporation. All All Rights Rights Reserved. Reserved.
データ = AIによる産業革命 ●産業革命 蒸気機関 機械 生産能力の向上 AI 認知能力の向上 ●新産業革命 ビッグデータ ーーーーー ビッグデータがないとAIは作れない Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved. 11
社外秘 Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved. 12
マルチなデータセット EC FinTech メディア など など など Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved. 13
データ = 直接的資産 興味のある言葉 検索 買ったもの EC ユーザーの資産 金融 メッセージングサービス 自然言語 地図、カーナビ 位置情報 Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved. 14
データ = エコシステムの源泉 データから 気づきを得る AI ユーザー サービスや 機能を提供 データ データがたまる Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved. 15
データ = エコシステムの源泉 データから 気づきを得る サービスや 機能を提供 無限の再帰性 AI ユーザ データ データがたまる Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved. 16
例: タイムライン 検索クエリ おすすめ 記事 おすすめ 検索 AI クリック履歴 Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved. タイム ライン 17
例:広告 クリック履歴 クリック したくなる 広告 (最適な情報) 検索クエリ AI 訪問履歴 PV履歴 Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved. 広告 検索 パートナー サイト Yahoo! JAPAN サービス 18
これからのヤフー データから得た気づきを 最大限に活用した ヤフーにしかできない 提案・サービス Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved. 19
社外秘 Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved. 20
取り組んでいくこと 5 1 データを効率よく運用する 2 計算力 強化 3 人財の強化 4 サービスの 5 ものづくりの変革 4 2 ユーザー AI 3 1 データ の Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved. 磨き込み 21
2. ヤフーのビッグデータ Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.
膨大なデータボリューム 月間 674億PV PC + その他 281億 PV Smart Phone 393億 PV FY16-3Q事業指標 http://ir.yahoo.co.jp/jp/archives/present/2016q3/index.html Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved. 23
巨大なデータプラットフォーム Hadoop RDB NoSQL Object Storage Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved. DWH 24
巨大なデータプラットフォーム 7,000 nodes 150 PB Hadoop 800 2,000 1,500 600,000 DBs nodes nodes Query/day NoSQL Object Storage DWH RDB *弊社独自の調査 2017年1月時点 Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved. 25
技術 Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved. 26
Global Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved. 27
どれだけ価値を引き出せるか? ? Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved. 28
どれだけ価値を引き出せるか? データマネジメント ↓ ? データの資産化 資産価値の最大化 Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved. 29
3. データマネジメント概論 Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.
フレームワーク Data Management Body of Knowledge (DMBOK) • PMBOK → DMBOK • 知識体系 https://www.dama.org/content/body-knowledge Data Management Maturity (DMM)℠ Model • CMMI → DMM • 成熟度モデル http://cmmiinstitute.com/data-management-maturity Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved. 31
難しいポイント データの構造 事業の構造 Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved. 企業文化 32
ヤフーの考えるマネジメント領域 データスチュ ワードシップ メタデータ管理 データストレー データインテグ データアーキ レーション&イ ジ&オペレー ンターオペラビ テクチャ ション リティ データウェアハウス & ビジネスインテリジェン ス データセキュリティ データモデリ ドキュメント& リファレンス& データクォリ ング&デザイ コンテンツ マスターデータ ティ ン Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved. 33
ヤフーの考えるマネジメント領域 データストレー データインテグ レーション&イ データスチュ データアーキ ジ&オペレー ンターオペラビ フレームワークを参考に領域を定義 テクチャ ワードシップ ション リティ データウェアハウ ス&ビジネスインテ リジェンス データセキュリティ 領域ごとにやること整理 メタデータ管理 データモデリ ドキュメント& リファレンス& データクォリ ング&デザイ コンテンツ マスターデータ ティ ン イニシアチブ化 Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved. 34
目下注力しているイニシアチブ a.データスチュワードシップ b.データ標準化 c.データライフサイクル&エコシステム d.メタデータ管理 Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved. 35
a. データスチュワードシップ 全社横断 カンパニーA の ネットワーク ・ 場 カンパニーB Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved. カンパニーC 36
b. データ標準化 標準 カンパニーA カンパニーB と 計測 サービスC Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved. サービスD 37
c. データライフサイクル/エコシステム 利用 ・利用量の可視化 ・利用状況の可視化 ・保管方針 ・コスト可視化 蓄積 Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved. 38
c. データライフサイクル/エコシステム ログ種別毎 Hadoopアクセス回数(2016/2/1実績) Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved. 39
d. メタデータ管理 Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved. 40
4. メタデータ管理の 取り組み Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.
メタデータ管理とは? • メタデータ = “データについてのデータ” DATA METADATA {タイトル} {シリーズ} {あらすじ} {著者} {翻訳者} {出版社} {版} {発行年月日} {価格} : Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved. 42
メタデータ管理とは? メタデータ管理 = データ資産化の第一歩 Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved. 43
メタデータの種類 データの価値 意思決定・ビジネス利用の実績・ポテンシャル データ品質 定量化・スコア化された指標、正確性・完全性・精度… データフロー リネージ、加工元 → 加工先の関連 運用メタデータ SLA、 連絡先、オーナー ビジネスメタデータ 日本語の説明、コード体系(男性=0,女性=1) テクニカルメタデータ テーブル/カラムの定義、ファイルパス、サーバ Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved. 44
メタデータの種類 データの価値 意思決定・ビジネス利用の実績・ポテンシャル データ品質 定量化・スコア化された指標、正確性・完全性・精度… データフロー リネージ、加工元 → 加工先の関連 運用メタデータ SLA、 連絡先、オーナー ビジネスメタデータ 日本語の説明、コード体系(男性=0,女性=1) テクニカルメタデータ テーブル/カラムの定義、ファイルパス、サーバ Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved. 45
メタデータの種類 データの価値 意思決定・ビジネス利用の実績・ポテンシャル データ品質 定量化・スコア化された指標、正確性・完全性・精度… データフロー リネージ、加工元 → 加工先の関連 運用メタデータ SLA、 連絡先、オーナー ビジネスメタデータ 日本語の説明、コード体系(男性=0,女性=1) テクニカルメタデータ テーブル/カラムの定義、ファイルパス、サーバ Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved. 46
メタデータの種類 データの価値 意思決定・ビジネス利用の実績・ポテンシャル データ品質 定量化・スコア化された指標、正確性・完全性・精度… データフロー リネージ、加工元 → 加工先の関連 運用メタデータ SLA、 連絡先、オーナー ビジネスメタデータ 日本語の説明、コード体系(男性=0,女性=1) テクニカルメタデータ テーブル/カラムの定義、ファイルパス、サーバ Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved. 47
メタデータの種類 データの価値 意思決定・ビジネス利用の実績・ポテンシャル データ品質 定量化・スコア化された指標、正確性・完全性・精度… データフロー リネージ、加工元 → 加工先の関連 運用メタデータ SLA、 連絡先、オーナー ビジネスメタデータ 日本語の説明、コード体系(男性=0,女性=1) テクニカルメタデータ テーブル/カラムの定義、ファイルパス、サーバ Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved. 48
ポイント 自動と人手 課題ベースで選択 & Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved. 49
課題感 (1/2) データ資産の全体観が把握できていない 存在レベルでもいいのでひととおり把握したい × 資産の把握 × 横断利用 ? ? ? Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved. ? 50
課題感 (2/2) “人手” に 膨大な工数が必要 Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved. 51
充実度 データ資産把握のイメージ カバレッジ (100%) Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved. 52
充実度 データ資産把握のイメージ 技術 カバレッジ (100%) Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved. 53
データ資産把握のイメージ 充実度 ルール/マネジメント 技術 カバレッジ (100%) Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved. 54
メタデータ管理の仕組み(構想) データプラットフォーム Object Storage Hadoop 準構造化 構造化 new new (Hive) RDB Oracle/MySQL KVS 構造化 非構造化 new new (HDFS) Teradata メタデータ管理 new new (S3ライクなFS) 網羅率100%で自動収集 ルールに基づき人手で追記 Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved. 55
今後の予定 ・仕組み構築 ・ルールの策定と展開 ソリューション 明快なルール 開発 スチュワードシップ すべての事業の基礎としてやり遂げる Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved. 56
5. まとめ Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.
まとめ データ=資産 メタデータ管理は資産管理の第一歩 模範をめざす Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved. 58
仲間募集中! 日本の課題解決エンジンを支える Yahoo! JAPAN の データ部門 名刺交換 スマホ or PC から 「ヤフー 採用」 or で検索! ※写真はイメージです Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved. 59
(写真:アフロ)