530 Views
August 22, 16
スライド概要
Hadoopソースコードリーディング 第21回のスライドです。
https://www.eventbrite.com/e/hadoop-21-tickets-26913657474
2023年10月からSpeaker Deckに移行しました。最新情報はこちらをご覧ください。 https://speakerdeck.com/lycorptech_jp
Apache Atlasの現状と データガバナンス事例 Hadoop Summit 2016 San Joseの報告会 ヤフー株式会社 曾臻 2016年08月18日 http://www.yahoo.co.jp/
自己紹介 曾 臻(そ しん) ヤフー株式会社 D&S データプラットフォーム本部 開発3部所属 Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 2
アジェンダ • • • • イベント概要 全体的な所感 Apache Atlasの現状 eBayのデータガバナンス事情 Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 3
• • • • イベント概要 全体的な所感 Apache Atlasの現状 eBayのデータガバナンス事情 Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 4
イベント概要 サンノゼ 2016年6月28日〜30日 Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 5
• • • • イベント概要 全体的な所感 Apache Atlasの現状 eBayのデータガバナンス事情 Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 6
全体的な所感(1) • Hadoop技術は成熟期に入っている • • プロダクトの選択肢は増えている 例:SQL-On-Hadoop:Hive/HAWQ/Drill/Presto • Hadoopクラスター構築と管理のハードルは下がっ た、より簡単になっている • • Ambariのクラスター管理機能は更に進化。SQL文実行 もできるようになる Cloudbreakを使えば、あらゆるクラウドのHadoop向け の自動プロビジョニングが簡単にできる Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 7
全体的な所感(2) • ビジネス関連のセッションが増えている • Hadoopをどう使えば利益になるか、関心度が上がって いる。 • データガバナンスの重要度が上がっている • データサイズと種類が増えているので、管理が難しくな る • 同大会に参加した他のエンジニアと話が出来て良 かった • アメリカンフードは一日で十分。和食と中華が良い w Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 8
• • • • イベント概要 全体的な所感 Apache Atlasの現状 eBayのデータガバナンス事情 Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 9
Apache Atlasとは? • 一言:データガバナンスのための基盤です • Atlas helps customers discover information about data objects, their meaning, location, characteristics, and usage. • Designed to exchange metadata with other tools and processes within and outside of the Hadoop stack, thereby enabling platformagnostic governance controls that effectively address compliance requirements ソース:https://jp.hortonworks.com/apache/atlas/ Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 10
Apache Atlasアーキテクチャ 4つのキーポイント: • Data Lineage • Agile Data Modeling • REST API • Exchange ソース: http://www.slideshare.net/HadoopSummit/top-three-big-data-governance-issues-and-how-apache-atlas-resolves-it-for-the-enterprise Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 11
データガバナンスの目的 • 組織はデータガバナンスによって、データの情報を 把握したい。例えば: • • • 我々の情報について何を知っている? このデータはどこから来ている?誰が使える? このデータは会社のポリシーとルールに従っているか? Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 12
Apache Atlasロードマップ • • 去年年末、Atlas 0.6について検証した • HiveからTable/Column情報をイン ポート出来た • Lineage情報は表示可能 • インポートした情報を検索できる • UI、REST APIを使ってAtlasにため たメタデータのR/W操作可能 今回のリリース • Dynamic Access Policies • Rangerインテグレーション • Cross component lineage • Enterprise Readiness • Business Catalog • UIは大幅に進化した ソース:https://jp.hortonworks.com/apache/atlas/ Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 13
Dynamic access policies概要 • 基本のタグポリシー:個人情報、Sales情報 ルールはTagと紐づく(Tagは再利用可能)。直接リソースに紐付いても 可能。 • 地理情報ベースのポリシー(IPベース) 例:リモート利用者ならアクセス出来ない。社内ならアクセス可能。 • 時間ベースのポリシー 例:リースで借りてきたデータ。大学・研究機関から借りてきたデータを アクセス。 – 月曜日から金曜日までアクセス可能とか。 • 禁止ルール データの組み合わせにより情報漏えい対策 Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
Cross Component Lineage概要 ソース:https://jp.hortonworks.com/apache/atlas/ Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
Cross Component Lineage概要 ソース:https://www.linkedin.com/pulse/data-pipeline-hadoop-part-2-birender-saini Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
Role & Activities Data Steward: Atlasの主な利用者。データキューレーション、デー タカタログ担当。Scientist をサポート • Data Scientist: 分析。 • ビジネスカタログの主な利用者。利益源。 • 現在は50%~80%の時間でデータを探している。 • 今後は25%以下に抑えたい。節約した時間を分析に回す • Administrator: ロール管理 • Data Engineer: データ入れだし操作 • Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
感想 Atlas + Rangerでカラムレベルのアクセス制御が出来た。 ダイナミック・リアルタイム スキーマ情報は自動的に取得 Lineageは表示できる ルールによって、データベース/テーブルを隠すこともできる。 例:PIIタグを特定のカラムにつける。PIIアクセス禁止のアカウント は該当カラム表示できない。 • データスチュアートがカタログ情報を入力、データサイエンティストが 使う • • • • • Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
Extend Governance in Hadoop with Atlas Ecosystem Waterline DataのAtlasインテグレーション事例 • • • • データ内容を分析して、タグを提案してくれる。(%は関連度を示している) http://www.waterlinedata.com/ Lineageについて、Atlasと連携:Import/Export Attivio事例 • • • 構造化・非構造化両方対応 Lineage表示を強化 Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
• • • • イベント概要 全体的な所感 Apache Atlasの現状 eBayのデータガバナンス事情 Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 20
eBay社内のデータプラットフォーム • 色々なシステムにより構成されている ソース: http://www.slideshare.net/HadoopSummit/extreme-analytics-ebay Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
eBayのコラボレーションの進化 W:Wiki F:良いね!SNS要素 in:プロフェッショナル関係で繋がる ソース: http://www.slideshare.net/HadoopSummit/extreme-analytics-ebay Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
eBayのデータ運用の課題(1) • 直接なDBアクセスたくさん有り、MicroStrategyレポートたくさん有 り(5,000+)、 Tableauチャートもたくさん有り(10,000+) • 同じ指標に対してのレポートでも複数バージョンある。正しいMetrics とレポートを見つかるのは難しい。上司であっても判断は難しい。その ツールは前任の前任から引き続いたかも。 • データサイエンティストはなんでも自分でやらないといけない。 • データサイエンティストが来たら、データはどこにあるか、どうやって 使うか、全部自分で探さないといけない。 • なぜそのファイルはそこにあるから知らない • 整合性・一貫性が無い。あるテーマに対してそれぞれの紹介WIKIがあ るかも Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
eBayのデータ運用の課題(2) • このレポートはどうやって計算しているか、データはどこから来ている から分からない。誰かは「使え」と言っているから使っている。 • レポートのロジックの追跡は難しい • レポートの信頼度は分からない。昨日のデータを使っているかも • etc. Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
eBayのデータ運用の課題 • データサイエンティストはなんでも自分でやらないといけない。 Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
対策 • Self-service Strategy ソース: http://www.slideshare.net/HadoopSummit/extreme-analytics-ebay Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
対策 Alation:ツール。https://alation.com/customers/ ソース: http://www.slideshare.net/HadoopSummit/extreme-analytics-ebay Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
データガバナンス データアセットCertification – 誰が、いつ、このViewが正しいかを判断したかを記録 ビジネス用語集 – 略語が多すぎるから、必須 管理 – クオリティチェック、リリースノート、データロード記録等 – これは現在利用可能? ソース: http://www.slideshare.net/HadoopSummit/extreme-analytics-ebay Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
EOP Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 29