Microsoft Fabricワークショップ エンドツーエンドのデータ分析基盤 2023年12月6日
ワークショップのスピーカー・サポーター紹介 Phil Xu Takeshi Eiki Fabric CAT所属 Fabric製品チーム所属 Fabric CAT所属 Power BI MVP Fabric, DAX / Data Modeling Data Factory team Fabric, DAX / Data Model, Power Query, Visualization, Fabric, DAX / Data Model, Power Query @PhilSeamark Microsoft Fabric Sorry..中国なので @marshal_dabao @PowerBIxyz
ワークショップの流れ 9:30 – 10:30 Power Platformキーノート 10:30 – 12:00 Fabricの基礎・デモ 13:00 – 17:30 ワークショップ
ワークショップその① https://aka.ms/pbiworkshops Day After Dashboard in a Day Alexだよ 前提条件 (Prerequisites) コンテンツ 初めに データの準備(ETL) Dataflow Gen2 Data Pipeline Modeling + Direct Lake 可視化(←こちらはスキップするかも)
ワークショップその② - 時間があれば・・・ https://learn.microsoft.com/training/courses/dp-601t00 コンテンツ レイクハウスの概要 Apache Sparkの使用 Delta Lakeテーブルを操作 Dataflow Gen2を使用
新しい世界 Microsoft Fabric AI時代のデータプラットフォーム
世の中はデータで満ちあふれている
あらゆる企業の CDO のコメント ”もっとシンプルにしてほしい 私は最高データ責任者(CDO) であり、最高統合責任者 (CIO)になりたい訳ではない” CDO: Chief Data Officer CIO: Chief Integration Officer
モダン データ スタックの悩みを解決 データの種類が多い Fabricはレイクセントリックであり、あら ゆる種類のデータを格納・変換可能 各種ワークロードと連携 できるストレージが欲しい OneDriveのデータ版である OneLakeが全てのお悩みを解決 機械学習・リアルタイム でデータを取り扱いたい FabricにはAI / ML、リアルタイム分析を サポートするワークロードが標準搭載 BIで可視化したい Power BIをそのまま活用可能 しかも、データをコピーしなくてもOK!
Microsoft Fabric AI時代のデータアナリティクス Data Factory Synapse Data Engineering Synapse Data Science 上記各種サービスは以下と同じ - ワークロード - エクスペリエンス - プロダクト Synapse Data Warehousing OneLake Synapse Real Time Analytics Power BI Data Activator ワークロードの中にある機能 - アイテム(Power BI Dataset等) - アーティファクト(成果物)
Microsoft Fabric AI時代のデータアナリティクス アイテム(アーティファクト) ワークロード アイテム(アーティファクト)
Microsoft Fabric AI時代のデータアナリティクス 元々 Azure で PaaS として提供されていたも のを Power BI の UI に寄せて SaaS 化 Power BI はそのまま 新機能 の登場 Data Factory Synapse Data Engineering Synapse Data Science Synapse Data Warehousing Synapse Real Time Analytics Power BI Data Activator データパイプライン ETL 機械学習 データウェアハウス BIツール クラウド規模のデー タ移動とデータ変換 サービスを利用して、 最も複雑なデータ 統合とETLシナリオ を解決 レイクハウスを作成 し、Apache Spark を使用して、ビジネ スと共有する組織 データを変換して準 備 データを探索し、機 械学習モデルの構 築、分析ソリュー ションとアプリケー ションに予測分析 や分類情報の組み 込み ペタバイトスケールで 最高のパフォーマン スを備え、セキュリ OneLake ティで保護された オープンデータ形式 のSQLウェアハウス を構築 リアルタイム分析 時系列分析 データ監視・アク ション PaaS: Platform as a Service SaaS: Software as a Service 1GBから1PBまで の任意のデータソー スと形式を迅速に 取り込み変換し、ク エリの実行、分析 結果を視覚化 豊富なビジュアルを 使用して、分析情 報の検索、進捗状 況の追跡、意思決 定の迅速化を行う ビジネス アナリスト がデータからアクショ ンを自動的に推進 することを可能にす る
ビル・ゲイツからCEOのサティアへのメール “これは素晴らしいリリースです! 私たちのデータ製品の全てが統合され、顧客は以前のように 個々の要素を考える必要はありません。 ビル・ゲイツ氏 AIなしでも、これは私たちが行った顧客にとって最高のリリース の1つであるでしょう!”
OneLake “データのための OneDrive” 組織全体のための単一の SaaS レイク Data Factory Synapse Data Engineering Synapse Data Science Synapse Data Warehousing Synapse Real Time Analytics Power BI Data Activator テナントで自動的にプロビジョニングされる すべてのワークロードは OneLake ワークスペース フォルダーに自動的にデータを保存する すべてのデータは直感的な階層型名前空間に 整理して格納される OneLake 上のデータは次の用途のために 自動的にインデックス化される:検出、 MIP ラベル、系列、PII スキャン、共有、 ガバナンス、コンプライアンス インテリジェントなデータ基盤
One Copy すべてのコンピューティング エンジンが同じデータにアクセス可能 すべてのコンピューティング エンジンはデータを OneLake に自動的に保存する Data Factory Spark Synapse Data Engineering T-SQL Synapse Data Science Synapse Data Warehousing Synapse Real Time Analytics サーバーレス コンピューティング Power BI KQL Data Activator Analysis Services OneLake 上のすべての構造化データは オープン スタンダードなデータ形式である Delta Parquet 形式で保存される OneLake にデータが保存されると インポートやエクスポートを必要とせずに すべてのコンピューティング エンジンから直接アクセス可能 すべてのコンピューティング エンジンはネイティブ形式として Delta Parquet で動作するよう完全に最適化 カスタマー 360 Delta – Parquet 形式 ファイナンス サービス テレメトリー ビジネス KPI Delta – Parquet 形式 Delta – Parquet 形式 Delta – Parquet 形式 One Security: すべてのコンピューティング エンジンに 共通のセキュリティ モデルを適用
OneLake ショートカット One Copy を次のレベルに引き上げる Data Factory Synapse Data Engineering Synapse Data Science Synapse Data Warehousing Synapse Real Time Analytics Power BI Data Activator OneLake でのデータ共有は OneDrive での ファイル共有と同じくらい簡単で データの重複が不要になる ショートカットを利用することで OneLake 内の データを移動することなく組み合わせられる カスタマー 360 ファイナンス サービス テレメトリー ビジネス KPI Delta – Parquet 形式 Delta – Parquet 形式 Delta – Parquet 形式 Delta – Parquet 形式 Azure Amazon Google ショートカットを利用することでデータの重複や 移動なしに Azure や他のクラウドに存在する データを即座にリンクできるため、OneLake は 初めてのマルチ クラウド データ レイクになる 業界標準の API のサポートにより OneLake データに任意のアプリケーションや サービスから直接アクセスできる
Parquet
高効率な列指向データフォーマット
StoreID DateTime ProductID Amount
StoreA 2023-01-01 SKU001
10
StoreA 2023-01-02 SKU001
15
StoreA 2023-01-03 SKU001
12
[
]
{
"StoreID": "StoreA",
"DateTime": "2023-01-01",
"ProductID": "SKU001",
"Amount": 10
},
{..}
<StoreData>
<Record>
<StoreID>StoreA</StoreID>
<DateTime>2023-01-01</DateTime>
<ProductID>SKU001</ProductID>
<Amount>10</Amount>
</Record>
<Record>…..
</StoreData>
Header:
RowGroup1:
StoreID:
StoreA, StoreA , StoreA
DateTime: 2023-01-01, 2023-01-02, 2023-01-03
ProdudctID: SKU001, SKU001, SKU001
Amount:
10, 15, 12
RowGroup2:
…
Footer:
Parquet
高効率な列指向データフォーマット: 辞書エンコーディング
StoreID DateTime ProductID Amount
StoreA 2023-01-01 SKU001
10
StoreA 2023-01-02 SKU001
15
StoreA 2023-01-03 SKU001
12
[
]
{
"StoreID": "StoreA",
"DateTime": "2023-01-01",
"ProductID": "SKU001",
"Amount": 10
},
{..}
<StoreData>
<Record>
<StoreID>StoreA</StoreID>
<DateTime>2023-01-01</DateTime>
<ProductID>SKU001</ProductID>
<Amount>10</Amount>
</Record>
<Record>…..
</StoreData>
Header:
RowGroup1:
StoreID:
DateTime:
ProdudctID:
Amount:
RowGroup2:
…
Footer:
1, 1, 1
1, 2, 3
1, 1, 1
1, 2, 3
Verti-Parquet Power BIのVertipaq + Parquet データソース Microsoft売上データ(財務) 計162テーブル I/Oが減り、より効率良く データをクエリ可能 Vertiparquet 880GB ※ 数字は概算 効率の良い Parquetへ 268GB V-Order 圧縮後 84GB V-Order最適化により、 Parquetから更に約1/3のデータサイズに
ストレージモード: Power BI Database files “DirectQueryモード” クエリは遅いが、リアルタイム Tables Scan Data Warehouse/ Lakehouse SQL Queries DAX Queries Power BI Analysis Services Reports Storage Database files “インポートモード” 遅延時間が長く、 かつ重複的だが、高速 Tables Storage Scan Data Warehouse/ Lakehouse Import DAX Queries Power BI Analysis Services Reports Copy of Tables
ストレージモード: Fabric Database files “DirectQueryモード” クエリは遅いが、リアルタイム Tables Scan Data Warehouse/ Lakehouse SQL Queries DAX Queries Power BI Analysis Services Reports Storage Database files “インポートモード” 遅延時間が長く、 かつ重複的だが、高速 “Direct Lakeモード” パーフェクト! Tables Scan Data Warehouse/ Lakehouse Import DAX Queries Power BI Analysis Services Storage Reports Copy of Tables Parquet/Delta Lake Tables OneLake Data Warehouse/ Lakehouse Scan Power BI Analysis Services DAX Queries Reports
Direct Lakeモード パフォーマンスの比較 Chris Webb's BI Blog Performance Testing Power BI Direct Lake Mode Datasets In Fabric On-Demand Loading Of Direct Lake Power BI Datasets In Fabric Parquet/Delta Lake Tables Data Warehouse/ Lakehouse Scan Power BI Analysis Services DAX Queries Reports OneLake データレイテンシー (データ鮮度) クエリパフォーマンス 留意点 DirectQuery インポート Direct Lake 鮮度高い 鮮度低い 鮮度良し 双方の良いとこ取り 悪い 最適 良し
Microsoft Thank you! @marshal_dabao テクテク日記(Power BI, Fabric関連) https://marshal115.hatenablog.com/