【内容注意】RAG 検証用ファイル

Databricks の全体像データインテリジェンスプラットフォーム 2025年9月

目次目次本プレゼンテーションの構成を一覧で示します。第1部: イントロダクション Databricksとはレイクハウスからの進化データインテリジェンスプラットフォームの概念プレゼンテーション構成第2部: 基本アーキテクチャシステム全体像マルチクラウド対応 Control PlaneとCompute Plane スケーリングの仕組みサーバレスコンピュートセキュリティアーキテクチャワークスペースとストレージ高可用性と災害復旧ネットワークアーキテクチャパフォーマンス最適化第3部～第7部第3部: Unity Catalog - データ・AIガバナンス第6部: ワークロード別活用パターン第4部: データアーキテクチャ第7部: セキュリティとガバナンス第5部: AI・機械学習プラットフォーム

3.

第1部: イントロダクション第1部: イントロダクションこのセクションの内容 Databricksとは Databricksの概要、目的、そして企業のデータ活用を変革する基本的な役割 Databricksプラットフォームの基本概念と最新のデータインテリジェンス機能を紹介します。データインテリジェンスプラットフォームの概念次世代データプラットフォームとしてのDatabricksの位置づけとその基本アーキテクチャレイクハウスからインテリジェンスプラットフォームへの進化データレイクハウスからデータインテリジェンスプラットフォームへと発展した背景と最新機能

4.

イントロダクション：Databricksとは Databricksとは Databricksは、データレイクハウスの概念を発展させたデータインテリジェンスプラットフォームです。Apache Sparkの創設者たちによって2013年に設立され、現在はクラウドベースの統合データ分析・AI開発プラットフォームとして進化しています。データとAIの統合：ビッグデータ処理、機械学習、BIを一つのプラットフォームで実現オープンスタンダード：Delta LakeやApache Spark等のオープン技術を基盤として採用マルチクラウド対応：AWS、Azure、GCPなど主要クラウドに対応 Databricks データインテリジェンスプラットフォーム概要図出典:Databricks公式ブログユニファイドガバナンス：Unity Catalogによるデータ・AIアセットの統合ガバナンス主な利用シナリオデータエンジニアリング BIとアナリティクス AI・機械学習リアルタイム処理詳細はAzure Databricks公式ドキュメントを参照スライド 3 / 55

https://www.databricks.com/blog/what-is-a-data-intelligence-platform

5.

データインテリジェンスプラットフォームとはデータインテリジェンスプラットフォームデータインテリジェンスプラットフォームは、レイクハウスの概念をさらに発展させ、データとAIを統合して、高度な知見を導き出す次世代のデータプラットフォームです。統一ガバナンス：Unity Catalogによるデータ・AI資産の一元管理とアクセス制御セマンティック理解：AIによるデータの意味理解で、より高度な分析とインサイト発見 AI活用：生成AIやML技術をビジネスデータと組み合わせた高度な分析 Databricksデータインテリジェンスプラットフォームの構成要素出典: Microsoft Learn - Azure Databricks公式ドキュメント多様なワークロード：ETL、DWH、BIからAI/MLまで、あらゆるデータワークロードに対応プラットフォームの特徴オープン性と互換性セキュリティとガバナンスパフォーマンス最適化全ユーザー向けインターフェース詳細はAzure Databricks公式ドキュメントを参照スライド 4 / 55

https://learn.microsoft.com/ja-jp/azure/databricks/lakehouse-architecture/well-architected

6.

レイクハウスからインテリジェンスプラットフォームへの進化進化の背景と意義レイクハウス～2023 Databricksは「レイクハウス」の概念を発展させ、現在は「データインテリジェンスプラットフォーム」として新たなステージに移行しています。この進化は、データと人工知能を統合し、真のビジネスインテリジェンスを実現するためのものです。データレイク + データウェアハウス Delta Lake + SQL Analytics レイクハウスの限界：データ管理とAIが分離されており、ガバナンスが断片化していたインテリジェンスへの進化：ユニファイドガバナンス、AIの組み込み、ビジネスコンテキストの強化データインテリジェンスプラットフォーム 2025~ Unity Catalogの進化：データだけでなくAIアセットもカバーする統合管理セマンティクスレイヤー：2025年新機能のメトリクス定義やAIドキュメント自動生成データ + AI + ガバナンスの統合 Unity Catalog + Mosaic AI + Intelligence Engine 主な進化ポイント (2025) Databricksプラットフォームの進化ビジネスメトリクス統合 Iceberg対応強化データ品質監視自動化 AI生成ドキュメント詳細は2025年のUnity Catalogアップデート情報を参照スライド 5 / 55

7.

第2部: 基本アーキテクチャ第2部: 基本アーキテクチャ Databricksのシステムアーキテクチャの基本要素と構成について解説します。基本構成要素システム全体像と分離設計マルチクラウド対応とリージョン戦略 Control PlaneとCompute Plane スケーリングの仕組みと自動化サーバレス vs クラシックコンピュートセキュリティアーキテクチャワークスペースとストレージ高可用性と災害復旧ネットワークアーキテクチャパフォーマンス最適化アーキテクチャの特徴クラウドネイティブ設計 - クラウドの柔軟性とスケーラビリティを最大限に活用マルチクラウド対応 - AWS、Azure、GCPで一貫したエクスペリエンスエンタープライズグレードのセキュリティ - 細かなアクセス制御と暗号化

8.

第2部基本アーキテクチャ：全体俯瞰 Databricksアーキテクチャ全体像出典: Microsoft Learn - Azure Databricks公式ドキュメント DatabricksのアーキテクチャはControl Plane（制御層）とCompute Plane（計算層）の2つに大別されます。この分離によりセキュリティと柔軟なスケーリングを両立しています。スライド 6 / 55

https://learn.microsoft.com/ja-jp/azure/databricks/security/network/

9.

コントロールプレーンとコンピュートプレーン 2つのプレーンの分離 Databricksアーキテクチャは、管理機能を担う「コントロールプレーン」と実際の計算処理を行う「コンピュートプレーン」に論理的に分離されています。この分離により、セキュリティと拡張性の両立を実現しています。コントロールプレーン：ワークスペース管理、認証、メタデータ、ウェブ UI、ジョブスケジューリングなどの管理機能を提供するDatabricks管理領域コンピュートプレーン：データ処理を実行するApache Sparkクラスタやサーバレスコンピュートが稼働する計算領域 Databricksのコントロールプレーンとコンピュートプレーンの分離アーキテクチャワークスペースストレージ：各ワークスペース専用のストレージアカウントでシステムデータやDBFSを保管出典:Microsoft Learn - Azure Databricks公式ドキュメント分離アーキテクチャの利点セキュリティ強化：顧客ごとのコンピュートリソースの完全な分離スケーラビリティ：必要に応じた計算リソースの独立した拡張パフォーマンス：管理機能と計算処理の分離による最適化詳細はAzure Databricksアーキテクチャを参照スライド 7 / 55

https://learn.microsoft.com/ja-jp/azure/databricks/security/network/

10.

サーバレス vs クラシックコンピュート 2つのコンピュートモデルサーバレスコンピュート Databricksが管理するアカウント内で実行クラシックコンピュート VS 顧客のAzureサブスクリプション内で実行すぐに使えるオンデマンドリソース VNet統合と完全なネットワーク制御自動スケーリングと管理の簡素化特殊なハードウェア要件に対応 Databricksでは、ワークロードの特性や要件に合わせて2種類のコンピュートモデルを選択できます。両者の違いと最適な使い分けを理解することで、コスト効率と性能を最適化できます。主な違いと特徴実行環境：サーバレスはDatabricksアカウント内、クラシックは顧客のAzureサブスクリプション内ネットワーク：サーバレスは複数レイヤーのセキュリティ分離、クラシックはVNet統合起動速度：サーバレスは即時起動、クラシックは構成によって起動時間が変動コスト最適化：サーバレスは秒単位の課金と自動スケーリングで効率的使い分けの指針サーバレス向き：一時的ワークロード、コスト重視、素早い起動が必要、SQL分析、ML モデルサービング Databricksのサーバレス/クラシックアーキテクチャの概要クラシック向き：特殊なネットワーク要件、オンプレミスリソースとの接続、GPUなど特殊ハードウェア利用時出典:Microsoft Learn - Azure Databricks公式ドキュメントスライド 8 / 55

https://learn.microsoft.com/ja-jp/azure/databricks/security/network/

11.

ワークスペースとストレージワークスペースとストレージ管理 Azure Databricksでは、ワークスペースとストレージの関係が明確に定義されています。各ワークスペースには専用のストレージアカウントが関連付けられます。ワークスペースストレージアカウント：ワークスペース作成時に自動的に作成され、システムデータ、DBFS、Unity Catalogワークスペースカタログを保存 DBFS (Databricks File System)：dbfs:/名前空間でアクセス可能な分散ファイルシステム Unity Catalogとの連携：ワークスペースカタログはUnity Catalogで自動的に有効化され、外部ロケーションとストレージ認証情報によってバックアップ Databricks ワークスペースとストレージの関係図出典:Microsoft Learn - Azure Databricks公式ドキュメントストレージアクセス制限：ファイアウォールサポートを有効にすることで、認可されたリソースとネットワークからのみアクセス可能ストレージアクセス方法 DBFS Root（/dbfs） DBFS マウント Unity Catalog ボリューム外部クラウドストレージ直接アクセススライド 9 / 55

https://learn.microsoft.com/ja-jp/azure/databricks/security/network/

12.

ネットワークアーキテクチャセキュアなネットワーク通信 Databricksは多層防御のセキュアなネットワークアーキテクチャを採用し、コントロールプレーンとコンピュートプレーン間の安全な分離を実現しています。 PrivateLink連携：Azure PrivateLink対応でコントロールプレーンとの通信をプライベート化 VNet注入：クラスタリソースを顧客VNetに配置し、既存のネットワークポリシーを適用 Secure Cluster Connectivity：クラスタへのSSHアクセスを排除し、セキュアなWebSocketベースの通信を実現 Azure Databricksのネットワークアーキテクチャ概要出典:Microsoft Learn - Azure Databricks公式ドキュメント IPアクセスリスト：ユーザーインターフェイスやAPIへのアクセスを特定の IPアドレス範囲に制限通信経路の暗号化転送中データは常にTLS 1.2以上で暗号化保存データは暗号化（CMEK/BYOK対応）サーバレスコンピュートでは顧客間の完全なネットワーク分離詳細はAzure Databricksネットワークセキュリティドキュメントを参照スライド 10 / 55

https://learn.microsoft.com/ja-jp/azure/databricks/security/network/

13.

マルチクラウド対応とリージョン戦略クラウド間の一貫性と柔軟性 Databricksはマルチクラウド戦略をサポートし、AWS、Azure、GCPの主要クラウドプロバイダーで一貫した体験を提供します。これにより、ベンダーロックインを回避しながら最適なリソース配置が可能になります。統一された体験：クラウドに関係なく同一のDatabricksインターフェースと機能グローバルリージョン展開：30以上のリージョンで利用可能、コンプライアンス要件にも対応クロスクラウドコラボレーション：Delta Sharingを活用したクラウド間でのセキュアなデータ共有 Databricks マルチクラウドアーキテクチャ画像出典:Databricks 公式ブログ移行とポータビリティ：オープンフォーマット（Delta, Iceberg）採用によるクラウド間移行の容易さリージョン選択の考慮点データ主権要件レイテンシー要件地域別コンプライアンスコスト最適化 Azure Databricksサポート対象リージョン一覧スライド 11 / 55

https://www.databricks.com/blog/multi-cloud-architecture-portable-data-and-ai-processing-financial-services

14.

スケーリングの仕組みスケーリングの仕組み Databricksは柔軟で強力なスケーリング機能を提供し、ワークロードに応じて計算リソースを最適化します。ユーザーが意識することなく、必要に応じてリソースを拡張・縮小できます。 Worker 1 自動スケーリング：クラスターは負荷に応じてワーカーノードを自動的に追加/削除し、コストとパフォーマンスを最適化 Worker 2 水平スケーリング（Scale Out）：ワーカーノードの数を増減してワークロードを分散処理。ビッグデータ処理やSparkジョブに効果的垂直スケーリング（Scale Up）：個々のノードのサイズ（CPU/メモリ）を拡張。メモリ集約型ワークロードに最適 Worker 1 Worker 2 Worker 3 Worker 4 Databricksクラスターの自動水平スケーリングサーバレスコンピュート：事前プロビジョニング不要で即時スケール。使用時のみ課金される効率的なオプションスケーリングのベストプラクティス自動終了：一定の非アクティブ時間後にクラスターを自動終了させ、コスト削減水平スケール垂直スケールロードバランス最小/最大ワーカー数：ワークロードに応じた適切な設定で効率化フォトンエンジン：高速クエリパフォーマンスとコスト削減のための最適化スライド 12 / 55

15.

セキュリティアーキテクチャ概要セキュリティアーキテクチャ Databricksは多層防御アプローチを採用し、クラウドネイティブなセキュリティアーキテクチャを実現しています。主要セキュリティ対策ネットワークセキュリティ：PrivateLink、IP制限、VNet統合によるネットワーク分離アイデンティティ管理：SSO連携、SCIM、細かなIAM権限設定データ保護：転送中・保存中の暗号化、顧客管理暗号化キー(CMEK)対応コンプライアンス：主要認証（SOC 2 Type II、HIPAA、GDPR等）に準拠 Databricksのセキュリティレイヤー構造出典:Microsoft Learn - Azure Databricks公式ドキュメントセキュリティ設計の特徴 Control PlaneとCompute Planeの分離による強固なセキュリティ境界 Unity Catalogによる統一されたデータガバナンスとアクセス制御サーバレスコンピュートによる顧客間の完全分離セキュリティ対策を自動監視するSecurity Analysis Tool (SAT) セキュリティベストプラクティスの詳細スライド 13 / 55

https://learn.microsoft.com/ja-jp/azure/databricks/security/network/

16.

高可用性・災害復旧戦略 Databricksの可用性と継続性 Databricksは複数のレベルでの高可用性を実現し、データとワークロードの継続性を確保するための包括的な戦略を提供しています。コントロールプレーンの冗長性：複数のアベイラビリティゾーンにまたがる高可用性設計コンピュートプレーンの自動回復：クラスタノード障害時の自動検出と再起動メタデータレプリケーション：データベースメタデータの自動レプリケーションと保護 Databricksの高可用性アーキテクチャ概念図バックアップと復元：スナップショットによるDelta Lakeテーブルの時間指定復元出典:Microsoft Learn - Azure Databricks公式ドキュメント災害復旧戦略のベストプラクティスマルチリージョン展開による地理的冗長性の確保高可用性災害復旧定期的なデータバックアップとリテンション期間の設定重要なワークフローの定期的な障害テスト実施 Unity Catalogによるメタデータのクロスリージョンレプリケーション詳細はAzure Databricks災害復旧ガイドを参照スライド 14 / 55

https://learn.microsoft.com/ja-jp/azure/databricks/security/network/

17.

パフォーマンス最適化の考え方パフォーマンス最適化のポイント Databricksプラットフォームでは、ワークロードのパフォーマンスを最大化するための複数の最適化技術が組み込まれています。費用対効果とパフォーマンスのバランスを考慮した設計が重要です。 Photonエンジン：C++ベースのネイティブエンジンによるクエリ実行の高速化。従来のSparkエンジンに比べ最大8倍の高速化を実現液体クラスタリング（Liquid Clustering）：データの自動インデックス化と最適レイアウト生成によるI/O最適化予測的最適化（Predictive Optimization）：クエリパターンを学習し、自動的に最適なデータレイアウトを予測・適用 Databricks パフォーマンス最適化アーキテクチャ Delta最適化：Z-Order、コンパクション、データスキッピングによる処理効率化出典: Microsoft Learn - Azure Databricks公式ドキュメントベストプラクティスクラスタ構成の最適化 SQLウェアハウスサイジングパーティション戦略キャッシュの有効活用 Azure Databricks Photonエンジン公式ドキュメントスライド 15 / 55

https://learn.microsoft.com/ja-jp/azure/databricks/lakehouse-architecture/performance-efficiency/

18.

第3部 Unity Catalogとは第3部 Unity Catalog とは Databricksのコア・ガバナンス基盤である Unity Catalogの概要と主要機能について解説します。統合データ・AIガバナンス基盤 Unity Catalogは、データとAIアセットに対する統一的なガバナンス、検索、アクセス管理を提供する中央メタデータサービスです。複数のワークスペース、クラウド、ツールにまたがる統合管理を実現します。主要機能拡張機能と連携統一カタログによるメタデータ管理メトリクス管理（2025年新機能）きめ細かなアクセス制御（RBAC/ABAC）データ品質監視の強化データリネージと監査機能外部システム・カタログ連携 Apache Iceberg対応（2025年新機能）ビジネスユーザー向け拡張詳細は公式ドキュメントをご参照ください： Unity Catalog 公式ドキュメント

https://learn.microsoft.com/en-us/azure/databricks/data-governance/unity-catalog/

19.

統一カタログによるメタデータ管理 Unity Catalogによるメタデータ統合 Unity Catalogは、Databricksの中核となるメタデータ管理システムで、データとAI資産の統合カタログを提供します。複数のワークスペース、クラウド、リージョンにまたがる一元的なデータガバナンスを実現します。 3層メタデータ階層：カタログ＞スキーマ＞テーブル/ビューという直感的な階層構造多様なアセット対応：テーブル、ビュー、ファイル、ML機能、モデル、ダッシュボードなど自動リネージ追跡：データの変遷を自動で記録し、影響分析を容易に Unity Catalogのメタデータ階層構造（カタログ、スキーマ、テーブル）出典:Microsoft Learn - Unity Catalog公式ドキュメント統合検索・探索：組織全体のデータ資産をキーワード、タグ、メタデータで検索 2025年の新機能 AIによる自動タグ付け統一メトリクス定義拡張リネージビュー自然言語データ探索 Unity Catalogの詳細はこちらスライド 17 / 55

https://learn.microsoft.com/en-us/azure/databricks/data-governance/unity-catalog/

20.

アクセス制御の基礎アクセス制御の基礎 Unity Catalogは、きめ細かなアクセス制御を提供し、組織のセキュリティニーズに合わせた柔軟なポリシー設定が可能です。従来のロールベースから、より高度な属性ベースのアクセス制御まで対応しています。 RBAC (Role-Based Access Control) 役割に基づく制御：ユーザーの役割（管理者、分析者など）によってアクセス権限を付与簡潔な管理：カタログ、スキーマ、テーブルレベルでの権限管理が可能階層構造：継承可能な権限体系により管理を簡素化 RBAC vs ABAC 比較出典: DNSstuff技術ガイド ABAC (Attribute-Based Access Control) 属性に基づく制御：データの属性、ユーザー属性、環境条件などに基づく動的なアクセス制御行・列レベルのセキュリティ：特定の条件に基づきデータの一部のみを表示データ分類連携：自動分類されたPIIデータへのアクセス制限を自動適用 Unity Catalogの主なアクセス制御機能細粒度アクセス制御：カタログ・スキーマ・テーブル・列・行レベル Unity Catalog のマルチレベル・アクセス制御 IAM/AAD連携：クラウドIDとの統合認証スライド 18 / 55

21.

データリネージ・監査機能データリネージと監査機能 Unity Catalogは、データの起源から変換、使用まで追跡する強力なリネージ（系統）機能と、包括的な監査機能を提供します。これによりデータガバナンスとコンプライアンスが大幅に強化されます。自動リネージ収集：SQLクエリ実行時に自動的にテーブル間の関係を記録し、列レベルの詳細な系統情報を生成視覚的リネージグラフ：上流・下流の依存関係を直感的なグラフで表示、インパクト分析を容易に実現監査ログ：すべてのデータアクセス、メタデータ変更、権限変更を包括的に記録 Unity Catalogによるカラムレベルのデータリネージの可視化出典: Monte Carlo Data技術ブログ変更履歴追跡：データやスキーマの変更を追跡し、いつ誰が何を変更したかを明確に把握主なユースケース問題の根本原因調査コンプライアンス証明監査報告書作成変更影響分析詳細はAzure Databricks Unity Catalogのデータリネージ公式ドキュメントを参照スライド 19 / 55

https://www.hiflylabs.com/blog/2024/6/27/databricks-unity-catalog-data-ai-governance

22.

第3部 Unity Catalog - データ・AIガバナンス Iceberg対応とオープンフォーマット連携 Unity Catalog Apache Delta Iceberg Lake 統合メタデータレイヤーネイティブサポート 2025新対応 Apache Hudi Parquet/CSV メタデータ連携標準フォーマット 2025年新機能： Unity CatalogはApache Iceberg REST Catalog APIを完全サポートし、外部エンジンからの読み書きを実現。これによりフォーマットロックインを排除し、Trino、Snowflake、Amazon EMRなど様々な外部システムとの相互運用性を提供します。 Icebergマネージドテーブル Icebergカタログフェデレーション Delta SharingからのIceberg対応オープン標準を活用した相互運用性詳細はDatabricksブログを参照スライド 20 / 55

https://www.databricks.com/blog/announcing-full-apache-iceberg-support-databricks

23.

Unity Catalogメトリクス管理 Unity Catalog Metrics Unity Catalog Metricsは、2025年の主要な新機能で、ビジネスメトリクスをデータレイヤーで定義し、すべてのデータ・AIワークロードで一貫して再利用できるようにします。一度定義、どこでも利用：メトリクスをUnity Catalogで一元定義し、AI/BI ダッシュボード、Genie、ノートブック、SQL、Lakeflowジョブなど全ての場所で利用可能一貫したセマンティクス：異なるツールやチーム間でビジネスKPIの定義を標準化し、全社で一貫した指標を実現ガバナンスとセキュリティ：認証済みメトリクスには監査とリネージ機能が標準搭載され、コンプライアンスとデータ信頼性を確保 Unity Catalog Metricsアーキテクチャ - 2025年新機能出典:Databricks公式ブログパートナーエコシステム統合：TableauやPower BI等の主要BIツール、 Anomaloなど監視ツールとの統合予定ビジネスユーザーへの価値統合されるパートナーエコシステム Tableau Monte Carlo Power BI Hex ThoughtSpot 「Unity Catalog Metricsは、ビジネスKPIを中央で定義し、チーム間でセマンティクスを標準化することで、全員が同じ信頼できる定義をダッシュボード、SQL、AIアプリケーション全体で使用できるようになります。」 - Richard Masters氏（Virgin Atlantic社、データ＆AI担当副社長） Azure Databricksメトリックビュー公式ドキュメントを参照スライド 21 / 55

24.

データ品質監視の強化データ品質監視の強化 Unity Catalogを基盤とした自動データ品質監視システムにより、大規模データ環境でも一貫した品質管理が可能になります。2025年の最新機能では、異常検知とアラートが大幅に強化されています。データ鮮度の監視：テーブルが最後に更新されたタイミングをモニタリングし、データの古さをアラート通知データ完全性チェック：予測されるデータ量と実際のデータ量の比較を自動実施異常検知：AIを活用した統計的異常検出により、データパターン変化をプロアクティブに検出 Unity Catalogを活用したデータ品質監視ダッシュボード出典：Databricks公式ブログ影響分析：リネージを活用した下流への影響評価で重要度を自動判定主な適用シナリオ IoT/センサーデータ検証顧客データ品質確保金融取引データ整合性 AIモデル入力データ検証詳細はAzure Databricks公式ドキュメントのデータ品質監視ガイドを参照スライド 22 / 55

https://www.databricks.com/blog/unity-catalog-governance-action-monitoring-reporting-and-lineage

25.

外部システムおよびカタログ連携外部システム連携 Unity Catalogを中心としたDatabricksの外部システム連携機能により、既存のデータソースとシームレスに統合し、単一の管理ポイントからアクセス制御を実現できます。 Lakehouse Federation：外部RDBMSや他のSQLデータソース（MySQL、 Postgres、SQL Server、Synapse等）をETLなしでUnity Catalogに統合カタログフェデレーション：Hiveメタストアカタログを既存の形式のまま Unity Catalogに連携し、統合ガバナンスを適用 Databricks と外部システムの連携アーキテクチャ出典:Microsoft Learn - Azure Databricks公式ドキュメント連携システム例 SQL Server PostgreSQL Snowflake AWS Glue Synapse Analytics Hiveメタストア Iceberg Catalog連携（2025年新機能）：AWS Glue、Hiveメタストア、 Snowflake HorizonのIcebergテーブルにシームレスにアクセス Delta Sharing：組織間のデータ共有をオープンプロトコルで実現、クラウドやリージョンを越えた連携が可能連携のメリットデータ移行不要で既存資産を活用しながら統合ガバナンスを実現単一インターフェースからすべてのデータソースにアクセス可能きめ細かなアクセス制御と監査ログを外部データにも適用詳細はLakehouse Federation公式ドキュメントを参照スライド 23 / 55

https://learn.microsoft.com/ja-jp/azure/databricks/lakehouse-architecture/reference

26.

ビジネスユーザー向け拡張機能ビジネスユーザー向け機能強化 2025年のDatabricksは、技術者だけでなくビジネスユーザーにもフォーカスした機能拡張を提供しています。データプラットフォームを企業全体で活用するための新機能を紹介します。 Unity Catalog Discover機能（Private Preview）：ビジネスドメイン別に整理されたキュレーションされた内部マーケットプレイス。データ資産を部門別（営業・マーケティング・財務など）に発見しやすい形で提示します。 Unity Catalog Metrics（Public Preview）：ビジネスメトリクスを一元管理する新機能。ダッシュボード、SQL、AI間で一貫した指標定義を実現し、指標の混乱を解消します。 Unity Catalog Discover インターフェース出典:Databricks公式ブログ認証・廃止フラグ表示：データの信頼性を視覚的に表示し、品質の高いデータセットを瞬時に識別可能にします。 Databricksアシスタント：自然言語で質問すると、統制されたデータに基づいて回答する対話型AIツール。インテリジェント検索 AIアシスタントセマンティック検索体験自然言語での質問応答メトリクス管理ドメイン整理統一された指標定義ビジネス領域別の整理ビジネス価値意思決定の迅速化部門間データ連携促進データ信頼性向上セルフサービス分析スライド 24 / 55

https://www.databricks.com/blog/whats-new-databricks-unity-catalog-data-ai-summit-2024

27.

第4部データアーキテクチャとパイプライン第4部データアーキテクチャとパイプラインモダンデータパイプライン全体像と構成の流れを解説します。メダリオンアーキテクチャを中心に、効率的なデータ変換と管理手法を学びましょう。メダリオンアーキテクチャメダリオンアーキテクチャの基本概念トランザクション保証 Bronze層：生データの取り込みスキーマ進化 Silver層：データクレンジングと統合タイムトラベル（履歴管理） Gold層：ビジネス準備済みデータクエリ最適化 Delta Lakeの特徴と利点 Parquet形式とメタデータ管理データ処理パイプラインストリーミングデータ処理多様なデータフォーマット対応 Structured Streamingの活用 Delta, Iceberg, Hudiの互換性バッチ処理パイプラインデータ共有とDatabricks Marketplace Auto Loaderによるデータ取り込み Delta Sharingの活用事例このセクションでは、Databricksが推奨するメダリオンアーキテクチャの実装方法と、そのメリットを詳しく解説します。特に、データの品質向上プロセスと各層の役割に焦点を当てています。詳細は公式ドキュメントをご参照ください。

https://learn.microsoft.com/ja-jp/azure/databricks/lakehouse/medallion

28.

第4部データアーキテクチャとパイプラインメダリオンアーキテクチャとは画像出典: Databricks公式サイトメダリオンアーキテクチャはBronze（生データ）、Silver（検証済みデータ）、Gold（ビジネス準備済みデータ）の3層でデータを段階的に洗練していくデータレイクハウスの基本設計パターンです。 Bronze: 生データをそのまま保存 Silver: クレンジング・変換・結合 Gold: ビジネスメトリクス・集計スライド 26 / 55 全層でDeltaトランザクション保証

https://www.databricks.com/glossary/medallion-architecture

29.

Bronze層：生データの取り込み Bronze層：生データレイヤー Bronze層はメダリオンアーキテクチャの最初のステージで、外部ソースからの生データをそのまま取り込み保存する領域です。これは「Single Source of Truth」として機能し、後続の処理のための基盤となります。取り込みデータの種類：ログデータ、IoTセンサーデータ、CRMシステム、 ERPシステム、トランザクションデータなどデータフォーマット：JSON、CSV、XML、Avro、Parquet、画像、動画など様々な形式取り込み手法：Auto Loader、Structured Streaming、Apache Kafka連携、JDBC/ODBC接続などスキーマ適用：最小限のスキーマ強制または推論スキーマの適用メダリオンアーキテクチャのBronze層（生データ取り込み） Bronze層のベストプラクティス出典:Databricks公式サイトデータはそのまま取り込み、変換は最小限に抑えるすべてのソースデータに取り込み時刻と出所を記録 Delta Lake形式でデータを保存し、ACIDトランザクション保証効率的なパーティショニング戦略を適用する詳細はAzure Databricksメダリオンアーキテクチャのドキュメントを参照スライド 27 / 55

https://www.databricks.com/glossary/medallion-architecture

30.

Silver層：データクレンジングと統合 Silver層の役割と処理 Silver層はメダリオンアーキテクチャの中間層で、Bronze層から取り込まれた生データを検証・クレンジング・統合してビジネス利用可能な形に変換します。品質と一貫性が確保された信頼性の高いデータセットを作成します。主なデータ処理操作データクレンジング：欠損値の処理、外れ値の検出と補正、重複データの削除スキーマ適用：データ型の強制、スキーマ進化の管理データ統合：複数のソースから取得したデータの結合・統合データ標準化：名称や単位の標準化、コードの統一データ検証：ビジネスルールに基づくデータ検証と品質チェックメダリオンアーキテクチャにおけるSilver層の位置付けと処理フロー出典:Databricks公式サイト Silver層の実装パターン Delta Lake テーブル + データ検証 Delta Lakeのトランザクション機能を活用し、データ品質チェック（ expectations）を適用クレンジング統合検証ストリーミング + バッチハイブリッド処理リアルタイムデータとバッチデータの統合パイプラインの構築メダリオンアーキテクチャの詳細はこちらスライド 28 / 55

https://www.databricks.com/glossary/medallion-architecture

31.

Gold層：ビジネス指向データ Gold層：ビジネス価値の創出 Gold層はメダリオンアーキテクチャの最終層であり、ビジネスユーザーが直接アクセスして利用する高度に集約・加工されたデータを提供します。Silver層のクリーニング済みデータをさらに価値化した状態です。ビジネス指向の集計データ：部門やチーム別KPI、ダッシュボード用集計値特徴量テーブル：ML・AIモデル用に最適化された特徴量ディメンショナルモデル：ファクトテーブルとディメンションテーブルメダリオンアーキテクチャにおけるGold層の位置づけデータプロダクト：再利用可能な分析データセットやビュー出典:Databricks公式サイト Gold層のベストプラクティスビジネス要件に基づく設計データカタログとの統合アクセス制御の最適化データ品質メトリクスの監視詳細はAzure Databricksメダリオンアーキテクチャのドキュメントを参照スライド 29 / 55

https://www.databricks.com/glossary/medallion-architecture

32.

Delta Lakeの特徴と利点 Delta Lakeの特徴と利点 Delta Lakeは、データレイクにデータウェアハウスの信頼性と性能を提供するオープンソースストレージレイヤーです。大規模なデータセットに対する高信頼性のETL、分析、AIワークロードをサポートします。 ACIDトランザクション：複数の同時書き込みを安全に処理し、データの整合性を保証スキーマ強制と進化：データ品質の確保とスキーマの柔軟な変更をサポートタイムトラベル（バージョニング）：過去のデータスナップショットに簡単にアクセス可能ストリーミングデータ統合：Structured Streamingとのシームレスな連携 Delta Lakeの多層アーキテクチャとトランザクション機能出典： The Databricks Blog 最適化エンジン：Zオーダー、自動インデックス、データスキッピングによる高速クエリ一般的なユースケースバッチ・ストリーミング統合データバージョニングデータ品質管理 ETL/ELTパイプライン詳細はAzure Databricks Delta Lake公式ドキュメントを参照スライド 30 / 55

https://www.databricks.com/blog/2021/12/01/the-foundation-of-your-lakehouse-starts-with-delta-lake.html

33.

第4部データアーキテクチャとパイプラインストリーミングデータ処理出典: Databricks公式ブログ DatabricksではStructured StreamingとDelta Lakeを組み合わせることで、高速かつ信頼性の高いストリーミングデータ処理パイプラインを実現しています。スライド 31 / 55

https://www.databricks.com/blog/simplifying-streaming-data-ingestion-delta-lake

34.

バッチ処理パイプラインバッチ処理パイプライン Databricksプラットフォームでは、大規模データの定期的なバッチ処理を効率的に構築・運用できます。Delta Lake上に構築されたバッチ処理パイプラインは、信頼性と拡張性を兼ね備えています。自動化ワークフロー：Lakeflow Jobsを使用した依存関係を持つマルチタスクワークフロー構築冪等性と耐障害性：トランザクション管理とチェックポイントによる安全な再処理スケジュール実行：時間/イベントベースのトリガーで定期的なデータ処理を実現 Databricksバッチ処理パイプラインアーキテクチャ出典:Microsoft Learn - Azure Databricks公式ドキュメントパフォーマンス最適化：Z-Order、データスキッピング、コンパクションによる処理効率向上実装パターンメダリオン各層間ETL 増分データロード定期的データ集計日次/月次レポート生成詳細はDatabricksジョブ公式ドキュメントを参照スライド 32 / 55

https://learn.microsoft.com/ja-jp/azure/databricks/lakehouse-architecture/reference

35.

多様なデータフォーマット対応オープンデータフォーマット対応 Databricks はオープンでベンダーロックインのないアーキテクチャを採用しており、複数のオープンデータフォーマットをネイティブでサポートしています。これにより、既存の投資を保護しながら、様々なエンジンやツールとの相互運用性を実現しています。 Delta Lake：Databricks開発のオープンフォーマット。ACID トランザクション、スキーマ強制、タイムトラベルをサポート Apache Iceberg：2025年に強化されたネイティブサポート。大規模テーブル管理のためのオープンフォーマット出典: Databricks 公式ブログ UniForm：Delta Lake上のデータをIceberg/Hudiとして読み書き可能にする互換レイヤーフォーマット選択のポイント既存環境との統合：使用中のツール・システムとの互換性を確認 Delta Lake Parquet Iceberg パフォーマンス要件：ユースケースに最適な読み書き性能を持つフォーマットを選択 Unity Catalogによる統合管理：どのフォーマットも単一のカタログで管理可能スライド 33 / 55

https://www.databricks.com/blog/delta-uniform-universal-format-lakehouse-interoperability

36.

Auto Loaderによるデータ取り込み Auto Loaderとは Auto Loaderは、クラウドストレージに到着する新しいデータファイルを自動的に検出し、効率的に取り込むDatabricksの機能です。増分処理により、大規模データ取り込みをシンプルかつスケーラブルに実現します。シンプルなAPI：spark.readStream.format("cloudFiles")の簡潔な構文でストリーミング読み込みインフラコスト削減：通知ベースのアーキテクチャによりリストコスト最適化柔軟なスキーマ対応：スキーマ進化（evolution）対応と推論機能高スループット：大量のファイルを効率的に処理、並列読み取りによる最適化 Auto Loader によるクラウドストレージからのデータ取り込みフロー実装例出典:Microsoft Learn - Azure Databricks公式ドキュメントクラウドストレージ Auto Loader Delta Lake spark.readStream .format("cloudFiles") .option("cloudFiles.format", "json") .option("cloudFiles.schemaLocation", "/tmp/schema") .load("/path/to/input") .writeStream .trigger(once=True) .toTable("silver.customers") スライド 34 / 55

https://learn.microsoft.com/ja-jp/azure/databricks/lakehouse-architecture/reference

37.

データ共有とDatabricks Marketplace データ共有とマーケットプレイス Databricksはオープン標準のDelta Sharingプロトコルとマーケットプレイスにより、安全で効率的なデータ共有エコシステムを提供します。これにより、組織間のデータコラボレーションを大幅に簡素化できます。 Delta Sharing：クラウド、プラットフォーム、ツールの境界を超えたオープン標準のデータ共有プロトコルマルチフォーマット対応：Delta、Iceberg、Parquetなど多様なフォーマット間での相互運用性セキュアな共有：Unity Catalogによる統合アクセス制御と監査 Delta Sharingとデータマーケットプレイス連携アーキテクチャ Databricks Marketplace：商用・公共データ製品のオープンな交換基盤出典:Microsoft Learn - Azure Databricks公式ドキュメント主な活用シナリオ部門間データ共有パートナー連携 Clean Rooms データマネタイズ詳細はAzure Databricks Delta Sharing公式ドキュメントを参照スライド 35 / 55

https://learn.microsoft.com/ja-jp/azure/databricks/lakehouse-architecture/reference

38.

第5部 AI・機械学習プラットフォーム第5部 AI・機械学習プラットフォーム Databricksのデータを価値に変えるAI・機械学習プラットフォームの全体像を解説します。 Mosaic AIとは Mosaic AIの概要と特徴モデルサービングとガバナンス MLOpsワークフロー生成AI・AIゲートウェイ新機能モデル開発からデプロイメントまで AutoMLと実験管理 Feature Storeの活用 AI・機械学習の主要コンポーネント MLflow Feature Store 実験追跡、モデル管理、デプロイを統合的に管理するためのプラットフォーム特徴量の一元管理と再利用を可能にするリポジトリ Model Serving モデルを本番環境にデプロイし、高性能なAPIとして提供詳細はAzure Databricks AI/ML公式ドキュメントをご参照ください

https://learn.microsoft.com/en-us/azure/databricks/machine-learning/

39.

Mosaic AI の概要 Mosaic AI とは Mosaic AIはDatabricksが提供する統合AIプラットフォームで、データとAIのライフサイクル全体を単一の環境でサポートします。従来の機械学習からLLM ・生成AIまで、幅広いAIワークロードに対応します。統合開発環境：実験からデプロイまでワンストップで提供、MLエンジニアの生産性向上 AI Gatewayとモデルサービング：複数のAIモデルを一元管理・提供するインフラ Databricks Mosaic AI 出典: Databricks HP MLflow統合：実験管理・モデル追跡・再現性確保を自動化 LLMOps：大規模言語モデルの最適化・デプロイ・管理を効率化 2025年の新機能生成AI MLOps ディープラーニング AI Gateway強化 AIガバナンス自動化 Vector Search高速化 MLモデル監視強化詳細はAzure Databricks ML公式ドキュメントを参照スライド 37 / 55

https://www.databricks.com/product/artificial-intelligence

40.

MLOps ワークフロー MLOpsワークフロー DatabricksのMLOpsワークフローは、機械学習モデルの開発から本番環境への展開、監視、継続的改善までの一連のプロセスを統合的に管理します。 MLflowを中心としたエンドツーエンドのライフサイクル管理により、モデルの信頼性と再現性を確保します。開発フェーズ：MLflowによる実験管理、パラメータ追跡、モデルの再現性確保。Notebooks、自動ML、ハイパーパラメータチューニングを活用デプロイフェーズ：MLflow Model Registry、CI/CD連携、Databricks Model Servingによるモデルのバージョン管理と本番環境への展開 Databricks MLOps 継続的改善サイクルモニタリングフェーズ：モデル性能、データドリフト、予測品質の継続的な監視と分析フィードバックフェーズ：モデル更新トリガーの自動化、A/Bテスト、改良サイクルの最適化 MLOps自動化ポイントデータ検証と品質チェック CI/CDパイプラインとの統合モデルの自動デプロイパフォーマンス監視とアラート詳細はAzure Databricks MLOpsドキュメントを参照スライド 38 / 55

41.

モデル開発からデプロイメントまで Databricksでのモデル開発ライフサイクル Databricksプラットフォーム上でのMLOpsプロセスは、モデル開発から本番デプロイまでをシームレスに統合し、AIプロジェクトの価値実現を加速します。実験と開発：Notebookでのコラボレーション開発、MLflowによる実験追跡、自動化されたハイパーパラメータ最適化モデルの登録と管理：MLflow Model Registryでのバージョン管理、承認ワークフロー、Unity Catalogとの統合による全社的なガバナンス Databricks MLOpsライフサイクル - 開発からデプロイメント出典: データブリックスのUnity Catalogで実現する真のデータガバナンスデプロイメント：複数のデプロイオプション（バッチ推論、Mosaic AI Model Serving、REST API）によるスケーラブルなモデル配信モニタリングとフィードバック：パフォーマンス監視、特徴量ドリフト検知、自動再トレーニングパイプラインの構築 2025年の強化ポイント LLMOps - 大規模言語モデルに特化した運用ワークフロー Auto-Scaling Model Serving - コスト効率とパフォーマンスの最適化自動モデルドキュメント生成 - ガバナンス強化と透明性向上詳細はAzure Databricks MLOpsドキュメントを参照スライド 39 / 55

https://speakerdeck.com/taka_aki/detaburitukusunounity-catalogdeshi-xian-suruzhen-nodetagabanansu

42.

Feature Storeの活用 Feature Storeの活用 Feature Store（特徴量ストア）は、機械学習モデルで使用する特徴量を効率的に管理・提供するための中央リポジトリです。Databricks Feature Storeは、 Unity Catalogと統合され、開発から本番までのMLライフサイクル全体をサポートします。特徴量の一元管理：全てのML特徴量を一か所で管理し、チーム間で共有・再利用が可能オンライン/オフラインストア：バッチ処理とリアルタイム推論の両方に対応バージョン管理とリネージ：特徴量の変更履歴と依存関係を追跡 Databricks Feature Storeのアーキテクチャ図 MLflowとの統合：モデル学習から推論までのプロセスをシームレスに連携出典: Databricks の Feature Store 主なユースケース特徴量の保存特徴量の共有・再利用リアルタイム推論パーソナライゼーション不正検知システム予測分析モデル Feature Storeの詳細はこちらリアルタイム提供スライド 40 / 55

https://www.databricks.com/jp/product/feature-store

43.

モデルサービングとガバナンスモデルサービングとガバナンス Databricks Mosaic AI Model Servingは、機械学習モデルを本番環境に効率的にデプロイし、一元的にガバナンスするためのエンタープライズグレードの仕組みを提供します。スケーラブルなサービング：サーバレスインフラストラクチャによる自動スケーリングと高可用性統合ガバナンス：Unity Catalogとの連携によるモデルのアクセス制御・監査・リネージ管理モデル監視：モデルパフォーマンス・ドリフト検知・説明可能性の継続的なモニタリング Databricks モデルサービングとガバナンス概念図出典:Microsoft Learn - Azure Databricks公式ドキュメント MLflow統合：モデルレジストリとの完全統合によるバージョン管理とロールバック機能モデルサービングの主な機能リアルタイム推論 A/Bテストアクセス制御モデル説明可能性詳細はAzure Databricks Model Serving公式ドキュメントを参照スライド 41 / 55

https://learn.microsoft.com/ja-jp/azure/databricks/security/network/

44.

第5部 AI・機械学習プラットフォーム生成AI・AI Gateway新機能独自LLMモデルカスタムモデルおよびファインチューニング外部モデル連携ベクトル検索 OpenAI, Azure OpenAIなど高速類似性検索と埋め込み Mosaic AI Gateway 統合管理・セキュリティ・ガバナンス統合認証使用状況監視コスト管理セキュリティ Mosaic AI Gatewayは、多様なAIモデルとの接続を一元管理し、セキュリティとコスト管理を強化する2025年の新機能です。企業内でのLLMや AIモデルの安全かつスケーラブルな活用を実現します。中央管理型認証・認可使用状況モニタリング監査ログ RAG実装の簡素化スライド 42 / 55

45.

AutoMLと実験管理 AutoMLと実験管理 DatabricksのAutoMLとMLflow統合による実験管理機能は、モデル開発ライフサイクル全体を効率化し、ガバナンスを強化します。データサイエンティストの生産性向上と、企業レベルのAI実装を加速します。 AutoMLの主要機能：特徴量エンジニアリングの自動化、モデル選択、ハイパーパラメータチューニングの自動最適化実験のバージョン管理：すべてのモデル、パラメータ、メトリクスを自動追跡し、再現性を確保モデル比較と選択：異なるアルゴリズム・パラメータセットの性能を可視化し、最適モデルを選定 MLflowによる実験トラッキングとAutoMLモデル管理フロー MLOpsとの統合：実験からプロダクション環境へのシームレスな移行を実現出典:MLflow公式ドキュメント MLflowによる実験管理の利点実験履歴の完全追跡再現可能なワークフローチーム間コラボレーションモデル展開の簡素化詳細はAzure Databricks AutoML公式ドキュメントを参照スライド 43 / 55

https://www.databricks.com/jp/product/feature-store

46.

第6部ワークロード活用パターン第6部ワークロード活用パターン代表的な活用シナリオごとに構成例を提示します。ワークロード活用パターン BI・アナリティクスダッシュボードによる意思決定支援、Power BIやTableauとの統合データエンジニアリング ETLパイプライン自動化、データ品質管理、メタデータ統合データサイエンス・ML 予測分析、クラスタリング、推薦エンジン開発詳細情報: Azure Databricksユースケース & ソリューションストリーミング分析リアルタイムデータ処理、異常検知、イベント処理生成AI・RAGアプリケーション大規模言語モデル活用、ナレッジベース検索拡張外部システム連携クラウドサービス統合、エンタープライズデータ連携

47.

BI・アナリティクス BI・アナリティクスワークロード DatabricksのBI・アナリティクスワークロードは、SQLウェアハウスと主要なBI ツールとの統合により、エンタープライズグレードの分析環境を提供します。 Unity Catalogによる統一ガバナンスを基盤にして、データレイクハウス上のデータを直接可視化・分析できます。 Databricks SQL：高性能なSQLウェアハウス機能で、複雑なクエリも高速実行ダッシュボードと可視化：内蔵のダッシュボード機能と外部BIツール連携による柔軟な可視化 Unity Catalogセマンティクス：統一されたメトリクス定義と意味づけで一貫したレポーティング Power BIを活用したDatabricksデータ分析アーキテクチャ出典:Databricks公式ブログエンドツーエンドのガバナンス：データ品質、セキュリティ、系統追跡が組み込まれた環境主なユースケース Power BI Tableau セルフサービスアナリティクスリアルタイムダッシュボードデータ探索と分析エンタープライズレポーティング Looker 詳細はDatabricks SQLのドキュメントを参照スライド 45 / 55

https://www.databricks.com/blog/announcing-automatic-publishing-power-bi

48.

データエンジニアリングワークロードデータエンジニアリングの最適化 Databricksプラットフォームは、高度なETL/ELTプロセスを設計・開発・運用するための強力な基盤を提供します。従来のデータエンジニアリングプロセスを自動化・最適化し、高速で安定したデータパイプラインを実現します。 Lakeflow宣言型パイプライン：コードを減らしメンテナンス性を高める SQL/Python宣言型ETL Auto Loader：クラウドストレージからの増分データ取込みを自動化 Lakeflow Connect：SaaSアプリやデータベースからのノーコード連携メダリオンアーキテクチャ：Bronze→Silver→Goldの階層的データ処理 Databricksデータエンジニアリングパイプライン概要図出典:Microsoft Learn - Azure Databricks公式ドキュメント主要な機能と効率化データ品質チェックの自動化スケーラブルなバッチ処理マルチタスクワークフロー制御メタデータ・リネージュ統合ジョブスケジューリング統合モニタリング・通知 ETLクイックスタート - Azure Databricks公式ドキュメントスライド 46 / 55

https://learn.microsoft.com/ja-jp/azure/databricks/lakehouse-architecture/reference

49.

データサイエンス・MLプロジェクト事例データサイエンス・MLプロジェクト事例 Databricksを活用したデータサイエンス・機械学習プロジェクトでは、エンドツーエンドの実装が可能です。実際の業界導入事例と実装パターンを紹介します。代表的なユースケース需要予測：小売・物流企業での在庫最適化、売上予測モデル実装顧客セグメンテーション：金融機関でのリスクスコアリング、購買行動分析異常検知：製造業での品質管理、セキュリティ監視システム画像・ビジョン：医療画像分析、商品認識システム、検査自動化自然言語処理：感情分析、文書分類、質問応答システム Databricksでのデータサイエンスワークフロー事例出典: Microsoft Learn - Azure Databricks公式ドキュメント実装アプローチ Delta Lakeでのデータ準備と特徴量エンジニアリング MLflowでの実験管理と再現性確保需要予測顧客セグメンテーション異常検知 AutoMLによる迅速なプロトタイピング Feature Storeでの特徴量共有と管理画像処理自然言語処理生成AI モデルレジストリによるバージョン管理モデルサービングによる本番環境へのデプロイスライド 47 / 55

https://learn.microsoft.com/ja-jp/azure/databricks/lakehouse-architecture/reference

50.

ストリーミング分析ワークロードリアルタイムデータ処理と意思決定 Databricksのストリーミング分析機能を活用すると、リアルタイムデータに基づく迅速な意思決定と自動化されたアクションが実現できます。Structured Streamingを活用した高性能・高信頼のストリーム処理が特徴です。低レイテンシー処理：マイクロバッチまたは連続処理モードでミリ秒レベルの応答を実現デルタテーブル連携：Delta Lakeとのシームレスな統合でACIDトランザクションを保証エンド・ツー・エンドの信頼性：Exactly-onceセマンティクス、ウォーターマーク、ステートフル処理をサポート Databricks ストリーミング処理アーキテクチャ例出典: Microsoft Learn - Azure Databricks公式ドキュメント MLモデルとの連携：リアルタイム推論と連携した自動アクション実行主要ユースケースリアルタイム異常検知継続的なKPI監視 IoTデバイス分析リアルタイム不正検出 Structured Streamingの詳細はこちらスライド 48 / 55

https://learn.microsoft.com/ja-jp/azure/databricks/lakehouse-architecture/reference

51.

生成AI・RAGアプリケーション活用生成AI・RAG応用 RAG（Retrieval Augmented Generation）は、生成AIの回答精度と信頼性を高めるために、外部データソースから関連情報を検索・抽出し、プロンプトに組み込む手法です。Databricksプラットフォームでは、エンドツーエンドのRAG ソリューションを効率的に構築できます。データの鮮度確保：最新の社内データを活用した回答生成幻覚の軽減：事実に基づいた情報提供による精度向上ドメイン特化：業界・企業固有の知識ベース活用 Databricksを活用したRAGアプリケーションアーキテクチャマルチモーダル対応：テキスト、画像、表形式データの統合活用出典:Microsoft Learn - Azure Databricks公式ドキュメント Databricksでの実装ポイント 1 Vector Searchを活用した高速検索 - Unity Catalogと連携したスケーラブルな検索基盤 RAGの主要コンポーネントベクトルデータベース生成AIモデル 2 Lakeflow Jobsによる自動更新 - ナレッジベースを継続的に最新化検索・検索拡張パイプライン管理 3 AI Gateway & モデルサービング - LLMやエンベディングモデルの統合管理詳細はVector Searchドキュメントを参照スライド 49 / 55

https://learn.microsoft.com/ja-jp/azure/databricks/lakehouse-architecture/reference

52.

外部システム連携ソリューション外部システム連携 Databricksは様々な外部システムと柔軟に連携し、データの統合・活用を実現します。データを移動せずに直接アクセスすることで、効率的なワークフローを構築できます。 Lakehouse Federation：外部DBをUnity Catalogに統合し、移動なしで直接クエリカタログフェデレーション：既存のHiveメタストアをUnity Catalogに統合 REST API連携：包括的なAPIを通じた自動化・外部アプリケーション連携 Databricksと外部システムの連携アーキテクチャ ETL/ELTコネクタ：各種データソースからの効率的な取り込み出典:Microsoft Learn - Azure Databricks公式ドキュメント主要連携システム例 Azure Synapse MySQL/PostgreSQL Snowflake SAP/Salesforce 詳細はAzure Databricks クエリフェデレーション公式ドキュメントを参照スライド 50 / 55

53.

第7部セキュリティとガバナンス第7部セキュリティとガバナンスセキュリティベストプラクティス多層防御アプローチによるセキュリティ設計 IAM統合とID管理のベストプラクティス Databricksプラットフォームのセキュリティ要点まとめ。多層防御の考え方と実装方法を解説します。ネットワーク分離とPrivate Linkの活用データ暗号化（保存中・転送中）の実装方法コンプライアンス要件への対応 GDPR、CCPA、HIPAAなど主要規制への対応方法業界別コンプライアンス要件（金融・医療・公共）監査ログとコンプライアンスレポート作成の自動化データプライバシーとユーザーガバナンス属性ベースのアクセス制御（ABAC）によるきめ細かな権限管理データ分類・マスキング・匿名化技術 Unity Catalogによる統合ガバナンスの実現方法 SAIFフレームワークを活用したセキュリティ管理詳細は Databricksセキュリティベストプラクティス公式サイトをご参照ください

https://www.databricks.com/trust/security-features/best-practices

54.

セキュリティベストプラクティスセキュリティベストプラクティス Databricksプラットフォームを安全に運用するための主要なセキュリティベストプラクティスを紹介します。これらの対策を組み合わせることで、包括的なセキュリティ体制を確立できます。アクセス管理：Unity Catalogによる細粒度アクセス制御の実装、IAMロールの最小権限原則の徹底、SSO連携データ保護：保管時と転送時の暗号化、顧客管理暗号化キー(CMEK)の活用、自動データ分類によるPII保護 Databricksのセキュリティ多層防御モデル出典:Microsoft Learn - Azure Databricks公式ドキュメントネットワーク分離：PrivateLink/VNet連携、IP許可リスト、Secure Cluster Connectivity (SCC) の有効化監査と検知：包括的な監査ログの有効化、異常検知、Security Analysis Tool(SAT)による継続的なセキュリティ姿勢評価セキュリティの4つの柱アイデンティティとアクセスネットワーク分離データ保護と暗号化監査と可視性セキュリティの自動化 Terraform/AzureCLIを使用したセキュリティ設定の自動化と SecurityReferenceArchitecture(SRA)テンプレートの活用により、一貫したセキュリティ対策の実装が可能です。詳細はDatabricksセキュリティベストプラクティスガイドを参照スライド 52 / 55

https://learn.microsoft.com/ja-jp/azure/databricks/security/network/

55.

コンプライアンス要件への対応グローバルコンプライアンスへの対応 Databricksは様々な国際規制や業界基準に対応し、グローバル規模でのコンプライアンス要件を満たすための包括的なフレームワークを提供しています。 GDPR CCPA HIPAA EU一般データ保護規則カリフォルニア消費者プライバシー法医療保険の携行性と責任に関する法律地域固有のデータ主権対応：EUデータ所在地要件、GDPR、米国 CCPA/CPRAなど各地域特有のデータプライバシー法に対応業界別コンプライアンス：金融（GLBA、SOX）、医療（HIPAA）、小売（PCI DSS）など、業界ごとの規制に準拠 PCI DSS SOC 2 ISO 27001 クレジットカード情報保護基準セキュリティ・可用性監査報告書情報セキュリティ国際規格 Databricksが対応する主要なコンプライアンス認証と規制第三者認証と監査：SOC 1/2/3、ISO 27001、FedRAMP（政府機関向け）などの国際認証を取得共有責任モデル：プラットフォーム側と顧客側の責任分界点を明確化したコンプライアンスフレームワークを提供コンプライアンス対応のキーポイント業界別コンプライアンス対応 Unity Catalogによる統合アクセス制御と監査ログ機能金融：FINRA, Basel III 医療：HIPAA, HITECH データの暗号化（保存時・転送時）とプライバシー保護機能小売：CCPA, PCI DSS 製造：ISO 9001, IATF クラウドプロバイダーとの連携による地域特定のコンプライアンス要件対応継続的なセキュリティアップデートと脆弱性管理 Azureコンプライアンス公式ドキュメントを参照スライド 53 / 55

56.

データプライバシーとユーザーガバナンスデータプライバシー保護と効率的ガバナンス Databricksのデータプライバシーとユーザーガバナンス機能は、企業の厳格なコンプライアンス要件に対応しながら、データ活用を促進するための包括的なソリューションを提供します。自動データ分類：機械学習を活用してPIIなどの機密情報を自動検出・タグ付け、保護ポリシーを自動適用動的マスキング：ユーザーの権限に基づいた列レベル・行レベルでの動的なデータマスキング Unity Catalogを活用した自動データ分類と保護のワークフロー属性ベースアクセス制御 (ABAC)：役割、部門、地域などの属性に基づく柔軟なアクセスポリシー出典: データブリックスのUnity Catalogで実現する真のデータガバナンスタグポリシー：一貫したデータ分類と保護のための標準化されたタグ付けシステム ABAC（属性ベースアクセス制御）適用例 PII データへのアクセス制限地域別アクセス権限部門・役割別ポリシーデータ機密度レベルによる制御統合監査・証跡：データアクセス、ポリシー変更、クエリ実行など全操作の詳細なログ記録実装ベストプラクティス最小権限の原則に基づいたアクセス設計データ分類タクソノミーの標準化と自動適用スライド 54 / 55

https://speakerdeck.com/taka_aki/detaburitukusunounity-catalogdeshi-xian-suruzhen-nodetagabanansu

57.

まとめ＆Q&A Databricks プラットフォームの全体像アーキテクチャ Unity Catalog メダリオンアーキテクチャ Control/Compute Plane分離設計統一データ・AIガバナンス Bronze/Silver/Gold構造 Mosaic AI セキュリティ多様なワークロード統合AI/ML開発・運用基盤多層防御・コンプライアンス対応 BI/ETL/ML/Gen AI統合 Databricksは統合データ・AI基盤として、データエンジニアリングからAI開発・運用まで一貫したプラットフォームを提供します。Unity Catalogによるガバナンスとオープンフォーマット対応で、データとAIの民主化を実現し、企業のデータ活用を加速します。より詳細な情報ご質問・疑問点デモ・ハンズオン次のステップ Azure Databricks 公式ドキュメントスライド 55 / 55

https://www.databricks.com/resources/demos

【内容注意】RAG 検証用ファイル

manabian

関連スライド

DatabricksとSnowflakeをつなぐ最新データ相互利用術

誰も教えてくれないメダリオンアーキテクチャのデザインメソッド

TROCCOで高めるDatabricksのポテンシャル～データレイクを生成AIで分析する新時代へ～

BigQUery ×Databricks × Snowflake の相互運用～忍び寄る Apache

データ利活用におけるセマンティックレイヤー概要

サイロ化したBigQueryをAnalyticsHubにより統合する構成案

各ページのテキスト

【内容注意】RAG 検証用ファイル

manabian

関連スライド

DatabricksとSnowflakeをつなぐ最新データ相互利用術

誰も教えてくれない メダリオンアーキテクチャの デザインメソッド

TROCCOで高めるDatabricksのポテンシャル～データレイクを生成AIで分析する新時代へ～

BigQUery ×Databricks × Snowflake の相互運用 ～忍び寄る Apache

データ利活用におけるセマンティックレイヤー概要

サイロ化したBigQueryをAnalyticsHubにより統合する構成案

各ページのテキスト

誰も教えてくれないメダリオンアーキテクチャのデザインメソッド

BigQUery ×Databricks × Snowflake の相互運用～忍び寄る Apache