-- Views
October 15, 25
スライド概要
「Cross Data Platforms Meetup #2」にて、「BigQuery ×Databricks × Snowflake の相互運用 ~忍び寄る Apache Iceberg をどう迎えるか~」というタイトルで発表しました。本記事では、その発表内容を整理してご紹介します。
Cross Data Platforms Meetup #2 BigQuery × Databricks × Snowflake の相互運用 ~忍び寄る Apache Iceberg をどう迎えるか~ manabian 本資料に関するリンク
はじめに BigQuery(BQ)、Databricks、Snowflake間での相互運用の方法論を共有します。 Apache Iceberg などのオープンテーブルフォーマット(OTF)の活用方法も含めています。 今後の市場動向によっては、OTFの導入が既存のDWHの陳腐化を左右する可能性があり、 戦略的な意思決定が一層重要となっています。 出所:OpenAIにより生成
自己紹介 【主業務】 BI・DWH構築に関するSIベンダーにてテクニカルスペシャリスト職と して、次の業務を実施。 • データエンジニアリングの実装論の整理とライブラリ開発 • データ分析基盤とアプリケーションの設計・構築に関する支援 • データ分析基盤に関する技術検証 @manabian 【趣味】 趣味がデータ分析基盤に関する調査や検証であり、 主に Qiita を中心に データ分析基盤プラットフォームに関する記事を 投稿。
登壇時 Only 本当の自己紹介 (1/2) 島村 学 株式会社ジールにて データ分析基盤・アプリの設計・構築 出所:ジールHP 主な対象領域 SHIMAMURA Manabu 出所:DMBOK 2nd Figure 82 Conceptual DW/BI and Big Data Architecture
登壇時 Only 本当の自己紹介 (2/2) Databricks CHAMPION DAMA日本支部 理事 出所:一般社団法人 データマネジメント協会 日本支部(DAMA Japan)
私のアウトプット (1/2) データ分析基盤の構築方法論や関連テクノロジーの調査だけでなく、 エラー対応方法などいわゆる上流から下流までの記事を投稿しています。 データ分析基盤における 構築方法論 引用元:最強のデータ分析基盤を目指して~汎用的なデータ分析基盤の選定方法の 提案~ - Qiita 関連テクノロジーの調査 引用元:データエンジニアリングの背景を踏まえてdbt(Data Build Tool)を少 し深く理解してみる #Python - Qiita
私のアウトプット (2/2) BigQuery 関連の記事も投稿しています。 BigQuery Sharing (旧 Analytics Hub) 引用元:サイロ化したBigQueryをAnalyticsHubにより統合するアーキテクチャの 検討時のメモ #GoogleCloud - Qiita BQ with Google Colab 引用元:BigQuery × Spark:BigQuery サンドボックス環境と Google Colab で 始める高速データ分析 #Python - Qiita
データ統合と相互運用性
データ統合と相互運用性とは データ統合とは、散在するデータを一貫した形式に統合するプロセスです。実際にデータ を統合するだけでなく、システム間で連携できる能力である相互運用性の確保まで含めて 捉える必要があります。システムだけでなく、運用体制まで検討する必要があります。 DMBOK においても、データガバナンスを考える上で重要な領域の1つとされています。 出所:データマネジメント知識体系ガイド 第二版 改定新版 | 日経BOOKプラス 出所:『データマネジメント知識体系ガイド 第二版』 DAMA International編著、DAMA日本支部、Metafindコンサルティング株式 会社 監訳、日経BP
本資料におけるデータ統合の検討対象 本資料では、 DWH間のデータ統合の方法論を対象とします。 DWH にデータ移動するだけでなく、DWH からのデータ提供方法の検討も必要です。
BigQuery とのデータ統合
BigQuery の利用は避けられない選択 多くの企業で Google Analytics が導入されており、 そのデータの格納先である BigQuery の利用が求められることが多いです。 Snowflake の BQ 連携機能 出所:Snowflake Connector for Google Analytics Raw Data について | Snowflake Documentation Databricks の BQ 連携機能 出所:Google Analytics Raw Data connector concepts | Databricks on AWS
BigQuery における代表的なデータの連携方法 BigQuery における代表的なデータの連携方法として下記表の方法があります。 大量データの連携時には BigQuery Storage API による方法が推奨であり、 オープンテーブルフォーマットとして連携する方法として 3 ~ 5 の方法があります。 # データの連携方法 概要 1 BigQuery へ連携する方法 BigQuery のコンピューティングリソースにより BigQuery Storage にデータの書き込み/読み込みをする方法。 2 BigQuery Storage API による方法 BigQuery Storage に直接データを書き込み/読み込みをする方法。 コンピューティングリソースを用いないため割安。 3 BigLake tables for Apache Iceberg BigQuery のコンピューティングリソースにより in BigQueryによる方法 GCS上の Iceberg テーブルにてデータを読み込みをする方法。 4 Apache Iceberg external tables による方法 BigQuery のコンピューティングリソースにより GCS上の Iceberg テーブルにてデータを読み込みをする方法。 5 BigLake external tables for Delta Lake による方法 BigQuery のコンピューティングリソースにより GCS上の Delta Lake テーブルにてデータを読み込みをする方法。
Open Table Format とは Open Table Format(オープンテーブルフォーマット、OTF)は、仕様が公開され ロイヤリティフリーで、データレイク上のデータを構造化して管理できるようにする データ管理仕様です。代表例に Apache Iceberg、Delta Lake、Apache Hudi があります。 複数のサービスで Apache Iceberg のサポートが実施されたことで話題となっています。 Google Cloud のブログでも言及 出所: Apache Iceberg BigQuery テーブル : オープン レイクハウス向け に最適化されたストレージ | Google Cloud 公式ブログ 代表的な Open Table Format
DatabricksとSnowflake における OTF の活用
Apache Iceberg による相互運用の海外事例 2025年6月に開催された Databricks のイベントである Data + AI Summit 2025 でも 注目の1つとなっていました。 T-Mobile 様の Databricks と Snowflake の相互運用 出所:Breaking Silos: Enabling Databricks-Snowflake Interoperability With Iceberg and Unity Catalog DoorDash 様の Apache Iceberg による相互運用 出所:Iceberg Table Format Adoption and Unified Metadata Catalog Implementation in Lakehouse Platform
OTF を利用できない場合のアーキテクチャ ◼ Apache Iceberg などの オープンテーブルフォーマット(OTF) を利用できない場合には、 DWH 間でのデータ統合が必要となる。 業務 システム Bronze Silver Gold ML Model 構築 クラウド ストレージ DWH 間でのデータ統合が必要 MDM 生成 AI システム データ仮想化 サービス シミュレーション Bronze … BI レポート (可視化システム) Silver Gold …
OTF を利用できる場合のアーキテクチャ Databricks での Apache Iceberg (+Delta Lake) 形式でストレージにデータを保管により、 データ統合が不要となる。 業務 システム Bronze Silver Gold ML Model 構築 クラウド ストレージ MDM Bronze Silver Gold データ仮想化 サービス 生成 AI システム シミュレーション Bronze … BI レポート (可視化システム) Silver Gold …
日本でも Apache Iceberg の足音が。。。 Apache Iceberg での導入の事例が公開されており、 Google Cloud Next Tokyo 25 でも BigQuery での Apache Iceberg 導入の言及されているセッションがありました。 ANA (全日本空輸)様 出所:ANA、SnowflakeとApache Iceberg連携で運用コスト大幅削減 「BlueLake V4」でデータサイロ解消|EnterpriseZine NTTドコモ 様 出所:NTTドコモが実現したデータ民主化とデータ エージェントへの挑戦 | Google Cloud Next Tokyo 25
BigQuery × Databricks × Snowflake
BigQuery における OTF の活用 BigQuery の OTF 機能に関する検証結果の記事を公開していますなお、 OTF を理解する ためには、 Google Colab (Spark)にて操作する方法がおすすめです。 出所:Google Colab の Spark にて Hadoop Catalog の Apache Iceberg の動作検証 - Qiita 出所:BigQuery 上で Apache Iceberg 用の BigQuery テーブル操作と Google Colab (spark)でのデータ参照の実施方法 - Qiita 出所:Google Colab の Spark にて Delta Lake の動作検 証 - Qiita
BigQuery × Snowflake における OTF の活用 Snowflake では Google Cloud Storage (GCS) での操作が可能であるため Apache Iceberg での相互運用が可能です。 BigQuery -> Snowflake 出所:BigQuery 上で Apache Iceberg 用の BigQuery テーブルを Snowflake から参照する方法 - Qiita Snowflake -> BigQuery 出所:Google Cloud 以外の Snowflake にて Snowflake-managed Apache Iceberg テーブルを BigQuery から参照する方法 #DataQiita
BigQuery × Databricks における OTF の活用 Databricks on Google Cloud 以外の場合には GCS との認証の観点から、 BQ <-> Databricks での Apache Iceberg 連携が現実的ではないのが現状です。 BigQuery -> Databricks Databricks -> BigQuery Coming Soon... 出所:Google Cloud 以外の Databricks のテーブルのデータを BigQuery にレプリケーションする方法 - Qiita
<参考> BigQuery -> Databricks のデータ連携方法 BQ <-> Databricks においては、 Databricks 側の観点では、 Apache Spark SQL connector for Google BigQuery にて効率的なデータ連携が可能です。 JDBC でのデータ連携機能も残っており、 BQ 側の QueryUsage の設定に注意が必要です。 BigQuery へ連携する方法の 注意事項 出所:Databricks で BigQuery のデータを取得する方法の徹底ガイド #Spark - Qiita 出所:カスタムクエリの割り当てを作成する | BigQuery | Google Cloud
Apache Iceberg 機能はまだ成長期 Apache Iceberg 関連の機能は日進月歩の状況であり、いわゆる枯れた状況ではないです。 導入時には、バージョン、対応機能、絶対パス、ファイルサイズなど検討事項がまだ多い。 続々リリースされる Apache Iceberg 機能群 出所: Apache Iceberg テーブルにはカタログリンクデータベースを使用 します | Snowflake Documentation マルチクラウドの壁 出所:BigQuery Omni の概要 | Google Cloud
まとめ 課題は多くありますが OTF による DWH の相互運用を検討する時期となっており、 自社のデータ分析基盤がレガシーとならないように適切な戦略をたてる必要があります。 Bronze 業務 システム Silver Gold ML Model 構築 クラウド ストレージ Bronze Silver Gold 生成 AI システム MDM データ仮想化 サービス シミュレーション N Bronze Bronze Bronze … BI レポート (可視化システム) Silver Silver Silver Gold Gold Gold …
ありがとうございました 参考になった記事には いいねをお願いします manabian 𝕏: @manabian Qiita: manabian 本資料に関するリンク