マルチクラウド実践：AWSデータ×BigQuery連携検証

405 Views

March 19, 26

#BigQuery #AWS #S3 #データ連携 #マルチクラウド

スライド概要

①Google Cloud環境でのデータウェアハウス等を利用したデータ分析領域におけるナレッジを蓄積する。
②BigQuery(BQ)_DataLake 接続対応案件で利用する想定の構成を事前に検証することで、今後の案件を円滑に進められるようにする。
上記2点を目的に、AWSのS3バケット、RedshfitをデータソースとしてBigQueryへのデータ連携し、スプレッドシートに結果を出力する流れを4パターンに分けて検証しました。

エヌアイデイの若手メンバーが参加し、基礎技術の習得と実践的な経験を目的とした社内の技術検証取り組みの資料です。

株式会社エヌアイデイ

@NID_Tech

スライド一覧

株式会社エヌアイデイの公式アカウントです。ソフトウェア開発、システム構築、システム運用まで幅広いICTサービスを提供する、1967年創業の独立系IT企業です。 NIDエンジニアの社内取り組みや登壇資料を共有します。

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

AWS×Palo Alto VMFWで作るVPN接続環境

株式会社エヌアイデイ 5K

Amazon Cognitoを用いた認証・認可の基本

株式会社エヌアイデイ 4.9K

5時間で請求額95万円！？失敗から学ぶファイル転送基盤構築

株式会社エヌアイデイ 4K

AWSマルチAZ×CLUSTERPROを用いた自動切替検証

株式会社エヌアイデイ 2.4K

【初心者向け】AWSで実践！Dockerで作るコンテナログ基盤

株式会社エヌアイデイ 2K

情報収集・共有爆速化！生成AIによる技術ブログ自動生成ツール

株式会社エヌアイデイ 1.2K

各ページのテキスト

参加メンバー＆検証年月 ICTデザイン事業部ANA部第2課原菜摘 (1年目 ※検証当時) ICTデザイン事業部ANA部第2課船渡川碧 (1年目 ※検証当時) ICTデザイン事業部ANA部第2課 S.Y. ※2024年8月～10月検証実施 (1年目 ※検証当時)

目次 1. 導入 2. 検証方針 3. BigQuery-S3連携 4. BigQuery-RedShift連携 5. BigQuery-SpreadSheet連携 6. BigQuery-S3 EventDriven連携 7. 検証結果 8. S3-BigQuery連携パターン ※本資料に登場する会社名・製品・サービス名、ロゴマークなどは該当する各社の商号・商標または登録商標です。

1.導入 BigQueryとは BigQueryとは、ML、検索、地理空間分析、ビジネスインテリジェンスなどの組み込み機能を使用してデータの管理と分析を支援するフルマネージドのデータ分析プラットフォーム。

1.導入なぜBigQueryを使用するのか数ペタバイトといったビッグデータを高速に分析できる。類似したサービスとしてAWS社が提供しているRedShiftがあるが、 BigQueryを選択する理由は既存のGoogle Platformとのサービス連携が容易であること。

1.導入検証目的１．Google Cloud環境でのデータウェアハウス等を利用したデータ分析領域における今後のソリューション提案に向けたナレッジを蓄積する。２．BigQuery(BQ)_DataLake 接続対応案件で利用する想定の構成を事前に検証することで案件対応を円滑に進められるようにする。

2.検証方針今回の検証ではAWSのS3バケット、Redshfitをデータソースとして BigQueryへのデータ連携し、スプレッドシートに結果を出力する流れを以下の4パターンに分けて検証する。１．S3からBigQueryへのデータ連携２．RedShiftからBigQueryへのデータ連携３．BigQueryからスプレッドシートへのデータ連携４．S3イベントドリブンによるBigQueryへのデータ連携

3.BigQuery-S3連携構成図

3.BigQuery-S3連携手順１．S3バケットに対してS3ReadOnly権限を持ったIAMユーザーのアクセスキーを払い出す。２．BigQuery Data Transfer Serviceで転送ジョブを作成し、 S3URI、アクセスキー、シークレットキー、各種転送設定を行う。３．転送ジョブを実行し、BigQueryにデータを連携する。

10.

3.BigQuery-S3連携 IAMユーザーに割り当てるポリシー

11.

3.BigQuery-S3連携 BigQuery Data Transfer Serviceの設定1

12.

3.BigQuery-S3連携 BigQuery Data Transfer Serviceの設定2

13.

3.BigQuery-S3連携作成した転送ジョブを実行する実行結果

14.

3.BigQuery-S3連携 BigQueryのテーブルにデータが取り込まれていることを確認

15.

4.BigQuery-RedShift連携構成図

16.

4.BigQuery-RedShift連携手順１．RedShiftのデータをcsv形式でS3バケットにアンロードする。２．S3バケットに対してS3ReadOnly権限を持ったIAMユーザーのアクセスキーを払い出す。３．BigQuery Data Transfer Serviceで転送ジョブを作成し、 S3URI、アクセスキー、シークレットキー、各種転送設定を行う。４．転送ジョブを実行し、BigQueryにデータを連携する。

17.

5.BigQuery-SpreadSheet連携構成図

18.

5.BigQuery-SpreadSheet連携手順１．Googleドライブの任意の箇所にスプレッドシートを作成する。２．スプレッドシートからコネクテッドシートの設定を行い、対象のBigQueryテーブルを選択する。

19.

5.BigQuery-SpreadSheet連携スプレッドシート→データコネクタ→BigQueryを選択

20.

5.BigQuery-SpreadSheet連携プロジェクト、データセット、テーブルを選択

21.

5.BigQuery-SpreadSheet連携新規シートに指定したBigQueryテーブルとデータ連携されている

22.

6.BigQuery-S3 EventDriven連携構成図

23.

6.BigQuery-S3 EventDriven連携手順１．S3バケットに対してS3ReadOnly権限を持ち、対象のGoogle アカウントを信頼ポリシーに設定したIAMロールを作成する。２．SQSキューを作成し、キューポリシーに対象のS3バケットを設定する。３．S3イベント通知に送信先をSQSキューに指定し、トリガーとして「s3:ObjectCreated:*」を設定する。

24.

6.BigQuery-S3 EventDriven連携手順４．Storage Transfer ServiceにIAMロール、S3バケット、SQSキューを指定し、S3ーGCS間のデータ連携設定をする。５．対象のGCSの「google.cloud.storage.object.v1.finalized」イベントをトリガーとするCloudFunctionを作成する。６．CloudFunctionにBigQueryへのデータ取り込み処理を実装する。

25.

6.BigQuery-S3 EventDriven連携 IAMロールにアタッチしているポリシー AmazonS3ReadOnlyAccess AmazonSQSFullAccess

26.

6.BigQuery-S3 EventDriven連携 IAMロールに設定している信頼ポリシー

27.

6.BigQuery-S3 EventDriven連携 SQSキューのキューポリシー

28.

6.BigQuery-S3 EventDriven連携 S3イベント通知設定1

29.

6.BigQuery-S3 EventDriven連携 S3イベント通知設定2

30.

6.BigQuery-S3 EventDriven連携 Storage Transfer Service設定

31.

6.BigQuery-S3 EventDriven連携 Cloud Function設定

32.

6.BigQuery-S3 EventDriven連携 S3にファイルをアップロード

33.

6.BigQuery-S3 EventDriven連携 Storage Transfer Serviceが実行されていることを確認。

34.

7.検証結果検証方針として挙げていた以下４パターンについて、全て問題なく実現できることを確認した。１．S3からBigQueryへのデータ連携２．RedShiftからBigQueryへのデータ連携３．BigQueryからスプレッドシートへのデータ連携４．S3イベントドリブンによるBigQueryへのデータ連携

35.

8.S3-BigQuery連携パターン・S3→BigQuery間のデータ連携は大きく分けて以下の３パターンあるが、仕様の異なる部分があるため用途に応じて使い分けが必要。・Storage Transfer Service… アクセスキーの払い出しが必須のため、セキュリティ的に利用が難しい場合がある。・BigQuery Omni… 今回の技術ソリューションでは検証できなかったが、IAMロールを利用できるため、アクセスキーの払い出しが不要。しかし対応リージョンが少なく、現状(検証当時)は日本のリージョンでは利用不可。・GCS経由… 上記同様IAMロールが利用できるが追加でGCSを利用するためコストが増える。