[02_16]データ分析環境のコストを見直してみた。

[2024/02/16] データ分析にはJSONではなく Parquetを使おう上地航平（うえちこうへい）

自己紹介 ■ 名前上地航平（うえちこうへい） ■ 経歴（9年）スケボー業界→→（2年）クラウド運用・保守→→（1年目）開発 ■ 業務内容社内業務の効率化・フォロー・自動化を担うサービスの開発と運用に従事 ■ 好きなAWSサービス CloudFormation ｲﾏｺｺ

3.

アジェンダ「データ分析にはJSONではなくParquetを使おう」 ● ● ● 本日のゴールデータ分析環境と課題 JSONとParquet（パーケット）データの違い ○ ○ ● ● ● 行指向と列指向についてデータ分析をする時に覚えておきたいファイルフォーマットの種類 JSONからParquetに変換する方法 Athenaクエリの結果比較まとめ

4.

本日のゴール以下項目を理解する。 ● ● ● JSONとParquet（パーケット）の違い Parquet（パーケット）へ変換する方法データ分析環境で採用するべきファイルフォーマット

5.

データ分析環境と課題 ● 定期的にログデータがJSONフォーマットでS3バケットに蓄積されている。 ○ ● ● 日付(yyyy-mm-dd/)ごとにパーティション分類済クエリ実行時間：2.89秒/日データスキャン量：3.52MB/日蓄積データは日々増加するクエリのコストを減少させたい ▼Athena でのパフォーマンスのチューニングデータソースログデータ JSON S3バケット/yyyy-mm-dd/ Athena AWSベストプラクティスではデータソースに、 Parquet(ﾊﾟｰｹｯﾄ)のような列指向ファイルフォーマットを使用することで効率よくクエリできると記載されていた。

https://docs.aws.amazon.com/ja_jp/athena/latest/ug/performance-tuning.html

6.

あれ、 JSONは何指向...？列指向... フォーマット...？なんだっけ

7.

JSONとParquet（パーケット）データの違い ▼ データ分析をする時に覚えておきたいファイルフォーマットの種類 ★テキストフォーマット（例： JSON） ● これは人間が読むことができるフォーマットで、小〜大規模なデータ交換を行う際にウェブアプリケーション上でよく用いられます。 ○ ○ リクエストパラメーターを JSONで渡す。レスポンスデータとして JSONで受け取る。 —-------------------------------------------—-------------------------------------------—-------------------------------------------—-------------------------------------------—-------------------------------------------—-------------------------------------------—-------------------------------------------—---------------------------------- ★行指向フォーマット（例：Avro） ★列指向（カラムナ）フォーマット（例： Parquet） ● バイナリ型のデータで、 0と1の2進数で表記されています。コンピューターの基本言語であるため、高速な処理が可能です。

8.

JSONとParquet（パーケット）データの違い ▼ データ分析をする時に覚えておきたいファイルフォーマットの種類 ★テキストフォーマット（例： JSON） ● これは人間が読むことができるフォーマットで、小〜大規模なデータ交換を行う際にウェブアプリケーション上でよく用いられます。 ○ ○ リクエストパラメーターを JSONで渡す。レスポンスデータとして JSONで受け取る。 Athenaクエリでは JSONは行指向として扱われる。 —-------------------------------------------—-------------------------------------------—-------------------------------------------—-------------------------------------------—-------------------------------------------—-------------------------------------------—-------------------------------------------—---------------------------------- ★行指向フォーマット（例：Avro） ★列指向（カラムナ）フォーマット（例： Parquet） ● バイナリ型のデータで、 0と1の2進数で表記されています。コンピューターの基本言語であるため、高速な処理が可能です。

9.

行指向と列指向について指向 ⚫ 行指向特徴データ格納方式： 1行ずつ連続したデータ用途：★OLTP（オンライン・トランザクション・プロセッシング）処理 1回の操作で多くのカラム（列）を扱う必要のある処理（例）1件のメールを受信する。 ⚫ 列指向（カラムナ） from subject message_id timestamp … メールアドレス① 件名① aaaaaa 2023-12-01 00:00:00 … メールアドレス② 件名② bbbbbb 2023-12-01 01:11:00 … メールアドレス③ 件名③ cccccc 2023-12-01 02:22:00 … message_id timestamp データ格納方式： 1列ずつ連続したデータ用途：★OLAP（オンライン・アナリティカル・プロセッシング）処理広範囲のデータから特定のカラムを分析する処理（例）特定のメールアドレスを検索する from subject … 9 メールアドレス① 件名① aaaaaa 2023-12-01 00:00:00 … メールアドレス② 件名② bbbbbb 2023-12-01 01:11:00 … メールアドレス③ 件名③ cccccc 2023-12-01 02:22:00 …

10.

行指向と列指向について ▼ 列指向ストレージ（Parquet）の採用によるメリット ● ● 特定のカラムのみを読み込むことが可能データスキャン量を削減し、それによりクエリ実行時間の短縮が期待できる。 ▼ 行指向と列指向の違い（まとめ） ● 行指向フォーマット（ AvroやAthenaで扱うJSON）では、 ● 各行のデータ全体が保存されるため、特定のカラムを抽出する際には全データを読み込む必要があります。 ● 列指向フォーマット（ Parquet）では、カラム単位でデータが保存されるため、必要なカラムのみを効率的に読み込むことができます。 ▶ 一体どのように、S3バケット内のJSONをParquetへ変換できるのか？

11.

行指向と列指向について ▼ 列指向ストレージ（Parquet）の採用によるメリット ● ● 特定のカラムのみを読み込むことが可能データスキャン量を削減し、それによりクエリ実行時間の短縮が期待できる。 ▼ 行指向と列指向の違い（まとめ） ● 行指向フォーマット（ AvroやAthenaで扱うJSON）では、 ● 各行のデータ全体が保存されるため、特定のカラムを抽出する際には全データを読み込む必要があります。 ● 列指向フォーマット（ Parquet）では、カラム単位でデータが保存されるため、必要なカラムのみを効率的に読み込むことができます。 ▶ 一体どのように、S3バケット内のJSONをParquetへ変換できるのか？次ページで説明していきたいと思います！

12.

AWS GlueとAmazon Athenaを使ってデータ分析コスト最適化 ▼JSONのソースデータをParquetに変換する具体的な方法について説明します。【まず変換対象となるデータの種類について】 ● 今回S3バケットに蓄積されているJSONデータは、2種類に大別されます。 ○ 「これまで蓄積されている過去データ」 ○ 「これからも継続的に蓄積されるデータ」【どのようにJSONからParquetに変換するのか】 ● 2つの方法が存在 1. Amazon AthenaのCREATE TABLE AS（CTAS）クエリ a. SELECTクエリの実行結果に基づいて、新しいテーブルとそのデータファイルを S3に作成する機能 b. 出力形式はフォーマット指定可能。デフォルトでは Parquet c. 単発で変換したい場合などのユースケースに適している 2. AWS Glue a. PythonやScalaなどの言語でスクリプトとして記述でき、ジョブとして実行する。スケジュール機能もあり、定期的に変換したい場合などのユースケースに適している。

13.

AWS GlueとAmazon Athenaを使ってデータ分析コスト最適化 ▼JSONのソースデータをParquetに変換する具体的な方法について説明します。【まず変換対象となるデータの種類について】 ● 今回S3バケットに蓄積されているJSONデータは、2種類に大別されます。 ○ 「これまで蓄積されている過去データ」 ○ 「これからも継続的に蓄積されるデータ」【どのようにJSONからParquetに変換するのか】 ● 2つの方法が存在 1. Amazon AthenaのCREATE TABLE AS（CTAS）クエリ a. SELECTクエリの実行結果に基づいて、新しいテーブルとそのデータファイルを S3に作成する機能 b. 出力形式はフォーマット指定可能。デフォルトでは Parquet c. 単発で変換したい場合などのユースケースに適している 2. AWS Glue 採用 a. PythonやScalaなどの言語でスクリプトとして記述でき、ジョブとして実行する。スケジュール機能もあり、定期的に変換したい場合などのユースケースに適している。

14.

“列指向(Parquet)”へのデータ変換システム（構成図）データソースログデータ JSON S3バケット Athena Parquet クエリ実行出力変換 AWS Glue S3バケット日時ジョブ 14 列指向へのデータ変換システム Amazon Athena

15.

[beta]

Athenaクエリの結果比較
▶クエリの結果比較 - コスト最適化の効果
1日分の蓄積データに対する Athenaクエリの実行結果を比較します。
● 行指向でスキャンされるJSONのAthenaクエリ結果
○ クエリ実行時間 :
○ データスキャン量 :

2.857秒
3.52MB

● 列指向のParquetのAthenaクエリ結果
○ クエリ実行時間:
○ データスキャン量:

995ミリ秒
249.05KB

SELECT "message_id"
Athenaクエリ
FROM "message"
WHERE dt >= '2024-01-01' AND dt <=
'2024-01-01'

16.

まとめ ● JSONとParquet（パーケット）の違い ○ JSON ■ ■ ○ Parquet ■ ■ ● バイナリフォーマット列指向のため、読み取りたいカラムのみスキャン可能 Parquet（パーケット）へ変換する方法 ○ ① AWS Glue ■ ■ ○ ● テキストフォーマット Athenaでは行指向で全ての要素が読み取られるスケジュール機能が利用可能定期的にデータ変換したい場合に適切です。 ② Amazon Athena ：CREATE TABLE AS（CTAS）クエリ ■ 単発でデータ変換したい場合に適切です。データ分析環境で採用するべきファイルフォーマット ○ Parquet

17.

[02_16]データ分析環境のコストを見直してみた。

uechi kohei

関連スライド

Lambda+PythonでLayerを使うときにハマったこと

RDSコンソールで、シングルAZの配置AZ指定ができなくなっていた話

LT04 リソース消し忘れて高額請求。。懺悔したいお話

20211227_ビギナーがCloudFormationを使用してハマったところ

AWSコンソールをスマホから操ってみた！

GUI手順書を見直してみた

各ページのテキスト

[02_16]データ分析環境のコストを見直してみた。

uechi kohei

関連スライド

Lambda+PythonでLayerを使うときにハマったこと

RDSコンソールで、 シングルAZの配置AZ指定が できなくなっていた話

LT04 リソース消し忘れて高額請求。。懺悔したいお話

20211227_ビギナーがCloudFormationを使用してハマったところ

AWSコンソールをスマホから操ってみた！

GUI手順書を見直してみた

各ページのテキスト

RDSコンソールで、シングルAZの配置AZ指定ができなくなっていた話