3.4K Views
February 27, 24
スライド概要
このプレゼンテーションでは、AWS DataZoneとは何か、どのような機能があるか、カタログ作成の流れについて説明しました。AWS DataZoneは、2023年10月に一般提供開始が予定されているデータ管理サービスであり、その中でもAI recommendations for descriptionsを搭載しており、ワンクリックでメタデータを生成することができます。AIが自動的に日本語に翻訳してくれる機能は未実装ですが、日本語のスキーマ名にも対応しています。また、データ登録までの一連の流れに関して、詳細な手順を示しました。
おすすめタグ:AWS,Data management,AI recommendations,Metadata,Data catalog
AWS 生成AI×Data Catalog 新機能について セゾン情報システムズ 山口颯太 DP開発部
目次 1. 自己紹介 2. DataZoneとは 3. AI recommendations for descriptions in Amazon DataZoneとは 4. さっそくつかってみる 1. カタログ作成の自動化 2. 言語による差異・ファイル名・カラム名のマスク 3. ローカル用語が含まれるデータ 5. まとめ 2
1.自己紹介 氏名:山口颯太(やまぐちそうた) 趣味:ゲーム、映画鑑賞 業務内容:データ連携基盤の構築支援 取得済み資格:CLF、SAA →SOA取得に向けて勉強中 3
2.DataZoneとは • 2023年10月に一般提供開始のデータ管理サービス • 組織内データの「カタログ化・検索・分析・共有・管理」を可能にする Amazon DataZone の一般提供を開始 – 組織の境界を越えたデータプロジェクトでの共同作業 by Channy Yun | on 11 10月 2023 より 4
2.DataZoneとは • 高度な知識を必要とせず、UI操作で実行できる 5
3. AI recommendations for descriptions in Amazon DataZoneとは • Amazon Bedrockがベースの機能 • ワンクリックで「データの説明・メタデータ」を生成 Amazon DataZone Amazon Redshift Data table AWS Glue Data Catalog CSV Logs Amazon Bedrock Data portal Data projects Business data catalog 6
4-1.カタログ作成までの流れ 1. S3にあるCSVをAWS Glue Crawlerで取得し、AWS Glue Data Catalogに登録 2. Glue内の Data CatalogをDataZone 内のdata catalogに統合 3. DataZoneにてデータアセットとして公開&閲覧 Amazon Simple Storage Service (Amazon S3) CSV Bucket with objects AWS Glue Crawler AWS Glue Data Catalog Amazon DataZone Business data catalog 7
4-1.カタログ作成までの流れ
人口統計データ.csv(データ元:人口動態調査/人口動態統計 速報)
地域コード
都道府県(特別区
出生数
-指定都市再掲)
死亡数
死産数
婚姻件数
離婚件数
1 北海道
2124
6598
46
1812
661
2 青森県
491
1757
13
308
143
JEOPARDY.csv(クイズ番組データ元:楽しみながら学ぶサンプル)
Show Number
Air Date
4680
4680
2004/12/31
2004/12/31
Round
Category
Jeopardy!
HISTORY
Jeopardy!
ESPN's TOP 10
ALL-TIME
ATHLETES
Value
Question
Answer
For the last 8 years
of his life, Galileo
was under house
$200
Copernicus
arrest for
espousing this
man's theory
No. 2: 1912
Olympian; football
star at Carlisle
$200 Indian School; 6
Jim Thorpe
MLB seasons with
the Reds, Giants &
Braves
8
4-1.カタログ作成までの流れ • スキーマの名前と説明を生成 ※DataZoneは日本語対応しているが、生成AI機能は英語のみ対応 (ファイル名が人口統計データ ___.csv、、。) 名前 説明 地域コード The unique code that identifies the region Japan. 都道府県(特別区-指定都市再掲) - 出生数 The number of live births in the region for the time period. 死亡数 The number of deaths in the region for the time period. 死産数 The number of live births in the region for the time period. 9
4-1.カタログ作成までの流れ 1. データの概要生成 2. データの想定される使用例 3. データの想定されるユーザー ※翻訳後に抜粋 データの概要生成 結婚、離婚、出生、死亡、 死産などの重要なイベント に関する日本のさまざまな 地域の人口統計データ データの想定される使用例 インフラ、住宅、学校、 サービスを人口ニーズに合 わせて計画するために、詳 細な地理データを活用 想定されるデータユーザー 社会政策の策定 - 政策立案 者 10
4-2.言語による差異・ ファイル名・カラム名のマスク • カラム名とファイル名から生成していそう、、なのでマスクしてみた(column1にする) (概要生成精度) 無編集データ ファイル名・カラム名一部マ スク ファイル名・カラム名全部マ スク 人口統計データ (日本語) ◎ 〇 × クイズ番組データ (英語) ◎ 〇 × 概要文の抜粋(都道府県・死亡数・離婚件数をマスク) テーブルには、さまざまな地理的地域の人口統計データが含まれており、各行が地域を表し、列には結婚登録数、出生数、死産 数、地域コードなどの情報が記録されています。 言語による差異は特になし。 概要文では、マスク部分の補完はされないが他の部分は生成はされる。 11
4-2.言語による差異・ ファイル名・カラム名のマスク カラム名マスクなし(404 words) カラム名一部マスク(343 words) [都道府県・死亡数・離婚件数をマスク] The table contains demographic data on vital events such as marriages, divorces, births, deaths, and stillbirthsacross different regions of Japan. It provides granular statistics on these events at the prefecture, special ward, and designated city level, along with unique codes that identify each region. The data enables analysis of demographic and social trends across Japan's geographic divisions. Key metrics like birth rates, death rates, marriage rates, and divorce rates can be calculated from the data. The table contains demographic data for different geographical regions, with each row representing a region and columns capturing information like marriage registrations, live births, stillbirths, and region codes. The value columns seem to be placeholders without clear meaning. Key metrics tracked include marriage registrations, live births, and stillbirths, which can be used to analyze birth rates, mortality, and nuptiality trends across regions. 12
4-3.ローカル用語が含まれるデータ • カラム名を「意味ありげな」ローカル用語にしてみた • Air Date:ond, Category:ttlc, Value:vle カラム名だけでなくデータの中身から推測し、スキーマの説明文を生成している 13
4-3.ローカル用語が含まれるデータ • データの中身から各用語を推測して概要文を生成している • Category:ttlc, Air Date:ond, Value:vle 原文 翻訳 The jeopardy_glossary_csv table contains data related to questions, answers, and metadata from the American television game show Jeopardy. The ttlc column provides the category title for each question. ond gives the original air date for the episode. round indicates which round of the game the question is from. The question column contains the text read by the host, while answer has the correct response text. show number gives the episode number, and vle lists the dollar value of each question. jeopardy_glossary_csvテーブルは、アメリカのテレビ ゲームショー「Jeopardy」の質問、回答、およびメタ データに関連するデータを含んでいます。ttlc列は、各 質問のカテゴリータイトルを提供します。ondは、エピ ソードのオリジナル放送日を示します。roundは、ゲー ムのどのラウンドの質問かを示します。question列には、 司会者が読む質問のテキストが含まれており、answerに は正しい回答のテキストが含まれています。show numberはエピソード番号を示し、vleは各質問のドル価 値をリストします。 14
4-3.ローカル用語が含まれるデータ • DataZoneではビジネス用語などをあらかじめ定義できる 15
4-3.ローカル用語が含まれるデータ • 用語集に定義して概要文を生成してみる • ttlc:categorly of title, Ond:放送日, vle:賞金総額 原文 翻訳 The jeopardy_glossary_csv table contains data related to questions asked on the Jeopardy game show. It includes the category title, original air date, round, question text, answer text, episode number, and dollar value for Jeopardy questions. The category title provides insight into the general topic of the question. The original air date allows tracking of when the question was asked `jeopardy_glossary_csv`テーブルは、ジェパ ディ・ゲームショーで出題された質問に関する データを含んでいます。このテーブルには、カ テゴリータイトル、オリジナル放送日、ラウン ド、質問文、回答文、エピソード番号、および ジェパディ質問のドル価値が含まれています。 カテゴリータイトルは、質問の一般的なトピッ クを示しています。オリジナル放送日は、質問 がいつ出題されたかを追跡することができます。 大幅な精度向上が見られた 16
5.まとめ • 全体を通して • DataZoneで組織内のデータをカタログ化して公開できる • DataZoneではデータ共有に関する権限を容易に管理できる • DataZone AI recommendations で面倒なメタデータ作成を補助 詳細機能 • Columnやdataなどのマスクされたカラム名を使用すると生成されない • vleやttlcなどのローカル用語や略語はデータの中身などから、推測・補完される場合がある • ビジネス用語集機能にあらかじめ用語を登録することで、生成精度を向上させることができる 17