data zone発表資料

4.7K Views

February 27, 24

#Amazon DataZone #AWS Glue Data Catalog #Amazon Bedrock #メタデータ自動生成 #AI

スライド概要

このプレゼンテーションでは、AWS DataZoneとは何か、どのような機能があるか、カタログ作成の流れについて説明しました。AWS DataZoneは、2023年10月に一般提供開始が予定されているデータ管理サービスであり、その中でもAI recommendations for descriptionsを搭載しており、ワンクリックでメタデータを生成することができます。AIが自動的に日本語に翻訳してくれる機能は未実装ですが、日本語のスキーマ名にも対応しています。また、データ登録までの一連の流れに関して、詳細な手順を示しました。

おすすめタグ：AWS,Data management,AI recommendations,Metadata,Data catalog

山口

@6405327

スライド一覧

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

猫でも分かるUnreal Engineの学び方 - 超初心者向け編 - 2023 v1.0

ue4 ue5 ue-beginner

エピックゲームズジャパン 1.7M

Unreal Engine5 Lumenの仕組みと肝心なところ

ue5 ue-rendering ue-lumen

エピックゲームズジャパン 1.5M

UE5レンダリングフロー総おさらい(2024) 基礎編！[CEDEC+KYUSHU 2024]

ue5 unreal engine ue-rendering

エピックゲームズジャパン 1.3M

Meta XR SDK(V66-74)でQuestアプリを開発

spatial anchor unity quest pro shaperecognizeractivatestate oculus integration transformfeaturestateprovider building blocks transformrecognizeractivestate ovrsemanticclassification jointdeltaprovider ovrscenemanager jointvelocityactivestate オクルージョン sequenceactivestate scene manager ambisonic depth api metaxraudiosource playerlocomotor meta xr sdk quest3 ovrplayercontroller マルチモーダル meta haptics studio direct touch ui meta xr haptics sdk ovrspatialanchor ovrtrackedkeyboard hapticclipplayer fingerfeaturestateprovider hapticclip ワイドモーションモード wmm mruk mr utility kit voice sdk jointrotationactivestate meta horizon os ui set asw application spacewarp ovr metrics tool unityscene manager colocation discovery コロケーション mx ink passthrough camera api hand tracking microgestures webcamtexturemanager passthroughcamerautils cameraviewermanager hand pose selector recorder

あうぜん 1.2M

猫でも分かる UE5.0, 5.1 におけるアニメーションの新機能について【CEDEC+KYUSHU 2022】

ue5 cedec+kyushu ue-animation ue-optimize ue-bp ue-physics ue-sequencer

エピックゲームズジャパン 1M

【DeNA】新卒エンジニア向け会社説明資料

DeNA新卒採用 1M

各ページのテキスト

AWS 生成AI×Data Catalog 新機能についてセゾン情報システムズ山口颯太 DP開発部

目次 1. 自己紹介 2. DataZoneとは 3. AI recommendations for descriptions in Amazon DataZoneとは 4. さっそくつかってみる 1. カタログ作成の自動化 2. 言語による差異・ファイル名・カラム名のマスク 3. ローカル用語が含まれるデータ 5. まとめ 2

1.自己紹介氏名：山口颯太（やまぐちそうた）趣味：ゲーム、映画鑑賞業務内容：データ連携基盤の構築支援取得済み資格：CLF、SAA →SOA取得に向けて勉強中 3

2.DataZoneとは • 2023年10月に一般提供開始のデータ管理サービス • 組織内データの「カタログ化・検索・分析・共有・管理」を可能にする Amazon DataZone の一般提供を開始 – 組織の境界を越えたデータプロジェクトでの共同作業 by Channy Yun | on 11 10月 2023 より 4

https://aws.amazon.com/jp/blogs/news/amazon-datazone-now-generally-available-collaborate-on-data-projects-across-organizational-boundaries/

2.DataZoneとは • 高度な知識を必要とせず、UI操作で実行できる 5

3. AI recommendations for descriptions in Amazon DataZoneとは • Amazon Bedrockがベースの機能 • ワンクリックで「データの説明・メタデータ」を生成 Amazon DataZone Amazon Redshift Data table AWS Glue Data Catalog CSV Logs Amazon Bedrock Data portal Data projects Business data catalog 6

4-1.カタログ作成までの流れ 1. S3にあるCSVをAWS Glue Crawlerで取得し、AWS Glue Data Catalogに登録 2. Glue内の Data CatalogをDataZone 内のdata catalogに統合 3. DataZoneにてデータアセットとして公開＆閲覧 Amazon Simple Storage Service (Amazon S3) CSV Bucket with objects AWS Glue Crawler AWS Glue Data Catalog Amazon DataZone Business data catalog 7

[beta]

4-1.カタログ作成までの流れ
人口統計データ.csv(データ元：人口動態調査/人口動態統計 速報)
地域コード

都道府県（特別区
出生数
－指定都市再掲）

死亡数

死産数

婚姻件数

離婚件数

1 北海道

2124

6598

46

1812

661

2 青森県

491

1757

13

308

143

JEOPARDY.csv(クイズ番組データ元：楽しみながら学ぶサンプル)
Show Number

Air Date

4680

4680

2004/12/31

2004/12/31

Round

Category

Jeopardy!

HISTORY

Jeopardy!

ESPN's TOP 10
ALL-TIME
ATHLETES

Value

Question

Answer

For the last 8 years
of his life, Galileo
was under house
$200
Copernicus
arrest for
espousing this
man's theory
No. 2: 1912
Olympian; football
star at Carlisle
$200 Indian School; 6
Jim Thorpe
MLB seasons with
the Reds, Giants &
Braves

8

https://www.e-stat.go.jp/stat-search/files?page=1&layout=datalist&toukei=00450011&tstat=000001028897&cycle=1&year=20230&month=24101211&tclass1=000001053058&tclass2=000001053059

4-1.カタログ作成までの流れ • スキーマの名前と説明を生成 ※DataZoneは日本語対応しているが、生成AI機能は英語のみ対応（ファイル名が人口統計データ＿＿＿.csv、、。）名前説明地域コード The unique code that identifies the region Japan. 都道府県（特別区-指定都市再掲） - 出生数 The number of live births in the region for the time period. 死亡数 The number of deaths in the region for the time period. 死産数 The number of live births in the region for the time period. 9

10.

4-1.カタログ作成までの流れ 1. データの概要生成 2. データの想定される使用例 3. データの想定されるユーザー ※翻訳後に抜粋データの概要生成結婚、離婚、出生、死亡、死産などの重要なイベントに関する日本のさまざまな地域の人口統計データデータの想定される使用例インフラ、住宅、学校、サービスを人口ニーズに合わせて計画するために、詳細な地理データを活用想定されるデータユーザー社会政策の策定 - 政策立案者 10

11.

4-2.言語による差異・ファイル名・カラム名のマスク • カラム名とファイル名から生成していそう、、なのでマスクしてみた（column1にする）（概要生成精度）無編集データファイル名・カラム名一部マスクファイル名・カラム名全部マスク人口統計データ（日本語） ◎ 〇 × クイズ番組データ（英語） ◎ 〇 × 概要文の抜粋（都道府県・死亡数・離婚件数をマスク）テーブルには、さまざまな地理的地域の人口統計データが含まれており、各行が地域を表し、列には結婚登録数、出生数、死産数、地域コードなどの情報が記録されています。言語による差異は特になし。概要文では、マスク部分の補完はされないが他の部分は生成はされる。 11

12.

4-2.言語による差異・ファイル名・カラム名のマスクカラム名マスクなし（404 words）カラム名一部マスク（343 words） [都道府県・死亡数・離婚件数をマスク] The table contains demographic data on vital events such as marriages, divorces, births, deaths, and stillbirthsacross different regions of Japan. It provides granular statistics on these events at the prefecture, special ward, and designated city level, along with unique codes that identify each region. The data enables analysis of demographic and social trends across Japan's geographic divisions. Key metrics like birth rates, death rates, marriage rates, and divorce rates can be calculated from the data. The table contains demographic data for different geographical regions, with each row representing a region and columns capturing information like marriage registrations, live births, stillbirths, and region codes. The value columns seem to be placeholders without clear meaning. Key metrics tracked include marriage registrations, live births, and stillbirths, which can be used to analyze birth rates, mortality, and nuptiality trends across regions. 12

13.

4-3.ローカル用語が含まれるデータ • カラム名を「意味ありげな」ローカル用語にしてみた • Air Date:ond, Category:ttlc, Value:vle カラム名だけでなくデータの中身から推測し、スキーマの説明文を生成している 13

14.

4-3.ローカル用語が含まれるデータ • データの中身から各用語を推測して概要文を生成している • Category:ttlc, Air Date:ond, Value:vle 原文翻訳 The jeopardy_glossary_csv table contains data related to questions, answers, and metadata from the American television game show Jeopardy. The ttlc column provides the category title for each question. ond gives the original air date for the episode. round indicates which round of the game the question is from. The question column contains the text read by the host, while answer has the correct response text. show number gives the episode number, and vle lists the dollar value of each question. jeopardy_glossary_csvテーブルは、アメリカのテレビゲームショー「Jeopardy」の質問、回答、およびメタデータに関連するデータを含んでいます。ttlc列は、各質問のカテゴリータイトルを提供します。ondは、エピソードのオリジナル放送日を示します。roundは、ゲームのどのラウンドの質問かを示します。question列には、司会者が読む質問のテキストが含まれており、answerには正しい回答のテキストが含まれています。show numberはエピソード番号を示し、vleは各質問のドル価値をリストします。 14

15.

4-3.ローカル用語が含まれるデータ • DataZoneではビジネス用語などをあらかじめ定義できる 15

16.

4-3.ローカル用語が含まれるデータ • 用語集に定義して概要文を生成してみる • ttlc：categorly of title, Ond：放送日, vle：賞金総額原文翻訳 The jeopardy_glossary_csv table contains data related to questions asked on the Jeopardy game show. It includes the category title, original air date, round, question text, answer text, episode number, and dollar value for Jeopardy questions. The category title provides insight into the general topic of the question. The original air date allows tracking of when the question was asked `jeopardy_glossary_csv`テーブルは、ジェパディ・ゲームショーで出題された質問に関するデータを含んでいます。このテーブルには、カテゴリータイトル、オリジナル放送日、ラウンド、質問文、回答文、エピソード番号、およびジェパディ質問のドル価値が含まれています。カテゴリータイトルは、質問の一般的なトピックを示しています。オリジナル放送日は、質問がいつ出題されたかを追跡することができます。大幅な精度向上が見られた 16

17.

5.まとめ • 全体を通して • DataZoneで組織内のデータをカタログ化して公開できる • DataZoneではデータ共有に関する権限を容易に管理できる • DataZone AI recommendations で面倒なメタデータ作成を補助詳細機能 • Columnやdataなどのマスクされたカラム名を使用すると生成されない • vleやttlcなどのローカル用語や略語はデータの中身などから、推測・補完される場合がある • ビジネス用語集機能にあらかじめ用語を登録することで、生成精度を向上させることができる 17