218 Views
February 25, 26
スライド概要
https://jedai.connpass.com/event/383582/
data engineer
Open Semantic Interchange(OSI)の fi speci cationを概観してみる
自己紹介 @reonah6 2017/04~ Backend Developer 2022/10~ Data Engineer 2023/06~ Databricks User 2025/09~
トピック ● セマンティックレイヤ概要 ● セマンティックレイヤ標準化の動向 セマンティックレイヤについて、亀井さん・manabianさんが別イベントで発表されています。 https://code-based-presentation.connpass.com/event/374363/
経験ないですか? 今月の売上いくら? 集計結果が部門で異なる ¥98M ¥110M ≠ 経理 ボス ¥105M ≠ マーケ 営業
経験ないですか? 今月の売上いくら? 「売上」の定義が揃っていない 返品控除済、税抜 受注ベース、税込 手入力、計上ズレ ¥98M ¥110M ¥105M ≠ 経理 ボス ≠ マーケ 営業
セマンティックレイヤとは Databricks 公式ドキュメントより Semantic Layer| Databricks セマンティックレイヤーは、複雑なデータモデルとビジネスユーザーの間のギャップ を埋める、ビジネスフレンドリーなインターフェースです。 -中略技術的なデータ構造を馴染みのあるビジネス用語や概念に変換することで、データア ナリストやビジネスユーザーは、深い技術的専門知識を必要とせずに、データにアク セスし、分析し、洞察を導き出すことができます
セマンティックレイヤとは データソース セマンティックレイヤ データモデル 技術的なデータ構造 利用者 ビジネスユーザ ビジネス用語・概念 関連付け・定義 Ex: 売上, 年度, アクティブユーザ… 適切に定義されたセマンティックレイヤはデータ活用のアジリティを上げる
セマンティックレイヤ現状 Metric Views + Genie dbt semantic layer Semantic Views + Cortex Analyst Microsoft Fabric Power BI Semantic Model Looker(LookML) Tableau Semantics AtScale Cube Lightdash データ基盤側〜活用(BI)側の様々な場所で多様な実装
2010年代後半以降のデータ基盤 ~2010年代 事業部A 2010年代後半~ 事業部C 事業部B データのサイロ ファブリック/メッシュ・OTF etc… サイロ解消のための アーキテクチャパターン・実装 セマンティック(意味)がバラバラ データ所在のサイロは打開されつつあるが、データの意味はバラバラ
セマンティックレイヤ標準化 2025/09: Open Semantic Interchange(OSI)発足がアナウンス 「ベンダーに依存しないセマンティック標準の策定を目指す」 2026/01: Databricks 参加のアナウンス v1の仕様が公開
OSI v1仕様 GitHubにてApache 2.0 Licenseのもと公開されている YAMLで定義 2026/02時点の対応Dialect ANSI SQL • Snow ake • Multi Dimensional Expressions • Tableau • Databricks fl •
OSI v1仕様 YAMLスキーマ フィールド名 説明 name セマンティックモデル名 description 説明 datasets relationships metrics ai̲context custom̲extension ファクト・ディメンションのコレクション (metric views の source, dimensions フィールド) datasets間のつながりを表現する (metric views の joins フィールド) datasetsの集計式で表現される尺度 (metric views の measures の フィールド) AIツールのためのフィールド 同義語、AI向けの説明・使用例 ベンダー固有設定のフィールド デフォルトカタログの設定 仕様はシンプル。metric views と似ている
OSI v1仕様 YAMLスキーマ ai̲context: instructions: "売上分析に使用。返品控除後の純額" synonyms: ["revenue", "売上高", "net sales"] examples: ["先月の地域別売上を出して"]
OSI に対応した世界(想像) OSI仕様のYAMLからMetric Viewsが作成できるようになるはず YAML (OSI) Genie Space metric views + OSI仕様のYAML定義 metric viewsを生成 ポータブルなYAMLファイルで定義=データの意味もSSoTとなる
一方で… 誰がこのYAMLを定義管理するのか? 特定のチームが定義・管理するパターン 特定のチームがボトルネック 各チームが個別に定義・管理するパターン 資材の乱立
個人的には 各チームに定義管理してもらうほうが良さそう。 メトリクスを監視し、統廃合 資材の乱立 Popularity Genie Space Monitoring System Tables 整理された資材 データ活用のアジリティ向上とガバナンスを両立できるかも?
まとめ セマンティックレイヤ標準化を外観 セマンティクスがポータブルな形で統一化される(AIとの親和性も上がる) →データ活用の促進に期待 △誰が定義管理するか?問題の顕在化 →YAMLファイル自体に加え、言葉の定義自体をどうするか?問題 ステークホルダとのコミュニケーションがより重要になっていきそうな予感