イベントソーシングとSnowflake IDパターン

10.2K Views

February 04, 26

#データベース設計 #Primary Key #サロゲートキー #Snowflake ID #分散採番

スライド概要

Masayuki Matsuki

スライド一覧

GitHubber, OSS作家。Tech SaaSのPdM、スタートアップ取締役CTOや外資スタートアップのIC等を経験後現職。好きな言語はGoとPerlと中国語で雑なOSSを200以上量産している。3 times ISUCON winner. 著書「みんなのGo言語」共著他。Podcast https://oss4.fun

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

Goの野暮ったさとどう付き合うか

Masayuki Matsuki 619.4K

k1LoW/deck の紹介とチュートリアル

Masayuki Matsuki 146.9K

おこがましくオーナーシップを持つ

Masayuki Matsuki 88.8K

自己評価力を武器とする

Masayuki Matsuki 80.4K

GoでマルチプラットフォームなOSSを開発する時の注意点

Masayuki Matsuki 54.2K

自己評価力を武器とする増補改訂版

Masayuki Matsuki 36.3K

各ページのテキスト

イベントソーシングと Snowﬂake IDパターン Masayuki Matsuki a.k.a Songmu @ 外部キーNight #2

前回の続き https://junkyard.song.mu/slides/fk-night/#0

https://www.google.com/url?q=https://junkyard.song.mu/slides/fk-night/#0&sa=D&source=editors&ust=1770205259469782&usg=AOvVaw1A3ovTrwU4l4wilgvwd2Rl

外部キーは使いましょう ● データに適切な制約が設けられていると安心 ○ ● オーバーヘッドも全然許容できる (今ならほぼ無視できるコストでは？) ただ、CASCADE DELETE は避けよう ○ ○ ○ トリガー的な暗黙的な振る舞いになりやすいアプリケーションからすると副作用が大きい 1:N関係で大量に削除されてパフォーマンス影響がでることも

DB設計の基本方針変なデータが入ったら大変なので制約をフル活用 ● 出典: ルーク！MySQLではkamipo TRADITIONALを使え！ ○ kamipo TRADITIONALとか知らなくて良くなったので良い時代になりました「アプリケーションは適度に柔らかく、最終防衛ラインであるDBは固く」

https://www.google.com/url?q=https://songmu.jp/riji/entry/2015-07-08-kamipo-traditional.html&sa=D&source=editors&ust=1770205259601020&usg=AOvVaw0DcfnPLA8qXjgoyemxGbox

楽観的に構想し、悲観的に計画し、楽観的に実行する稲盛和夫 - 京セラ創業者 https://www.kyocera.co.jp/inamori/about/thinker/philosophy/words3 6.html

開発も似ている「楽観的に企画し、悲観的に設計し、楽観的に実装する」データ設計含めた設計を楽観的に片づけてしまうと、実装が最初は楽観的でも後からどんどん悲愴的になってしまう

以上 …ではなくて、PRIMARY KEYやSnowﬂake IDの話をします

PK (Primary Key) の流儀派閥や求めたい要件

PKはサロゲートキーかナチュラルキーか ● ● 私はサロゲートキー派多くのWebフレームワークやエコシステムがそれ前提となった ○ 残念なトレンドだと思う人もいるでしょう

10.

PKに求めたい要件 ● イミュータブル(不変)であること ○ ● ● そのためにも意味を持たない無機質な値であること時系列に並んでいること(後述) できれば int64 に収まっていて欲しい ○ (できればint53… -> 無理)

11.

イミュータブルであって欲しい ● PKの値の変更を許容すると無駄に複雑になる ○ ○ 特に外部システム連携が絡む場合などログにID出してあとから突き合わせたいとか ■ こういう要件もあるから「意味がない」ことも大事世界が変化してシステムを変化させていく前提だと、不変なナチュラルキー設計は現実的ではない

12.

時系列で並んでいて欲しい ● ● 「意味を持たない」とは矛盾するが… アプリケーションが過度にその前提に依存するのは危険ではある ○ ○ それを前提にソートすることくらいは許して欲しい… パーティション使うときに便利 (後述)

13.

結局INSERT順にソートしたいことは多い ● ● created_at, id に index 張るのは無駄感例えば、あるユーザーに絞って降順に並べたい場合 ○ ○ user_id, created_at にINDEXを張ると、同一の created_at の順序が不定になる user_id, id へINDEXを張ればその心配は無い

14.

(余談) 外部公開IDの扱い IDを内部情報が伺い知れない値にしたいケースがある ● 連番 (Auto incrementなど) ○ ● ユーザー数規模等が推測されてしまう生成時刻を逆引できる形式 (UUID v7やSnowﬂake IDなど) ○ そのエンティティの生成時刻が推測されてしまうただ、推測されても問題ない場合もあるので必須要件ではないし、本トークではスコープ外とします。

15.

要件を満たすサロゲートキーの値の型 ● ● ● Auto incrementなint64 / uint64 (一般的) UUID v7 / ULID Snowﬂake ID 及びその亜種

16.

Auto Incrementでたまに困る事 ● INSERT前にIDがわからない ○ ○ ● 時系列のパーティションを切りたい時に不便 (後述) ○ ● PKのIDから時刻が逆引できるようになっている方が便利な場合があるシャーディング (水平分割) したいとき ○ ○ ● 複数テーブルや外部連携がある時にINSERTにIDを発番しておけると助かる ■ リトライなどもやりやすい事前発番の方がDBに依存しないので設計的にも綺麗になる ❗ 令和はシャーディングしなくていい！シャード間でIDが被らないようにする必要がある (メリット: 覚えやすい)

17.

分散採番が欲しくなることがある ● ● Auto Incrementなしだとアプリケーション側でのID生成が必要複数プロセスでIDがぶつからないようにケアする必要がある ○ ○ アプリケーションごとの分散採番 → 採番機欲しい (まあ、UUID v7とかで採番して、ユニークキー制約で衝突検知でリトライでも良いのだけど)

18.

Snowﬂake ID 皆さん実は地味にお世話になっていますデータストアのSnowﬂakeとは関係ありません！

19.

Snowﬂake IDとは ● ● https://x.com/songmu/status/2018647700959555984 "2018647700959555984" が Snowﬂake ID

https://www.google.com/url?q=https://x.com/songmu/status/2018647700959555984&sa=D&source=editors&ust=1770205259712551&usg=AOvVaw06dB71o1a5m52BZPx9X3Lm

20.

X公式ドキュメントによる説明 ● ● https://docs.x.com/fundamentals/x-ids Snowﬂake と呼ばれる uint64 のID ○ ○ ○ ○ タイムスタンプとワーカー番号と連番で構成されている大体時系列順に並ぶ Xのシステム全体でユニークである (昔はint64だったがいつの間にかuint64になっていた)

https://www.google.com/url?q=https://docs.x.com/fundamentals/x-ids&sa=D&source=editors&ust=1770205259827762&usg=AOvVaw29y0t5j_6wg1ywE_Ojy769

21.

IDから生成時刻が逆算できる！ ● 2010-11-04 01:42:54.657 UTC を起点とする ○ ● そこから経過した時間(ミリ秒)がIDに含まれている具体的には上位42bitがミリ秒単位のタイムスタンプになっている ○ 以下のような式で導出可能ミリ秒タイムスタンプ = ($SnowflakeID >> 22) + timestamp_ms(2010-11-04 01:42:54.657 UTC)

22.

Snowﬂake IDのレイアウト ● 64bitにレイアウトされている ○ ○ ● ● ● 昔はsignedで63bitレイアウトだったが、いつの間にか64bitになっていた ■ 元々Scala実装だったためJavaのLongになっていたこれによりタイムスタンプが42bitになり寿命が倍に! タイムスタンプが先頭に来るので時系列にソート可能ワーカー(アプリケーション)毎に独立したIDを持たせて重複を回避同一ミリ秒内でも当然複数回発番できるようにシーケンス番号を持つ ○ 同一ミリ秒内で、4096個まで発番可能 ■ 仮に4096個を超えた場合は次のミリ秒まで待つ (現実的にはレアケース) タイムスタンプ (ミリ秒 ) ワーカー ID シーケンス番号 42bit 10bit 12bit

23.

実装例 ● https://github.com/twitter/snowﬂake ○ ○ ● https://github.com/mackerelio/snowﬂake ○ ● Mackerel開発チームによるメンテナンスFork https://github.com/kayac/go-katsubushi ○ ○ ● Twitterオリジナル実装 / Scala製アーカイブされてREADMEだけ残されている・履歴は辿れる複数社で採用実績がありオススメ Goライブラリとしても使えるし、他言語からも採番サーバーとして利用可能 https://github.com/sony/sonyﬂake ○ ○ Sony製！Go製スターも多いし、メンテナンスもアクティブ起点のタイムスタンプはデフォルトがそれぞれ異なるし、利用者側で設定も可能。

24.

サービス利用例 ● Discord ○ ● Instagram ○ ● Discord utilizes Twitter's snowflake format for uniquely identifiable descriptors (IDs). ■ ref. https://discord.com/developers/docs/reference ref. Sharding & IDs at Instagram Mastodon ○ ○ module Mastodon::Snowflake ref. https://github.com/mastodon/mastodon/blob/main/lib/mastodon/snowﬂake.rb ■ タイムスタンプが48bit割り当てられている

25.

Snowﬂakeの利点 ● ● ● ● 分散採番できる時系列順にソートできる IDから生成時刻を逆算できる int64 / uint64 に収まっている ○ 既存のORMでも扱いやすい

26.

Snowﬂakeの弱点 ● 採番機の設定まわりでアーキテクチャがやや複雑になる ○ ○ ● 案外長持ちしない ○ ○ ○ ● ● 41bitタイムスタンプ (int64) だと69年 42bitタイムスタンプ(uint64) だと139年 ■ まあ大丈夫か ■ PostgreSQLにはunsignedが無い… ● numeric等を使う手もありそうだが Mastodonみたいにレイアウトを調整しても良い手動でINSERTしたい時に一手間必要 (何れにせよやらない方がよいけど…) ミリ秒以下のソートは同じワーカーIDじゃないと保証されない ○ ● 特にワーカーIDの管理必要になる katsubushiはRedisによるID管理の仕組みがバンドルされている許容できる長いので覚えられない

27.

(余談) PostgreSQLにはUUID型がある！ ● UUID v7を使えば同様の要件を簡単に満たせる ○ ○ ○ ○ ○ ● 時系列順にソート可能 IDからの生成時刻の逆算も可能 PostgreSQL 18以降はDB側でのUUID v7発番も可能アプリケーション側での採番にも切り替えられる寿命もSnowﬂake IDよりも長いデメリット ○ ○ ○ データサイズが128bitにはなる既存のORMなどがまだしっかり対応していない将来的にはサポートされていくかも

28.

Snowﬂake IDとパーティション分散採番やUUIDは必ずしもシャーディングのためだけではない

29.

イベント追記テーブル ● ● 更新を行わず、事実(イベント)を追記し続けるテーブル以下のような設計思想とマッチする ○ ○ ● ● ● ● イベントソーシングイミュータブルデータモデルイベントを積み上げておけば、現状を再構築できる１つのイベントを複数のユースケースで利用できる履歴テーブルと言われることもあるがニュアンスは少し異なるメッセージブローカーを立てずともRDBMSで完結できる

30.

イベント追記テーブルにおける課題データが増え続け・膨大になる 1. 古いデータの消し込みをローコストで行いたい 2. 必要なデータに効率的にアクセスしたい

31.

パーティションとは？ ● テーブルを内部的に「区切る」RDBMS組み込みの機能 ○ ● PostgreSQLにもMySQLにもある内部的にユニークインデックスで分割された複数テーブルがあるイメージ

32.

パーティションで課題解決 1. 古いデータの消し込みをローコストで行いたい a. → 古いパーティションをDropすればOK 2. 必要なデータに効率的にアクセスしたい a. b. → 適切なインデックスアクセスをすれば必要な内部テーブルしか見に行かない Partition Pruning (刈り込み)

33.

パーティション具体例 ● PKにsnowﬂake IDを使ってRangeパーティションを切る ○ (実はPostgreSQLならUUIDでも良いです) 初期テーブル作成後、未来のパーティションの追加と、過去のパーティションの削除を定期的にバッチ処理する

34.

PostgreSQLでの作成例

35.

MySQLでの作成例

36.

パーティションの追加 (PostgreSQL) 単に新たにPartitionをCREATE TABLEする

37.

パーティションの追加 (MySQL) MySQL - catch all partitionを分割(REORGANIZE)する

38.

過去のパーティションの削除 (PostgreSQL) テーブルからDETACHして取り出してDROP

39.

過去のパーティションの削除 (MySQL) ALTER TABLE DROP PARTITION 構文 PostgreSQLもMySQLも他のパーティションのインデックス再構成などが行われないのでローコストで削除可能。

40.

パーティションの制約 ● パーティションに指定するキーをユニークキーに含める必要がある ○ ● id, created_at をPKにして create_at でパーティションを切る方法の落とし穴 ○ ○ ● 内部の格納テーブルが一意に定まる必要があるのでそれはそう良く紹介されているが id にユニークキー制約が効かなくなる…! ■ ex. (1, '2025-12-31'), (1, '2026-01-01') のように同じIDが入りうる → 時系列IDでやるのがめちゃくちゃオススメ ○ データとしても綺麗でインデックス効率も良い

41.

パーティションと外部キー制約 ● パーティションはその仕組み上外部キー制約実現が内部実装上難しい ○ ● PostgreSQL 11以降でサポート！(2018年) ○ ● 長らくサポートされていなかったただしパーティションキーに限る (まあそれはそう) MySQLはサポートされていない

42.

何度かSoudaiさんに怒られました ● https://x.com/soudai1025/status/1959891948682285175 ○ これを機にまとめました

https://www.google.com/url?q=https://x.com/soudai1025/status/1959891948682285175&sa=D&source=editors&ust=1770205260606443&usg=AOvVaw1hvIPcKkcZm2y1mhxURloT

43.

まとめ

44.

Snowﬂake IDは便利 ● int64, uint64として使えるので既存のORMなどでも扱いやすい ○ ○ ● 特にイベント追記テーブルとの相性が良い ○ ● データ効率も悪くない特にMySQLはunsigned BIGINT が使えるので長生きさせられる時系列のUUIDや分散IDを使いたいのはシャーディング要件だけではない PostgreSQLであればUUID v7も選択肢になる ○ ○ ORMやエコシステムの対応が望まれる受け入れられて行くでしょう