Fair Clustering & Search 2

724 Views

December 10, 24

#高速アルゴリズム #データベース #データマイニング #機械学習 #公平性

スライド概要

Daichi Amagata

@8828547526

スライド一覧

I'm a DB and AI researcher.

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

Independent Range Sampling on Interval Data@ICDE2024

Daichi Amagata 414

2022-DBS-amagata

Daichi Amagata 353

Random Sampling over Spatial Range Joins@ICDE2025

Daichi Amagata 326

Diversity Maximization in the Presence of Outliers@AAAI2023

Daichi Amagata 147

Fast and Exact Outlier Detection in Metric Spaces: A Proximity Graph-based Approach@SIGMOD2021

Daichi Amagata 112

Fair Clustering & Search

Daichi Amagata 108

各ページのテキスト

研究紹介大阪大学大学院情報科学研究科天方大地

自己紹介 ◼ Name: Daichi Amagata（天方大地） ◼ Job: Assistant Professor at Osaka University  BE: Osaka University  MSc: Osaka University（佐々木先生はsenior studentだった）  Ph.D. (information science) Osaka University（鬼塚先生は博士論文の副査担当） • DC1 ◼ Love:  Football (watching w-cup, EURO, and champions league)  Reading comics (>1800 e-comics ≫ #papers read ever) No. 1

研究テーマ：データベース，データマイニング，および機械学習のための高速アルゴリズム No. 2 問い合わせ • ここの計算をとにかく高速に！結果の出力 Google & Microsoft も自社内で精力的に開発 Meta は良さそうなアルゴリズムをFaiss lib. に導入 • 実際に動く & 理論的性能保証！

研究テーマ：データベース，データマイニング，および機械学習のための高速アルゴリズム巨大な入力出力 𝑿 𝒀 = 𝑛 個のデータの集合～2010年代前半：𝑛 = million は大きい 2010年代後半～：𝑛 = billion も珍しくない探索クラスタリング要約外れ値検出 No. 3

探索：条件に合致したデータを出力 No. 4 巨大な入力出力 𝑿 𝒀 = 𝑛 個のデータの集合フィルタ 𝒀 に関わるデータにだけアクセスすることで高速化を実現

クラスタリング：𝑿をグループに分ける No. 5 巨大な入力出力 𝑿 𝒀 = 𝑛 個のデータの集合分類クラスタとはこうである，を定式化したとき，そのクラスタを出力するために必要な処理のみを行うことにより高速化を実現

要約：𝑿 → 𝑿′ s.t. 𝑿′ ≪ 𝑿 No. 6 巨大な入力出力 𝑿 𝒀 = 𝑛 個のデータの集合選択 ∗ 𝑆 = arg max𝑆⊆𝑋, 𝑆 =𝑘 𝒇 𝑺 ′ 𝑓 𝑆 = min 𝑑𝑖𝑠𝑡 𝑥, 𝑥 𝑥,𝑥 ′ ∈𝑆 要約とはこうである，を定式化し，その要約を出力するために必要な処理のみを行うことにより高速化を実現

外れ値検出：条件に合致したデータを出力 No. 7 巨大な入力出力 𝑿 𝒀 = 𝑛 個のデータの集合分類外れ値とはこうである，を定式化したとき，各データに対して外れ値？ or not？（← 探索）を高速に判定する仕組みを設計

研究テーマ：データベース，データマイニング，および機械学習のための高速アルゴリズム巨大な入力出力 𝑿 𝒀 = 𝑛 個のデータの集合～2010年代前半：𝑛 = million は大きい 2010年代後半～：𝑛 = billion も珍しくない探索クラスタリング公平性の概念を組み込んだ定式化要約外れ値検出 No. 8

10.

この分野における「公平性」ってなに？？？定義は沢山ありますが，私が扱う研究では（たぶん）公平性 ≒ 平等「探索」，「クラスタリング」，および「要約」における平等ってなに？？？ No. 9

11.

この分野における「公平性」ってなに？？？ No. 10 巨大な入力出力 𝑿 𝒀 = 𝑛 個のデータの集合～2010年代前半：𝑛 = million は大きい 2010年代後半～：𝑛 = billion も珍しくない公平性 ≒ 平等「探索」，「クラスタリング」，および「要約」における平等ってなに？？？

12.

この分野における「公平性」ってなに？？？ No. 11 巨大な入力要件を満たす集合出力 𝑿 𝒁 𝒀 = 𝑛 個のデータの集合～2010年代前半：𝑛 = million は大きい 2010年代後半～：𝑛 = billion も珍しくない公平性 ≒ 平等「探索」，「クラスタリング」，および「要約」における平等ってなに？？？

13.

探索問題における「公平性」ってなに？？？ No. 12 巨大な入力要件を満たす集合出力 𝑿 𝒁 𝒀 = 𝑛 個のデータの集合 = 𝑚 個のデータの集合～2010年代前半：𝑛 = million は大きい 2010年代後半～：𝑛 = billion も珍しくない ∀𝒙 ∈ 𝒁, 𝐏𝐫𝐨𝐛 𝒙 ∈ 𝒀 = 𝟏/ 𝒁 ：統計的に重要な条件 𝑍: 条件を満たす全てのデータ 𝑌: 𝑍からランダムサンプルされたデータ

14.

公平な探索問題の何が難しい？？？ No. 13 巨大な入力要件を満たす集合出力 𝑿 𝒁 𝒀 = 𝑛 個のデータの集合～2010年代前半：𝑛 = million は大きい 2010年代後半～：𝑛 = billion も珍しくない 𝑿 から 𝒁 を計算 = 𝑚 個のデータの集合ランダムサンプリング → 𝑍 が大きい → 少なくとも大きい数のデータにアクセスする必要有 → 遅い（計算コスト大）巨大な入力出力 𝑿 𝒀 = 𝑛 個のデータの集合～2010年代前半：𝑛 = million は大きい 2010年代後半～：𝑛 = billion も珍しくない

15.

公平な探索問題で何を達成した？ No. 14 内積探索問題 [1] 𝑥 | 𝑥 ∈ 𝑋, 𝑥 ⋅ 𝑞 ≥ 𝜏 から，ランダムな 𝑡 個のデータをサンプルする時間（期待値）：log 𝑛 + 𝑡 に比例インターバル探索問題 [2] 𝑥 | 𝑥 ∈ 𝑋, 𝑥 ∩ 𝑞 ≠ ∅ から，ランダムな 𝑡 個のデータをサンプルする時間：log 2 𝑛 + 𝑡 に比例空間ジョイン問題 (𝑥, 𝑦) | 𝑥, 𝑦 ∈ 𝑋 ⋈ 𝑌 から，ランダムな 𝑡 個のデータをサンプルする時間（期待値）：𝑛 + 𝑚 + 𝑡 にほぼ比例巨大な入力出力 𝑿 𝒀 = 𝑛 個のデータの集合 [1] K. Aoyama et al., “Simpler is Much Faster: Fair and Independent Inner Product Search,” In SIGIR, 2023. [2] D. Amagata, “Independent Range Sampling on Interval Data,” In ICDE 2024.

16.

研究テーマ：データベース，データマイニング，および機械学習のための高速アルゴリズム巨大な入力出力 𝑿 𝒀 = 𝑛 個のデータの集合～2010年代前半：𝑛 = million は大きい 2010年代後半～：𝑛 = billion も珍しくない探索クラスタリング公平性の概念を組み込んだ定式化要約外れ値検出 No. 15

17.

クラスタリングにおける「公平性」ってなに？？？グループ公平性個人公平性各データの属性を考慮類似したデータ → 類似した結果 No. 16

18.

クラスタリングにおける「グループ公平性」ってなに？グループ公平性 w/o over- & lower-representation 各データの属性を考慮 = "𝛼𝑗 ≤ 𝐶𝑖 ∩ 𝑃𝑗 ≤ 𝛽𝑗 " No. 17 → 各クラスタ𝐶𝑖 には属性𝑗のデータが𝛼𝑗 以上𝛽𝑗 以下属する． → あるクラスタが特定の属性に独占されないようにする． Matroid constraint = " 𝑆 ∩ 𝑃𝑗 = 𝑘𝑗 ∀𝑗 ∈ 1, 𝑚 , 𝑆 = 𝑘" → クラスタ中心には属性𝑗から𝑘𝑗 個選ばれる． → クラスタ中心が特定の属性に独占されないようにする． Social fairness Δ 𝐶,𝑃𝑖 𝑃𝑖 𝑚 = min max → 各属性に対して遠いクラスタセンタを抑制 → クラスタ中心が特定の属性に対して遠い，を防ぐ．

19.

クラスタリングにおける「個人公平性」ってなに？？？定義個人公平性各データに対して、クラスタセンタが自身の類似したデータ → 類似した結果 𝑛/𝑘-最近傍に含まれている． No. 18

20.

公平なクラスタリングの何が難しい？ No. 19 𝑘-クラスタリング：𝑆 ∗ = argmin 𝑓(𝑃, 𝑆) 𝑆 =𝑘 𝑆 はクラスタセンタの集合であり， 𝑆 ∗ の計算はNP困難（多項式時間では解が得られない） → 𝑺∗ っぽい解を高速に探したい w/o over- & lower-representation = "𝛼𝑗 ≤ 𝐶𝑖 ∩ 𝑃𝑗 ≤ 𝛽𝑗 " → 各クラスタ𝐶𝑖 には属性𝑗のデータが𝛼𝑗 以上𝛽𝑗 以下属する． → あるクラスタが特定の属性に独占されないようにする． Matroid constraint = " 𝑆 ∩ 𝑃𝑗 = 𝑘𝑗 ∀𝑗 ∈ 1, 𝑚 , 𝑆 = 𝑘" → クラスタ中心には属性𝑗から𝑘𝑗 個選ばれる． → クラスタ中心が特定の属性に独占されないようにする． Social fairness Δ 𝐶,𝑃𝑖 𝑃𝑖 𝑚 = min max → 各属性に対して遠いクラスタセンタを抑制 → クラスタ中心が特定の属性に対して遠い，を防ぐ．

21.

公平なクラスタリング問題で何を達成した？ Fair k-center clustering with outliers [3] 𝑆 ∗ = argmin𝑆⊆𝑃∖𝑃𝑜𝑢𝑡 , 𝑆 =𝑘,∀𝑖∈ 1,𝑚 , 𝑆∩𝑃𝑖 ≤𝑘𝑖 No. 20 max 𝑑𝑖𝑠𝑡 𝑝, 𝑆 𝑝∈𝑃∖𝑃𝑜𝑢𝑡 There is an 𝑂(𝑛𝑘) time algorithm that needs 𝑂(𝑛) space and yields a (3 + 𝛾)-approximation result for the fair (𝑘, 1 + 𝜖 𝑧)-center clustering problem with probability at least 𝑧 1−𝑛 [3] D. Amagata, “Fair k-center Clustering with Outliers,” In AISTATS 2024. 𝜖 𝑘−1 , by returning exactly 𝑘 centers and removing at most 1+𝜖 1 + 𝜖 𝑧 points.

22.

まとめ：この分野における「公平性」とは No. 21 巨大な入力出力 𝑿 𝒀 = 𝑛 個のデータの集合～2010年代前半：𝑛 = million は大きい 2010年代後半～：𝑛 = billion も珍しくない公平性 ≒ 平等探索における公平性：解に入る確率が平等（同じ）クラスタリングにおける公平性：グループ公平性（属性が平等に扱われる）と個人公平性（似たデータがクラスタセンタ）

23.

共同研究っぽい何かは絶賛大募集 No. 22 巨大な入力公平な出力 𝑿 𝒀 = 𝑛 個のデータの集合提供できます！ • データ処理関係で困ってることの解決是非教えて下さい！ • 実はこんな公平性が求められています、的な話 • 〇〇な処理は不公平な結果を出しがち、的な話