[DLHacks]Privacy-preserving generative deep neural networks support clinical data sharing

>100 Views

June 19, 18

#deep learning #GAN #Medical Data #Differential Privacy #Data Generation #Machine Learning

スライド概要

2018/06/11
Deep Learning JP:
http://deeplearning.jp/hacks/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 87.3K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 59.9K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 58.4K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 41.4K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 37.9K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 37.4K

各ページのテキスト

Privacy-preserving generative deep neural networks support clinical data sharing Brett K. Beaulieu-Jones, Zhiwei Steven Wu, Chris Williams, James Brian Byrd, Casey S. Greene 2018/6/10 DL Hacks研究タスク発表古賀樹

目次 • 論文紹介 • 実装紹介 • 評価 • まとめ

論文紹介

書誌情報 • 著者 • Brett K. Beaulieu-Jones (UPenn, Medicine) • Zhiwei Steven Wu (UPenn, Engineering and Applied Sciences) • • Chris Williams (UPenn, Medicine) • James Brian Byrd (Michigan, Medicine) • Casey S. Greene (UPenn, Medicine) Preprint ( https://www.biorxiv.org/content/early/ 2018/06/05/159756 )

書誌情報 • Ian Goodfellow が Twitterで言及

要点 • GAN (Generative Adversarial Network) を用いて個人が特定できない医療データを生成することに成功した。これにより医療データシェアが促進される。 • データ生成に伴うプライバシーリスクを差分プライバシーにより定量化した。

医療データ • 臨床データ (病院での検査結果等) • 欠損値の多い時系列データ • 画像データ • ゲノムデータ

医療データのシェア • 個人と紐づく医療データは一般公開されない • 従来の匿名化手法では不十分 (k匿名化など) • プライバシー / データの質 • データシェアのためには同意書、倫理審査が必要 • 医療データを題材にしたコンペも開催され始める (ex: SPRINT Data Analysis Challenge) GANを用いて個人情報を含まないデータを生成

GAN (AC-GAN) • Conditional Image Synthesis With Auxiliary Classiﬁer GANs (ICML 2017) https://arxiv.org/abs/ 1610.09585 • 通常のGANにClassの情報を付与する

https://arxiv.org/abs/

10.

GAN (AC-GAN) • Discriminator: max LS + LC • Generator: min LC LS

11.

差分プライバシー (定義) * Neighboring dataset: あるデータセットと1要素のみ異なるデータセット ✏, δ が小さいほど、プライバシーは保護されている

12.

差分プライバシー (気持ち) https://www.slideshare.net/kentarominami39/ss-64088396

https://www.slideshare.net/kentarominami39/ss-64088396

13.

GANと差分プライバシーとの橋渡し Deep Learning with Differential Privacy Martin Abdi et al. Differential Private SGD Algorithm • 勾配のL2ノルムでclip • clipの閾値の大きさに比例した分散を持つ正規分布のノイズを勾配に加える

14.

GANと差分プライバシーとの橋渡し Deep Learning with Differential Privacy Martin Abdi et al. The Moments Accountant • 従来の手法(strong composition thorem)よりもタイトな上限を得た • 実装には確率分布のモーメント( 5 32 )を用いた定理を利用

15.

評価 • • データの分布が似ている • データの代表値を比較 • データ内での相関係数を比較医者が生成データを不自然だと思わない • • 機械学習の学習データとして使用できる • • 医者による真偽判定テスト機械学習タスクの性能を比較十分なプライバシー保護がなされているか • 差分プライバシー

16.

実装紹介

17.

学習データ • SPRINT Clinical Trail Data • 患者の収縮期血圧、拡張期血圧、薬の処方回数を12計測分(3ヶ月毎) (3 x 12) • • 患者の治療グループ • Intensive treatment group • Standard treatment group データ数: 6502 (train: 6000, test: 502)

18.

実装紹介 • ipynbファイルで紹介

19.

評価

20.

評価 (再掲) • • データの分布が似ている • データの代表値を比較 • データ内での相関係数を比較医者が生成データを不自然だと思わない • • 機械学習の学習データとして使用できる • • 医者による真偽判定テスト機械学習タスクの性能を比較十分なプライバシー保護がなされているか • 差分プライバシー

21.

(注) Multi-epoch Model (top10) • 1-500 epochの全てのGeneratorのモデルを保存しておく • それぞれのGeneratorの生成データでLogistic Regression とRandom Forestのスコア(treatment groupの分類)が良い、top5のepochをそれぞれについて算出 • この時ラプラスメソッドを用いて、(0.5,0)-dpとなる (top5の算出のために生データに触るためプライバシー保護を考慮)

22.

データの代表値 Paper 再現実験 Multi-epochが最も良い

23.

データ内での相関係数 Paper 再現実験ある程度傾向が同じである少々ノイズあり

24.

医者による真偽判定テスト Paper 再現実験医者に頼めず臨床医に本物に見えるかどうかを0-10点で評価

25.

機械学習タスクの性能 Paper 再現実験 Paper: ほぼ同等なスコア再現実験: Logistic Regression以外は同等のスコア

26.

機械学習モデルへの変数の貢献度 Paper 再現実験貢献度は生成方法や真偽によってあまり変わらない

27.

差分プライバシー Paper 再現実験 Multi-epoch Modelの算出の際と合わせて (2.5, 10 5 ) dp を達成

28.

まとめ

29.

まと • GAN (Generative Adversarial Network) を用いて個人が特定できない医療データを生成することに成功した。これにより医療データシェアが促進される。 • データ生成に伴うプライバシーリスクを差分プライバシーにより定量化した。 (2.5, 10 5 ) dp を達成。