>100 Views
June 19, 18
スライド概要
2018/06/11
Deep Learning JP:
http://deeplearning.jp/hacks/
DL輪読会資料
Privacy-preserving generative deep neural networks support clinical data sharing Brett K. Beaulieu-Jones, Zhiwei Steven Wu, Chris Williams, James Brian Byrd, Casey S. Greene 2018/6/10 DL Hacks研究タスク発表 古賀樹
目次 • 論文紹介 • 実装紹介 • 評価 • まとめ
論文紹介
書誌情報 • 著者 • Brett K. Beaulieu-Jones (UPenn, Medicine) • Zhiwei Steven Wu (UPenn, Engineering and Applied Sciences) • • Chris Williams (UPenn, Medicine) • James Brian Byrd (Michigan, Medicine) • Casey S. Greene (UPenn, Medicine) Preprint ( https://www.biorxiv.org/content/early/ 2018/06/05/159756 )
書誌情報 • Ian Goodfellow が Twitterで言及
要点 • GAN (Generative Adversarial Network) を用いて個人が 特定できない医療データを生成することに成功した。 これにより医療データシェアが促進される。 • データ生成に伴うプライバシーリスクを差分プライバシー により定量化した。
医療データ • 臨床データ (病院での検査結果等) • 欠損値の多い時系列データ • 画像データ • ゲノムデータ
医療データのシェア • 個人と紐づく医療データは一般公開されない • 従来の匿名化手法では不十分 (k匿名化など) • プライバシー / データの質 • データシェアのためには同意書、倫理審査が必要 • 医療データを題材にしたコンペも開催され始める (ex: SPRINT Data Analysis Challenge) GANを用いて個人情報を含まないデータを生成
GAN (AC-GAN) • Conditional Image Synthesis With Auxiliary Classifier GANs (ICML 2017) https://arxiv.org/abs/ 1610.09585 • 通常のGANにClassの情報 を付与する
GAN (AC-GAN) • Discriminator: max LS + LC • Generator: min LC LS
差分プライバシー (定義) * Neighboring dataset: あるデータセットと1要素のみ異なるデータセット ✏, δ が小さいほど、プライバシーは保護されている
差分プライバシー (気持ち) https://www.slideshare.net/kentarominami39/ss-64088396
GANと差分プライバシーとの橋渡し Deep Learning with Differential Privacy Martin Abdi et al. Differential Private SGD Algorithm • 勾配のL2ノルムでclip • clipの閾値の大きさに比例し た分散を持つ正規分布のノ イズを勾配に加える
GANと差分プライバシーとの橋渡し Deep Learning with Differential Privacy Martin Abdi et al. The Moments Accountant • 従来の手法(strong composition thorem)よりもタイトな上限を 得た • 実装には確率分布のモーメント( 5 32 )を用いた定理を利用
評価 • • データの分布が似ている • データの代表値を比較 • データ内での相関係数を比較 医者が生成データを不自然だと思わない • • 機械学習の学習データとして使用できる • • 医者による真偽判定テスト 機械学習タスクの性能を比較 十分なプライバシー保護がなされているか • 差分プライバシー
実装紹介
学習データ • SPRINT Clinical Trail Data • 患者の収縮期血圧、拡張期血圧、薬の処方回数 を12計測分(3ヶ月毎) (3 x 12) • • 患者の治療グループ • Intensive treatment group • Standard treatment group データ数: 6502 (train: 6000, test: 502)
実装紹介 • ipynbファイルで紹介
評価
評価 (再掲) • • データの分布が似ている • データの代表値を比較 • データ内での相関係数を比較 医者が生成データを不自然だと思わない • • 機械学習の学習データとして使用できる • • 医者による真偽判定テスト 機械学習タスクの性能を比較 十分なプライバシー保護がなされているか • 差分プライバシー
(注) Multi-epoch Model (top10) • 1-500 epochの全てのGeneratorのモデルを保存しておく • それぞれのGeneratorの生成データでLogistic Regression とRandom Forestのスコア(treatment groupの分類)が良 い、top5のepochをそれぞれについて算出 • この時ラプラスメソッドを用いて、(0.5,0)-dpとなる (top5の算出のために生データに触るためプライバシー保 護を考慮)
データの代表値 Paper 再現実験 Multi-epochが最も良い
データ内での相関係数 Paper 再現実験 ある程度傾向が同じである 少々ノイズあり
医者による真偽判定テスト Paper 再現実験 医者に頼めず 臨床医に本物に見えるかどうかを0-10点で評価
機械学習タスクの性能 Paper 再現実験 Paper: ほぼ同等なスコア 再現実験: Logistic Regression以外は同等のスコア
機械学習モデルへの変数の貢献度 Paper 再現実験 貢献度は生成方法や真偽によってあまり変わらない
差分プライバシー Paper 再現実験 Multi-epoch Modelの算出の際と合わせて (2.5, 10 5 ) dp を達成
まとめ
まと • GAN (Generative Adversarial Network) を用いて個人が 特定できない医療データを生成することに成功した。 これにより医療データシェアが促進される。 • データ生成に伴うプライバシーリスクを差分プライバシー により定量化した。 (2.5, 10 5 ) dp を達成。