>100 Views
October 10, 18
スライド概要
2018/10/01
Deep Learning JP:
http://deeplearning.jp/hacks/
DL輪読会資料
Deep Learning with Differential Privacy Martin Abadi et al 2018/10/1 理学部情報科学科3年 古賀 樹 1
目次 • • 論文の紹介 • 書誌情報 • 論文概要 • 背景 • 提案手法 実装紹介 • 現状の問題点
論文紹介
書誌情報 • • 著者 • Martin Abadi • Andy Chu • Ian Goodfellow • H. Brendan McMahan • Ilya Mironov • Kuala Talwar • Li Zhang https://arxiv.org/pdf/1607.00133.pdf
論文概要 • Differentially private SGD により、よりタイトな差分プ ライベートなモデルを実現 • tensorflowでの実装を公開 • MNIST, CIFAR10で実験
背景 / プライバシーについて • 出力プライバシーモデル • 収集した個人情報に関する解析結果を公開 • • • データセット D = (X1, …, Xn) 解析アルゴリズム(メカニズム)M(D) メカニズムのプライバシー侵害リスクを知りたい
背景 / プライバシーについて • 出力プライバシーモデルにおける攻撃モデル • 攻撃者が M(D) から D の中の個人情報 Xiを知ること ができる <- プライバシー侵害リスク • 攻撃者について • 無限の計算能力と任意の事前知識(Xi 以外の個人情報 も含む)を持つ
背景 / 差分プライバシーについて • 個人情報 Xi の如何なる部分情報が漏れないことが理想 • adjacent input: 1つの個人情報のみ異なるデータセット • M(D) と M(D′)の分布がどの程度同じかが ϵ と δ が示して いる(どちらも小さいほど強いプライバシーであること を示す)
背景 / 差分プライバシーの実現方法 • 解析のクエリにノイズを与える (メカニズム) • • ex: Laplaceメカニズム、Gaussianメカニズム (どの程度のノイズを与えるかはセンシティビティを用 いて決める) • 気持ち的には隣接データセット組 (D, D′) でクエリの 出力が最大でどの程度変わるか
背景 / 機械学習における差分プライバシー • 公開情報はモデルとする • モデルがDPを満たすならば、何回予測してもDP • • post-processing theorem 具体的にはパラメータ(ex: ロジスティック回帰におけ る W など) • そのためパラメータの、勾配による更新の際にメカ ニズムを適用
提案手法 / Differentially private SGD • 1 sample毎に勾配 を計算 • 勾配をclip (センシティビティ を抑える) • ノイズを加える
提案手法 / Moment Accountant • 今回は省略
実装紹介
実装紹介 • [本家Tensorflow実装] https://github.com/tensorflow/models/tree/master/ research/differential_privacy • [PyTorch実装 by me (*WIP)] https://github.com/tacchan7412/dldp_pytorch/blob/ master/sandbox.py
現状の問題点 • per_example_gradient が PyTorch で実装できていない • batch_size = 1 にしなくてはならない • 学習精度、速度、プライバシーのboundにおいて問 題あり • per_example_gradientが計算できる演算の数に限りが ある • ex: Conv • オープンデータで学習済のモデルを使うなど