何をよんできたか? • Active Clean; Interactive Data Cleaning for Statistical Modeling • 学習データの質を向上させることで、モデルの精度を上げるアプローチ • なんでよんできたのか? • 先日発表した、Con dent Learningと同じような問題意識 • 教師データの間違いに加えて、特徴量の間違いを念頭に入れている。 fi • ベンチマークのデータセット + 実務上のデータでの検証


Data Cleaningの問題 • (a)すべてが汚い(dirty)なデータの場合

Figure 1: (a) Systematic corruption in one variable can lead to a shifted model. The dirty examples are labeled 1-5 and the cleaned examples are labeled 1'-5'. (b) Mixed dirty and clean data results in a less accurate model than no cleaning. (c) Small samples of only clean data can result in similarly issues.

Data Cleaningの問題

• (b)一部のデータを正しいデータに修正した場合 -> Less Accurate!

Active Cleanのやりたいこと

• 汚そうなところをアドホックに直しても、正しいモデルが得られる保証なし

• データを逐次的に修正して、再学習することで、大域最適なモデルを得るフレームワークを提案。(convex-lossなモデルに限り、つまり、NNは含まれず)


フレームワークの概要 • Figure 2: ActiveClean allows users to train predictive models while progressively cleaning data but preserves convergence guarantees. Solid boxes are essential components for correct-


焦点を当てる2つの課題 • (i) Update Problem: 修正されたデータが与えられたあと、どのようにモデルを学習するか? • (ii) Prioritization Problem: できるだけ早く最適なモデルを得るために、どのデータを修正対象にするか? probability select a sam which each sampling di optimum ca • Figure 2: ActiveClean allows users to train predictive models while progressively cleaning data but preserves convergence 4. UPD This sect


Update Problem • (i) Update Problem: 修正されたデータが与えられたあと、どのようにモデル を学習するか? • 問題の大前提: • 学習の目的関数が凸関数である • SVM, 線形回帰, ロジスティック回帰


Update Problem

目的関数=凸関数のとき、幾何的に考察すると以下のupdate方法を得る。

すべての学習データがクリーンであるときの目的関数の勾配

Figure 3: (A) A model trained on dirty data can be thought of as a sub-optimal point w.r.t to the clean data. (B) The gradient gives us the direction to move the suboptimal model to approach the true optimum.


Update Problem

• g*(θ) は、すべての学習データがクリーンでないと手に入らない

• g*(θ) 手元にある一部クリーンなデータで を近似する必要性

The update algorithm can be formalized as a class of very well studied algorithms called Stochastic Gradient Descent (SGD; more precisely the mini-batch variant of SGD). In SGD, random subsets of data are selected at each iteration and the average gradient is computed for every batch. The basic condition for convergence is


Update Problem • 要するに何をやっているか?(t回目の修正時のスナップショット) 全データR irty data can be thought clean data. (B) The grathe suboptimal model to 汚れている可能性のあ The algorithm is as るデータRdirty follows: Rdirtyからサンプリング し、修正したバッチを data S from作成 R 1. Take a sample of dirty t時点目の学 2. Calculate the gradient over the sample of newly clean data 習モデルのパ (t) and call the result gS (✓ ) t ラメタθ 3. Calculate the average gradient over all of the already clean 綺麗なデータRclean (t) records in Rclean = R Rdirty , and call the result gC (✓ ) 4. Apply the following update rule, which is a weighted average of the gradient on the already clean records and newly cleaned records: | Rdirty | | Rclean | (t+1) (t) (t) (t) ✓ ✓ ·( ·gS (✓ )+ ·gC (✓ )) |R| |R|


Prioritization Problem • できるだけ早く最適なモデルを得るために、どのデータを修正対象にする か? => 3つの要素に分解する • Detector: 対象をみつける • Estimator: 対象にサンプル重みをつける • Sampler: 重みに応じサンプリングする


umFor verwell aset, 2 is were odel r of rob- nvex and to a deivedirty s, it d to ocal (e.g., an attribute must not be NULL), and select rows that violate those rules. On the other hand, repair is harder and often requires human involvement (e.g., imputing a value for the NULL attribute). Prioritization Problem : Detector 5.1 Detection Problem • Detectorの仕様 First, we describe the required properties of the dirty data de- tector. The detector returns two important aspects of a record: (1) record is dirty, and r (2) if it is dirty, on which attributes 入力 the : あるレコード •whether there are errors. The sampler can use (1) to select a subset of dirty records to sample at each batch and the estimator can use (2) to 出力:①そのレコードが汚いか綺麗か?②どこが汚いのか? •estimate the value of data cleaning based on other records with the same corruption. D EFINITION 1 (D ETECTOR ). Let r be a record in R. A detector is a function that returns a Boolean of whether the record is dirty and a set of attributes er that are dirty. D(r) = ({0, 1}, er ) From the set of attributes that are dirty, we can find the corresponding features that are dirty fr and labels that are dirty lr since we assume a one-to-one mapping between records and training examples. We will consider two types of detectors: exact rulebased detectors that detect integrity constraint or functional de-


Prioritization Problem : Detector • Detectorの実装 • ルールベース • e.g) ある企業のʼ業界ʼ属性が、業界のマスターに存在しないものになってい るぞ!(フリーテキストでアノテーションされたとして) • マルチクラスの分類機 • すでに修正されたレコードRcleanとその修正箇所Ucleanを学習データにして、 修正箇所を予測するようにモデルを学習する。 • Rdirtyにたいして、予測を行う。


Prioritization Problem : Estimator

• Estimatorが答える問題

• Rdirtyに対して、最適なサンプルリング確率をつけるにはどうすれば良いか?

Optimal Sampling Problem

最適なサンプリング確率

その確率でサンプリングしたときのバッチデータの目的関数の値が「きれいなデータ」の目的関数と最も近くなると期待できるとき。


Prioritization Problem : Estimator

• 最適なサンプリングの条件を満たす重みづけ

• クリーンなデータについての目的関数の勾配に比例して重みづける

• しかし, クリーンなデータがない!(これからクリーンにするから)

• 手元にある汚いデータについての目的関数の勾配に比例して重みづける


Prioritization Problem : Estimator • pi ∝ (d) (d) | | ∇ϕ(xi , yi , θ(t)) | | によってpiを決める方法 • Active Learningの分野では、Expected Gradient Length heuristic • 今回の問題設定では、t > 1時点目のイテレーションでは、すでに綺麗になっ たデータを使用することができる。 • e.g) (c) (c) (d) (d) 修正前の汚いデータ(xi , yi )と修正後の綺麗なデータ(xi , yi )の記録か ら、汚いデータを綺麗に変換するようにモデルを学習して、予測値の勾配に よって重みをつけるなどできる。


Cleanerは? • ルールベースもしくは人手によるアノテーションになる。


検証 • 1万件ぐらい修正すると、それぞれのデータセットで収束してる? Figure 4: (a) We plot the relative model error as a function of the number of records cleaned for each of the alternatives on the IMDB content tagging task. ActiveClean results in the fastest convergence. (b) Faster convergence translates into improved test accuracy. On a holdout set of 20%, ActiveClean is more accurate than the alternatives. (c) We evaluate ActiveClean on the Dollars For Docs fraud detection task and find similar results, where ActiveClean converges faster than the alternatives. (d) ActiveClean improves the false negative rate (detection error) of the classifier resulting in an improved fraud detector. MNIST Fuzzy MNIST Block Removal 5x5 20 12 including edge detection, projection, and raw image patch extraction [3,4]. The cleaning function C() involves replacing a poten-