>100 Views
August 19, 16
スライド概要
物流スタートアップで働く機械学習エンジニア。 データ基盤や機械学習プロダクトの企画、設計、開発、運用を担当しています。
Amazon Machine Leaning の紹介 LT Thursday(サイバーエージェントA.J.A. 社内勉強会) 2016/8/19 阿部晃典
Amazon ML とは? ● AWS 上で使える機械学習サービス ○ ● スケーラビリティ・簡単さが売り ○ ○ ○ ● ● ● Amazon 社内でも使っているらしい データさえ用意すればボタンをポチポチするだけで、モデル生成・評価・予測 API の準備を自動で やってくれる 大規模なデータも扱えるらしい 柔軟性はあまりない 構造化データに対する統計的教師あり学習のみをサポート Region: 米国東部(バージニア北部)、EU(アイルランド)のみ チュートリアルあるよ ○ ○ ポルトガルの銀行によるダイレクトマーケティングで、定期預金口座を開設してくれた or してくれな かった顧客の情報 元データ:https://archive.ics.uci.edu/ml/datasets/Bank+Marketing
Concepts ● ● ● ● Data source ○ 学習データの在処 ○ 統計情報の表示 ML model ○ 機械学習モデルの選択 ○ 前処理・正則化 Evaluation ○ 学習済みモデルの評価 Prediction ○ 学習済みモデルによる予測
Data source ● ● ● 学習データの在処:Redshift もしくは S3 上の CSV 特徴抽出済みのデータのみ扱える(画像・音声等は直接は扱えない) できること ○ 学習に使うカラム(特徴量=入力)の指定 ○ 予測対象のカラム(出力)の指定 ○ 統計情報の表示(分布・統計量など)
Data source (統計情報の表示)
Data source (統計情報の表示)
ML model ● ● ● ● 機械学習モデルの自動判定(教師あり学習のみ) ○ 2 クラス分類:ロジスティック回帰 ○ 多クラス分類:ロジスティック回帰 ○ 時系列予測:線形回帰 Recipe:簡単な前処理 ○ N-gram、大文字小文字変換、デカルト積、離散化など 正則化:L1 or L2 料金:0.42 USD/時
ML model (前処理)
ML model (正則化)
Evaluation ● ● 学習したモデルの評価(予測精度の計算) ○ Cross-validation もできる 評価指標 ○ クラス分類:precision、accuracy、recall、F 値など ○ 時系列予測:RMSE (root mean square error)
Evaluation (評価結果)
Prediction ● ● ● 学習済みモデルによる予測 バッチ予測:大量のデータを入力して、一度に予測 ○ 0.0001 USD/predictions リアルタイム予測:データを一つずつ入力して、その都度予測 ○ 0.0001 USD/predictions + 0.001 USD/(10 MB * 1 hour)
まとめ ● ● Amazon ML の特徴 ○ クラス分類(ロジスティック回帰)、時系列予測(線形回帰) ○ 簡単にモデル構築・評価・予測 API の準備ができる ■ UI は使いやすいと思う ○ 統計情報を見やすく表示 気をつけたほうが良さそうなこと ○ 特徴抽出・前処理はガッツリやるべき ○ 簡単な反面、できることが少ない ○ 非線形モデル・教師なし学習は使えない ○ 学習済みモデルもない