SAIS/DWS2018報告会 #saisdws2018

>100 Views

August 06, 18

#Spark+AI Summit #SIGMOD/PODS #Apache Spark #機械学習 #分散深層学習 #Horovod #AIセキュリティ #MLライフサイクル #自動チューニング

スライド概要

SAIS/DWS2018報告会の李が担当する部分の資料となります。
https://connpass.com/event/94361/

Yahoo!デベロッパーネットワーク

@ydnjp

スライド一覧

2023年10月からSpeaker Deckに移行しました。最新情報はこちらをご覧ください。 https://speakerdeck.com/lycorptech_jp

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

深層学習による自然言語処理入門: word2vecからBERT, GPT-3まで

Yahoo!デベロッパーネットワーク 195.4K

ゼロから始める転移学習

Yahoo!デベロッパーネットワーク 92.5K

ヤフーにおける WebAuthn と Passkey の UX の紹介と考察 #idcon #fidcon

idcon fidcon

Yahoo!デベロッパーネットワーク 83.5K

OpenID Connectとネイティブアプリを取り巻く仕様と動向 Yahoo! JAPANの取り組み #openid #openid_tokyo

openid openid_tokyo

Yahoo!デベロッパーネットワーク 65.8K

運用業務とスクラムは本当に組み合わせにくいのか︖運用業務が大半を占めるプロダクト開発での試行錯誤

devsumi

Yahoo!デベロッパーネットワーク 44K

ZAP - ZCPをベースとしたマルチK8sのアプリケーション実行基盤 #YJTC / YJTC21 B-3

yjtc

Yahoo!デベロッパーネットワーク 34.3K

各ページのテキスト

SAIS/SIGMOD参加報告 SAIS/DWS2018報告会@Yahoo! JAPAN 2018/07/20 Shingo Furuyama

1. 2. 3. 4. 5. 自己紹介出張の模様 Spark+AI Summitから SIGMOD/PODSから所感など

自己紹介 2007 Simplex Technology で金融まわりのいろいろ 2011 ノーチラステクノロジーズで業務バッチ on Hadoop -- ここからYahoo! JAPAN 2014 金融まわりのエンジニア&BD/DDなどいろいろ 2016 データプラットフォーム周りの部長などいろいろ 2018 データプラットフォーム周りのリサーチなどいろいろ http://jp.linkedin.com/in/shingofuruyama

http://jp.linkedin.com/in/shingofuruyama

1. 2. 3. 4. 5. 自己紹介出張の模様 Spark+AI Summitから SIGMOD/PODSから所感など

出張の模様 - SAIS

出張の模様 - SIDMOD/PODS

1. 2. 3. 4. 5. 自己紹介出張の模様 Spark+AI Summitから SIGMOD/PODSから所感など

Spark+AI Summitから 1. 2. Understanding Parallelization of Machine Learning Algorithms in Apache Spark Horovod: Uber’s Open Source Distributed Deep Learning Framework for TensorFlow 3. Project Hydrogen: Unifying State-of-the-art AI and Big Data in Apache Spark 4. The Future of AI and Security 5. Infrastructure for the Complete ML Lifecycle 6. TuneIn: How to Get Your Hadoop/Spark Jobs Tuned While You’re Sleeping 7. Extending Spark SQL API with Easier to Use Array Types Operations 8. Continuous Processing in Structured Streaming 9. A Deep Dive into Stateful Stream Processing in Structured Streaming 10. Flare and TensorFlare: Native Compilation for Spark and TensorFlow Pipelines 11. Model Parallelism in Spark ML Cross-Validation 12. Deploying and Monitoring Heterogeneous Machine Learning Applications with Clipper

Understanding Parallelization of Machine Learning Algorithms in Apache Spark(1/2) https://databricks.com/session/bay-area-apache-spark-meetup

https://databricks.com/session/bay-area-apache-spark-meetup

10.

Understanding Parallelization of Machine Learning Algorithms in Apache Spark(2/2) 戦略1 データ並列で頑張って並列化できないところはあきらめる戦略2 全部データ並列で頑張る戦略3 タスク並列で頑張る • • 並列化できないアルゴリズムを使うときもこれ DataFrameをPandasにするのは簡単なので、前処理Sparkで抽出したデータを1ノードにもってって好きなアルゴリズムで戦う • Horovod/XGBoost/H2Oあたりをつかってる場合はパイプライン全体を並列化できる • キャッシュをうまく使うほうが効率がいいことが多い • 2.3でCV並列が簡単になったのでそれをつかうとか（のちのセッションで紹介）

11.

Horovod: Uber’s Open Source Distributed Deep Learning Framework for TensorFlow(1/4) https://databricks.com/session/bay-area-apache-spark-meetup

https://databricks.com/session/bay-area-apache-spark-meetup

12.

Horovod: Uber’s Open Source Distributed Deep Learning Framework for TensorFlow(2/4) • • • • mxnetとかKerasにならぶくらいにはメジャーになってるっぽいトレーニングでも軽く触れられてて「それ全員知ってる」みたいな位置づけ「Uberの分散学習はHorovodだけでやっていて、一日かかかってた学習が一時間になるくらいのインパクトがある」とのこと https://www.slideshare.net /databri cks/horovod-ubers-open-sourcedistributed-deep-learningframework-for-tensorflow

https://www.slideshare.net/databri

13.

Horovod: Uber’s Open Source Distributed Deep Learning Framework for TensorFlow(3/4) • • TensorFlow/Kerasなどを使ったシングルノードでの学習を行うコードを、プログラムを書き換えずに（Parameter Serverを使わずに）分散学習をできるように変換してくれる MPIのアナロジーが使われている（パラメーター交換でMPIを使うこともできるが、なくても動く）

14.

Horovod: Uber’s Open Source Distributed Deep Learning Framework for TensorFlow(4/4) • • • • Gradient checkpointingで大きなモデルが扱えるようになった – https://github.com/openai/gradient-checkpointing Parameter Serverを使う並列化の問題 – 同期の問題を部分的に解決、ただ若干コードが複雑になる – さらにRDMA/IBとかハードウェアに頼らないといけなくなることもそこでHorovod – 帯域をつかうのでRDMA/IBは使う前提ではある（なくても動く） – 各ノードが持っている勾配を順繰りに加算して勾配を計算して、終わったら計算した勾配を互いに交換して同期をとる – MPI AllReduce最強伝説 http://www.cs.fsu.edu/~xyuan/paper/09jpdc.pdf – On Sparkでも動く実用的な工夫 – 局所最適にならないように初期値をいい感じにばらす – 最初にソートしておく – Learninig Rate Adjustment https://arxiv.org/abs/1706.02677 ほか2本

15.

Project Hydrogen: Unifying State-of-the-art AI and Big Data in Apache Spark(1/2) https://databricks.com/session/databricks-keynote-2

https://databricks.com/session/databricks-keynote-2

16.

Project Hydrogen: Unifying State-of-the-art AI and Big Data in Apache Spark(2/2) • PrepとAIのワークロードを同じ環境で扱えるようにしたい – これまでのSparkとかで普通にやると筋が悪い – AIのワークロードは自明に並列化できない – タスク並列というかタスク間で勾配を交換したりするのでリカバリが複雑 • それ用のスケジューラーがHydrogen – タスク並列をいい感じに扱うGang Schedulerというのをつくった – タスク並列のあとのデータフレームにバリアをいれて境界を表現するとそのままいい感じにやってくれるようにしている – https://issues.apache.org/jira/browse/SPARK-24374

https://issues.apache.org/jira/browse/SPARK-24374

17.

The Future of AI and Security(1/3) https://databricks.com/session/keynote-from-dawn-song

https://databricks.com/session/keynote-from-dawn-song

18.

The Future of AI and Security(2/3) • 自動運転に対する Adversarial Attackみたいなのもセキュリティ的な問題になる • ←は、ちょっとしたノイズを入れると人間の認知とモデルの出力が乖離する結果を生み出すことができることを応用した攻撃の例

19.

The Future of AI and Security(3/3) • コードの検証・秘密計算・差分プライバシーでプラットフォームをつくればよい • Uberが差分プライバシーを検証してたりする – https://github.com/uber /sql-differential-privacy – NNに適用した例も？ • 他にもいくつかのプロジェクトが紹介されているので、ここから色々辿るのも良さそう

https://github.com/uber

20.

Infrastructure for the Complete ML Lifecycle(1/5) https://databricks.com/session/unifying-data-and-ai-for-better-data-products

https://databricks.com/session/unifying-data-and-ai-for-better-data-products

21.

Infrastructure for the Complete ML Lifecycle(2/5) • • これまでのソフトウェア開発とML/モデル開発の違い – Prep/Training/Deploy/Raw Dataのサイクルからなる – データがいろんな場所がある、いろんなツールを組み合わせる必要がある – おおむねすべてのプロセスでスケーラビリティが問題になる課題感の例 – モデルになった元のデータをあとから確認する方法がない – 別のチームがやった結果を追試する方法がない

22.

Infrastructure for the Complete ML Lifecycle(3/5) • • • 各社そういう問題意識でそれぞれ MLaaSとかPlatformをつくっているだいたいはPrep /Training /Deploy の標準化をやっているが、アルゴリズムやフレームワークに制約があるし、その会社でしかつかえない

23.

Infrastructure for the Complete ML Lifecycle(4/5) • • • そこでMLFlow – ML PlatformをOSSにしたやつ – プロセスを支援する力の向きのニュアンスはJenkinsっぽい「一人からでも使えてエンタープライズのユースケースにも適合させられる」のがいいところ – これもJenkinsっぽさ Tracking /Project/Modelの3つのコンポーネントで構成されている

24.

Infrastructure for the Complete ML Lifecycle(5/5) • Tracking – どのソースがどういうパラメーターで結果をだしたのか記録できる – Plotの画像とかModelとかも残せる • Project – 実行環境を抽象化してくれる（ローカルでもクラウドでも動かせるようになる設定ファイルコンパイラ的なもの）ので、追試が簡単になる – “mlflow run gitのURL”で実行することができる – 実装とチューニングの役割を分離できるという効果もありそうだが、実用的か？ • Model – いろんなフォーマットにモデルを出力できる DockerとかSpark（Batch/Streaming）とか – 配信環境へのモデルファイルのデプロイを支援してくれるもの（モデルに対するAPIをそろえてくれる）

25.

TuneIn: How to Get Your Hadoop/Spark Jobs Tuned While You’re Sleeping(1/2) https://databricks.com/session/tunein-how-to-get-your-hadoop-spark-jobs-tuned-while-you-are-sleeping

https://databricks.com/session/tunein-how-to-get-your-hadoop-spark-jobs-tuned-while-you-are-sleeping

26.

TuneIn: How to Get Your Hadoop/Spark Jobs Tuned While You’re Sleeping(2/2) • Dr.Elephant上に自動チューニングの機能をつくった – https://github.com/linkedin/dr-elephant/wiki/Auto-Tuning – https://github.com/linkedin/dr-elephant/pull/338/ • これまでのDr.Elephantだとアドバイスをみてどうするか考えないといけないので、 – パフォーマンスチューニングできる/やってくれる高機能な人間がいないとどうしようもない – 動かしたジョブのデータをつかって主にメモリ周りのチューニングをして20%くらいリソース使用量（メモリ）をさげれている • 自動チューニングのアルゴリズムはPSO – Particle Swarm Optimizationをつかっている – 試行回数を増やせる問題設定ではないのでそこそこ安定するし収束も早いのが採用理由

27.

Extending Spark SQL API with Easier to Use Array Types Operations(1/2) https://databricks.com/session/extending-spark-sql-api-with-easier-to-use-array-types-operations

https://databricks.com/session/extending-spark-sql-api-with-easier-to-use-array-types-operations

28.

Extending Spark SQL API with Easier to Use Array Types Operations(2/2) • • • • ArrayをあつかうUDFをたくさん作ったという話、SPARK-23736 など（2.4.xで入るとのこと）データレイクはいってきてしまうJSON の入れ子が複雑だとステージが爆発して死ぬのを防ぎたいというモチベーション MDS( https://github.com/yahoojap an/multiple-dimension-spread )は読まない方法を考えてるのに対して、読んだ後の効率化を考えてるので相互補完的でもなさそう日本人コミッタ（ueshin/kiszk/maropu）がレビューしたようでありがとうって言われてた

29.

Continuous Processing in Structured Streaming(1/3) https://databricks.com/session/continuous-processing-in-structured-streaming

https://databricks.com/session/continuous-processing-in-structured-streaming

30.

Continuous Processing in Structured Streaming(2/3) • イントロダクション的な感じ – https://databricks.com/blog/2018/03/20/lowlatency-continuous-processing-mode-instructured-streaming-in-apache-spark-2-3-0.html とだいたい同じ • DStreamとStructured Streamingの違いを説明するというようなニュアンスが強かった • 大部屋だけど結構盛況していた

https://databricks.com/blog/2018/03/20/low-latency-continuous-processing-mode-in-structured-streaming-in-apache-spark-2-3-0.html

31.

Continuous Processing in Structured Streaming(3/3) • Microbatch – DStreamの設計 – 小さいバッチでまとめて処理 – Event Time vs Arrival Time の差が大きくなることがある • Continuous – Structured Streamingの設計 – 逐次で処理 – CheckpointingはChandyLamport

32.

A Deep Dive into Stateful Stream Processing in Structured Streaming https://databricks.com/session/a-deep-dive-into-stateful-stream-processing-in-structured-streaming

https://databricks.com/session/a-deep-dive-into-stateful-stream-processing-in-structured-streaming

33.

A Deep Dive into Stateful Stream Processing in Structured Streaming • モダンなストリーム処理エンジン（1.0以降のStormを含む）とそんなに変わらない感じ • その辺との違いでいうと、基本的にSQLで表現できるアプリケーションを作らせる感じ – 表現力的にSQLだとダメなやつはmapGroupWithState https://databricks.com/blog/2017/10/17/arbitrary -stateful-processing-in-apache-sparks-structuredstreaming.html で戦う – イメージ的にはPigとかAsakusa Frameworkの CoGroup

https://databricks.com/blog/2017/10/17/arbitrary-stateful-processing-in-apache-sparks-structured-streaming.html

34.

Flare and TensorFlare: Native Compilation for Spark and TensorFlow Pipelines(1/2) https://databricks.com/session/flare-and-tensorflare-native-compilation-for-spark-and-tensorflow-pipelines

https://databricks.com/session/flare-and-tensorflare-native-compilation-for-spark-and-tensorflow-pipelines

35.

Flare and TensorFlare: Native Compilation for Spark and TensorFlow Pipelines(2/2) • SparkでDataFrameをつくるところ実行時コード生成が遅いのを解消するよう再実装したもの – ベンチで使ってるハードウェアは1TBメモリ /64threadsとかでモダンな感じ – NUMA-awareでもあるのでナウい • TFよりもDataFrameを置き換えて普通にSparkSQLがはやくなるのがよさげにみえた – いまのところResearch ProductでSingle Nodeでしかうごかないので、データ量が十分小さいなら、ではある – 雑にいうとHiveに対するImpalaみたいな感動があった

36.

Model Parallelism in Spark ML Cross-Validation(1/2) https://databricks.com/session/model-parallelism-in-spark-ml-cross-validation

https://databricks.com/session/model-parallelism-in-spark-ml-cross-validation

37.

Model Parallelism in Spark ML Cross-Validation(1/2) • 2.3でCV並列を書きやすくしたやつ – https://developer.ibm.com/code/2018/04/11/mod el-parallelism-for-ml-tuning-with-apache-spark/ • 計算機資源が十分に余ってるならうれしい系（なくても細く長く動かすんだろうけど） – パラメーターの探索順序を木構造にして枝刈りするやつを実装中

https://developer.ibm.com/code/2018/04/11/mod

38.

Deploying and Monitoring Heterogeneous Machine Learning Applications with Clipper https://databricks.com/session/deploying-and-monitoring-heterogeneous-machine-learning-applications-with-clipper

https://databricks.com/session/deploying-and-monitoring-heterogeneous-machine-learning-applications-with-clipper

39.

Deploying and Monitoring Heterogeneous Machine Learning Applications with Clipper • • DBにモデルを入れておくアプローチには良し悪しがある – オンラインアプリケーションにとっては普通の構成でレイテンシも低くできる – モデル全体をDBとかに入れ込んでおくのでいちいちつくらないといけないし、モデルの更新も大変モデル（ファイル）をコンテナに入れるアプローチにも良し悪しがある – 割と簡単にできる – モデル（ファイル）を理解している人がコードを書かないといけないとかがつらみ

40.

Deploying and Monitoring Heterogeneous Machine Learning Applications with Clipper • • • Clipperはいいとこ取りで、モデルファイルの差異を吸収する中間層として機能するのでモデルファイルのフォーマット一般に使えるようにした（アプローチはコンテナを使うほうに近い） Prediction実行時の効率は Caching/Batchingでカバーしていて、スループット・レイテンシ共にTFのモデルをTF Servingでやるのとそんなに変わらない結果も出ている複数のモデルが扱えるおまけとして、バンディットでモデル選択ができたりもする下図は https://www.slideshare.net/databricks/clipper-a-lowlatency-online-prediction-serving-system

https://www.slideshare.net/databricks/clipper-a-lowlatency-online-prediction-serving-system

41.

1. 2. 3. 4. 5. 自己紹介出張の模様 Spark+AI Summitから SIGMOD/PODSから所感など

42.

SIGMOD/PODSから 1. 2. 3. 4. SIGMOD/PODSと併催ワークショップで出席したもの How Persistent Memory Changes the Server Environment Kubernetes and the New Cloud P-Store: An Elastic Database System with Predictive Provisioning 5. TcpRT: Instrument and Diagnostic Analysis System for Service Quality of Cloud Databases at Massive Scale in Real-time 6. Query-based Workload Forecasting for Self-Driving Database Management Systems 7. そのほか興味深かったトピック

43.

SIGMOD/PODSと併催ワークショップで出席したもの HILDA （併催ワークショップ） DaMoN （併催ワークショップ） SIGMOD/PODS DEEM （併催ワークショップ） • Workshop on Human-In-the-Loop Data Analytics • http://hilda.io/2018/ • Data Management on New Hardware • https://sites.google.com/view/damon20 18 • is a leading international forum for database researchers, practitioners, developers, and users to explore cutting-edge ideas and results, and to exchange techniques, tools, and experiences. • Data Management for End-to-End ML • http://deem-workshop.org

44.

How Persistent Memory Changes the Server Environment(1/5) https://drive.google.com/file/d/1A-E23uJK_tP-jcnS1iJ-1BojzuF9VQGs/view

https://drive.google.com/file/d/1A-E23uJK_tP-jcnS1iJ-1BojzuF9VQGs/view

45.

How Persistent Memory Changes the Server Environment(2/5) • • • • NAND SSDで4KB/readに 90microsecくらいかかる Driverとかの問題でもない、ハードウェアのメディアとしての性質 Optaneは4KB/readで 15microsecくらい、DIMMなら数 mirocosecとかなので、だいたい間くらいのレイテンシで電源切ってもデータが消えない性質が手に入る

46.

How Persistent Memory Changes the Server Environment(3/5) • • • • 起動後にDRAMにコピーしなくてもいい DMA/RDMAをやったときに即時に永続化できる “Warm Cache”になるのでロードしなくてもよい DBの再起動が 2100s->17.5s でできるくらいのインパクト

47.

How Persistent Memory Changes the Server Environment(4/5) • • • • ソフトウェアからの使いかたは、ネイティブなライブラリから行くかファイルシステムのエミュレーションをするレイヤから使う感じ前者は http://pmem.io/pmdk/ とか https://github.com/memkind/memkind からを使う – ロックとかトランザクションとかもこのへんのライブラリでサポートしている – 電源が切れた場合とスレッドの原子性を両方気にして書く必要があって独特の雰囲気がある模様 – libpmemojbをつかうとRDMAでpersistentなレプリケーションがつくれる後者は特に工夫はいらないが、低レイテンシのSSD として使える感じになるだけでうまみはなさげまた、Volatileなメモリとして使えるが、メモリ空間は大きくなる可能性がある（理論上の？最大6TB くらいまではいけるはずらしい）けどレイテンシで負けるようなのでユースケースあるかは？

48.

How Persistent Memory Changes the Server Environment(5/5) • Cassandraで使えるようにした例 – Cassandraの中身より下をpmemawareにする実装で、上位のAPI は変更なしでいける

49.

P-Store: An Elastic Database System with Predictive Provisioning • 概要感想 • • E-Store(Elastic-Store)というのを過去に作っていて、ワークロードにあわせてノード数を最適化できるShared-NothingなDB的なものをつくっていたが、ワークロードが増えるタイミングでレイテンシがスパイクする問題があったワークロードを予測してノードをいい感じに増減させるのがP-Store 予測につかってるアルゴリズムは論文を読めというありがたいお言葉を頂戴した • P-Storeでも使うノード数がワークロードに合わせてスパイクしてて、うーんって感じもする（ダマシに弱いアルゴを見たような気分） • 評価モデルが汎用性高く設計されているようにみえて、統計学の援用に可能性を感じるところ

50.

TcpRT: Instrument and Diagnostic Analysis System for Service Quality of Cloud Databases at Massive Scale in Real-time https://dl.acm.org/citation.cfm?id=3190659

https://dl.acm.org/citation.cfm?id=3190659

51.

TcpRT: Instrument and Diagnostic Analysis System for Service Quality of Cloud Databases at Massive Scale in Real-time 概要 • Alibaba CloudのデータベースサービスでDBの障害を検出するシステムを作った話 • 外れ値の扱いがロバストになるので障害の検知にCauchy Distributionをつかっている • 感想 • コーシー分布とかはナイーブにつかってもシステム分析だと役に立ちそうで、データ集めるのがつらかったとかエンジニアリングの話も多分にありこの辺の領域では参考になりそう余談ですがRDBMS関連のサービスはアリババクラウドだと "RDS"とゆってるらしい…

52.

Query-based Workload Forecasting for Self-Driving Database Management Systems https://dl.acm.org/citation.cfm?id=3196908

https://dl.acm.org/citation.cfm?id=3196908

53.

Query-based Workload Forecasting for Self-Driving Database Management Systems • 概要 • • 感想到着するクエリを予測することによって、ワークロードの予測をクエリからやるはなし実行されるクエリからPrepared Statementになってるような感じのやつを生成することによってテンプレート化テンプレート化したクエリをクラスタリングして、クラスタごと予測を分ける • 上記の前処理の工夫とか、本論で述べられている時間軸と時間の密度で予測精度を比べる検討など実用的にも参考になる印象

54.

そのほか興味深かったトピック HILDA 1. Evaluating Visual Data Analysis Systems: A Discussion Report （併催ワークショップ） 2. Interactive Visual Analytics for Simpson’s Paradox Detection DaMoN 3. 4. Active Heterogeneous Hardware and its Impact on System Design Make the Most out of Your SIMD Investments: Counter Control Flow Divergence in Compiled Query Pipelines 5. (Keynote) How Can Reasoners Simplify Database Querying (And Why Haven't They Done It Yet)? 6. 7. 8. 9. 10. (Keynote) Machine Learning for Data Management: Problems and Solutions (Keynote) Query Processing and Optimization in Modern Database Systems (Award) The Hive and PIG database System (Award) Serializable Isolation for Snapshot Databases Computation Reuse in Analytics Job Service at Microsoft 11. 12. 13. 14. RUSHMON: Real-time Isolation Anomalies Monitoring Query Processing and Optimizationin Modern Database Systems Bias in OLAP Queries: Detection, Explanation, and Removal (Tutorial) Algorithmic Aspects of Parallel Query Processing 15. Data Science ≠ Machine Learning: Some Thoughts on the Role of Data Management in the new AI-Tsunami 16. Accelerating Human-in-the-loop Machine Learning: Challenges and Opportunities （併催ワークショップ） SIGMOD/PODS DEEM （併催ワークショップ）

55.

1. 2. 3. 4. 5. 自己紹介出張の模様 Spark+AI Summitから SIGMOD/PODSから所感など

56.

所感など(1/2) • SAIS • • • SIGMOD • • D社は共同研究やインターンをやっていたり、ドメインエキスパートとデータの人を結びつけたり、 Hyperscale vs HPCギャップを埋めようとしたり、さすがは”Unified Analytics”って感じ Horovodとかも西海岸コミュニティの強さがありそうで、DNNでさんざん言われてるけど進化のスピードがとてつもなくはやいと再認識 pysparkの辛みとかSparkはJSON PerserとかSparkのJava9対応が凶悪とかいろんなこぼれ話があった計算論理周りの話題が難しかった（単なる不勉強ではあるが・・・）カンファレンスの指向性にあわないトピックがrejectされる問題（データベースへの計算論理への援用、SysMLっぽいやつなど）はたいへんそうだなあというかんじ逆に、ハードウェアについてトレンドフォローなトピックはマーケットは広そう

57.

所感など(2/2) • Software 2.0的な考え方いろんなものの背景になってきそう – ソースコードからアーティファクトをつくるのがこれまでのソフトウェア – データからモデルをつくるのがMLのソフトウェア • Software 2.0のアナロジーが通りそうな考え方の例 – ソースコードを不正に操作することによるクラッキングに対して、データを操作することによるAdversarial Attack – DevOps（のプロセスの一部）でよく使われるJenkinsに対して、MLOps （のプロセスの一部）を支援するMLFlow • 今の状況をモダンなソフトウェア開発のような洗練されたアプローチについていま検討しているとみることもできそう

58.

EOP