ヤフーのAIプラットフォーム紹介 ~AIテックカンパニーを支えるデータ基盤~ #yjtc

2.7K Views

February 02, 22

スライド概要

ヤフーはAIテックカンパニーを目指し、その実現に向かって進んでいます。そのためには、AI開発のためのデータ基盤が必要です。本セッションでは、AI開発に必要なデータ基盤の全体概要と、開発を効率化するAIプラットフォームを紹介をします。

Yahoo! JAPAN Tech Conference 2022は2022年2月3日、4日に開催しました。
https://techconference.yahoo.co.jp/2022/

アーカイブ動画はこちらからご覧ください。
https://youtu.be/XZKOHIfEnsU

profile-image

2023年10月からSpeaker Deckに移行しました。最新情報はこちらをご覧ください。 https://speakerdeck.com/lycorptech_jp

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

(ダウンロード不可)

関連スライド

各ページのテキスト
1.

ヤフーのAIプラットフォーム紹介 ~AIテックカンパニーを⽀えるデータ基盤~ ヤフー株式会社 データ統括本部データプラットフォーム本部 安藤 俊介 ©2022 Yahoo Japan Corporation All rights reserved.

2.

安藤 俊介 データ統括本部データプラットフォーム本部 AIプラットフォーム担当チームのマネージャー 趣味はサッカー観戦、ランニング、お酒 ©2022 Yahoo Japan Corporation All rights reserved. ©2022 Yahoo Japan Corporation All rights reserved.

3.

このセッションについて AI開発に必要なデータ基盤の全体概要を説明し、 AI開発を効率化するAIプラットフォームを紹介をします。 ©2022 Yahoo Japan Corporation All rights reserved.

4.

アジェンダ 1. データ基盤 2. AIプラットフォーム 3. 今後の展望 ©2022 Yahoo Japan Corporation All rights reserved.

5.

アジェンダ 1. データ基盤 2. AIプラットフォーム 3. 今後の展望 ©2022 Yahoo Japan Corporation All rights reserved.

6.

データ基盤 データ基盤の概要 ©2022 Yahoo Japan Corporation All rights reserved.

7.

データ基盤 ユーザーのサービス利⽤時 ©2022 Yahoo Japan Corporation All rights reserved.

8.

データ基盤 データ収集 ©2022 Yahoo Japan Corporation All rights reserved.

9.

データ基盤 データ蓄積 ©2022 Yahoo Japan Corporation All rights reserved.

10.

データ基盤 データ処理 ©2022 Yahoo Japan Corporation All rights reserved.

11.

データ基盤の概要 OSSと内製の組み合わせ ©2022 Yahoo Japan Corporation All rights reserved.

12.

アジェンダ 1. データ基盤 2. AIプラットフォーム 3. 今後の展望 ©2022 Yahoo Japan Corporation All rights reserved.

13.

AIプラットフォーム AIプラットフォーム領域 ©2022 Yahoo Japan Corporation All rights reserved.

14.

AIプラットフォーム AIプラットフォーム開発前の課題 サービス開発エンジニアやデータサイエンティストが各⾃でAI開発環境を⽤意。 課題 • サーバリソース管理、環境構築、サーバメンテナンス、データを計算環境に 転送等のデータ準備に時間と⼿間がかかっていた • 本来注力するべき機械学習モデル・予測モデルの精度向上業務やサービ ス改善業務に注力出来ない ©2022 Yahoo Japan Corporation All rights reserved.

15.

AIプラットフォーム AIプラットフォーム概要 複数のプロダクトから構成されおり、AIを開発するためのプラットフォーム。 サイエンティストの⽣産性向上のためにAIプラットフォームを開発。 ©2022 Yahoo Japan Corporation All rights reserved.

16.

AIプラットフォーム Google定義のMLOpsの構成を参考 画像はGoogleが定義した MLOpsレベル1 出典︓https://cloud.google.com/architecture/mlops-continuous-delivery-and-automation-pipelines-in-machine-learning?hl=ja ©2022 Yahoo Japan Corporation All rights reserved.

17.

AIプラットフォーム ACP (AI Cloud Platform) AIプラットフォームの基盤。マルチテナントKubernetes環境。 サービス/ユーザーごとに専⽤のKubernetes Namespaceを作成。 CPUノード数︓130 Nodes+ GPUノード数︓90 Nodes+ アクティブNamespace数︓100 Namespace+ ©2022 Yahoo Japan Corporation All rights reserved.

18.

AIプラットフォーム ACPの特徴 (1/2) • データが使いやすい • HDFSに置かれているデータを効率的に処理できる • データ処理フレームワークのサポートが多い • データ処理に必要なワークフローツール • Hive, Trino(Presto) 等を実⾏してのETL処理 • 機械学習向けの統合開発環境であるJupyterHub ©2022 Yahoo Japan Corporation All rights reserved.

19.

AIプラットフォーム ACPの特徴 (2/2) • 必要なリソースを柔軟にプロビジョニングできる • 必要であれば⼀時的に⼤量の計算資源を確保してデータを処理 • 多くのパラメータで機械学習モデルを学習 • PersistentVolumeをサポート • セキュアな環境 • 外部への通信を遮断、必要最⼩限のポートしか開放しない • Falcoを使い不正なコマンド発⾏や通信を検知してAuditを残す • 経路を追えるように通信のAuditを残す ©2022 Yahoo Japan Corporation All rights reserved.

20.

AIプラットフォーム Model training - LakeTahoe / acloud LakeTahoeはACP上で動作する機械学習モデル・予測モデルを学習するためのWeb API。内製。読み⽅は「レイクタホ」。 • GPUを含めた⼤量の計算資源を使ってHDFSのデータを使ったモデルの学習を実現 • TensorFlowやXGBoost、scikit-learn、PyTorchやLightGBMを利⽤可能 • システム組み込みのハイパーパラメータチューニング acloudはLakeTahoeのAPIを操作するCLIツール。 ©2022 Yahoo Japan Corporation All rights reserved.

21.

AIプラットフォーム Model training - JupyterHub JupyterHubのDockerイメージを使うこ とでACP上に⾃分だけの開発環境を構築 してAIを開発できる。 JupyterHubイメージはNotebookから 利⽤可能なTensorboardを備えてお り、学習状況を簡単に確認できる。 ©2022 Yahoo Japan Corporation All rights reserved.

22.

AIプラットフォーム Deployment tool - Argo CD KubernetesネイティブなGitOps継続的 デリバリーツール。OSS。 任意のマニフェストを社内にある GitHubに保存するだけでAIプラット フォームにデプロイできる。 ©2022 Yahoo Japan Corporation All rights reserved.

23.

AIプラットフォーム Automated pipeline - Airflow / Argo workflows • Airflow ワークフローツール。OSS。 データ取得、前処理、学習、等の⼀連のジョブを管理。 AIプラットフォームではAirflowのHelmチャートを管理、提供しておりユーザーごとに独⾃のAirflow 環境を構築。 • Argo Workflows Kubernetesネイティブのワークフローツール。OSS。 Kubernetes内で完結するワークフローに適している。 利⽤頻度が⾼い汎⽤的な処理は、 ACPの全てのユーザが利⽤できるCluster Templateとして AIプラットフォームチームが管理、提供。 マネージドサービスとして提供しているため、すぐに利⽤可能。 ©2022 Yahoo Japan Corporation All rights reserved.

24.

AIプラットフォーム ML metadata store - MLflow 機械学習システムライフサイクルを管理。 OSS。 ⼤きく4つの機能で構成。 • MLflow Tracking • MLflow Projects • MLflow Models • Model Registry 主に機械学習の実験の記録・管理と機械学 習モデルのライフサイクルを管理するため に利⽤。 ©2022 Yahoo Japan Corporation All rights reserved.

25.

AIプラットフォーム Prediction service - CuttySark 学習済みのモデルを使った推論サーバを 簡単に管理できるマネージドサービス。 推論PF。内製。 読み⽅は「カティーサーク」。 指定したモデルの推論サーバの作成と削 除がWebAPI経由でできる。 ©2022 Yahoo Japan Corporation All rights reserved.

26.

AIプラットフォーム Model monitoring - Dronach 機械学習モデルの継続的なモニタリング ツール。内製。読み⽅は「ドロナック」。 モデルの性能劣化を起こすコンセプトドリ フトが発⽣していないか定期的にモニタリ ング。 ©2022 Yahoo Japan Corporation All rights reserved.

27.

AIプラットフォーム 社内プラットフォームの利⽤ AIプラットフォーム以外の社内向けプラットフォームも利⽤。 • Source repository 社内GitHubを利⽤。機械学習ジョブやWebサービスのコードを管理。 • Pipeline deployment AIプラットフォームとしてはArgo CDを提供しているが、その他にも Screwdriver.cdを利⽤。 Gitのリポジトリの変更があると事前に設定したイベントを検知してデプロイ。 • Model registry 機械学習モデル・予測モデルを置く場所としてDragon(社内の分散オブジェクト ストレージ)とHDFSを利⽤。 ©2022 Yahoo Japan Corporation All rights reserved.

28.

アジェンダ 1. データ基盤 2. AIプラットフォーム 3. 今後の展望 ©2022 Yahoo Japan Corporation All rights reserved.

29.

今後の展望 今後の展望 • 推論に関わる機能を提供するCuttySarkとモニタリング機能を提供する Dronachを主に磨き込む • validation機能の提供 • 使いやすいインターフェースを開発する • 社内での利⽤をさらに広げるために利便性を向上させる サイエンティストの⽣産性を向上させるプラットフォームを提供し続けること で事業に貢献。 ©2022 Yahoo Japan Corporation All rights reserved.

30.

©2022 Yahoo Japan Corporation All rights reserved.