データ中心AIの展望と課題

1.8K Views

December 15, 24

#モデル中心ai #データ中心ai #信頼性 #幻滅期 #生成AI #データ中心AI #AI #データ品質 #デジタル変革

スライド概要

ChatGPT登場(2022年11月)から2年が経過した。その間、生成AI普及のけん引役は消費者から企業に移行した。それを示す例として、米企業の生成AI支出が2023年に比べて6倍に増加したことがある。激しい競争によって生成AI利用料金も劇的に低下した。
しかし、それにも関わらず、Gartnerは恒例のハイプカーブで2025年に“生成AIは「幻滅期」に突入する”と主張している。個々の企業ニーズに本格的に対応しようとすると、個別用途向けの信頼性は欠くことのできない要件だが、現行の生成AIでは充分その見通しが立たないからである。
そこで、改めて信頼性に係わる『データの高品質化』に焦点が当たっており、データ中心AI(Data Centric AI)という取組みに注目が集まっている。
そこで、データ中心AIの展望と課題について報告する。

高橋浩

@5451263343

スライド一覧

定年まで35年間あるIT企業に勤めていました。その後、大学教員を5年。定年になって、非常勤講師を少々と、ある標準化機関の顧問。そこも定年になって数年前にB-frontier研究所を立ち上げました。この名前で、IT関係の英語論文（経営学的視点のもの）をダウンロードし、その紹介と自分で考えた内容を取り交ぜて情報公開しています。幾つかの学会で学会発表なども。昔、ITバブル崩壊の直前、ダイヤモンド社からIT革命本「デジタル融合市場」を出版したこともあります。こんな経験が今に続く情報発信の原点です。

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

生成AIからエージェントAIへの移行の課題と展望

aiエージェントエージェントai 自律性ガバナンスエージェント介入リスク

高橋浩 9K

医療分野における大規模言語モデルの調査

医療医療llm 生成ai 医師免許試験デジタル化

高橋浩 5.5K

医療へのChatGPT & AIの適用

chatgpt イノベーションヘルスケア新サービス開発組織変革

高橋浩 5K

ChatGPT 機会課題影響

大規模言語モデル chatgpt 生成ai 商業化の壁 llm

高橋浩 5K

GPTは労働市場にどのような影響を与えるか

chatgpt 生成aiツール生産性向上生成aiの今後 llm

高橋浩 3.9K

価値創造と価値獲得

value creation value capture オープンイノベーションデジタル化 b2b業界価値創造と価値獲得のバランス

高橋浩 3.8K

各ページのテキスト

データ中心AIの展望と課題 - データ中心AIの潜在能力の解放に向けて - B-frontier 研究所高橋浩 1

目的 • 生成AIの開発競争は激化しているが、インターネット期のEC、クラウド、あるいは検索エンジンのような有力サービスは未だ登場せず、利益獲得方法も定着していない。 • 企業の生産性向上や収益向上を目指した取組みも信頼性が不確実なため不活発で、多くの企業が本格導入に躊躇している。 • 背景に生成AIが本質的に持つハルシネーションのような構造がある。 • そこで、この状況改善のため、モデルへの注力のみでは限界があるとの認識から、改めてデータ品質向上に注目が集まっている。 • 但し、従来のモデル中心AIと新たなデータ中心AIは補完が望ましいが、最適補完関係を見出すには時間も費用も掛かる。 • 本稿は、このような認識から、このプロセスに関わる研究の紹介を通して、データ中心AIの潜在能力解放に向けた課題と展望をクローズアップすることを目的とする。 2

目次 1. 2. 3. 4. 5. はじめにデータ戦略と統合の再考データ中心AIの機構データ中心AIの展望新たな生成AI時代の到来に向けて 3

１．はじめに 2025年は生成AI「幻滅期」に突入 • 生成AIの特に一般企業への導入は大きな曲がり角にある。 • 2025年に生成AIは「幻滅期」に突入するとGartnerは主張している。 • その背景と考えられることを次頁以降に探る。 https://business.nikkei.com/atcl/gen/19/00537/111900069/ 【一方、多種アプリを保有する大手企業（Apple, Microsoft, 等）の各種サービスや一部先行企業への生成AI浸透は着実に進展している。】 4

https://business.nikkei.com/atcl/gen/19/00537/111900069/

このような状況に到っている背景理由１ • ChatGPTなど大手企業が提供する市販生成AIは主にインターネット世界の（主としてテキスト中心の）膨大なデータによってトレーニングされている。 • この特徴から、データに人種バイアスなど各種のノイズが紛れ込むのは必然であり、これでトレーニングすれば本質的にハルシネーションは避けられない。適応用途は限定される。理由２ • 企業への導入の際は企業所有の個別データを活用することで差別化に繋げたい。 • しかし、データ保有量は限定されるのが常である。 • 結果、汎用基盤モデルはそのままでは利用できないことが多い。適応用途は限定される。 5

「幻滅期」に入らざるを得ない理由 • 一般消費者にアピールした生成AIは極めて大規模なデータでトレーニングされており、データ規模が限定され、信頼性の要求が極めて強い企業や機関では同様には機能しない。 • そのため、多くの企業や機関は、焦点を小規模でも機能する高品質データに移行せざるを得ない。 • 結果、企業個別の環境にAIシステムを適応させるには、データを体系的に定義し、個別用途に合わせてエンジニアリングできる領域を定義しなければならない。 • この環境への移行には時間も費用も掛かる。 • 加えて、インターネット期に登場したEC, クラウドﾞ(あるいは Google検索連動広告モデル)のような有力サービスは登場しておらず、投資に見合う利益獲得方法も見えない。 6

企業向けに生成AI活用の構造の概念図用途データの特性適応分野問題点 ChatGPTなど大規模なトレーニングで適応する一データの取得（イン般分野（翻訳、ターネット世界に存在要約、分類、する膨大なデータの取選択、など）得）データにノイズが多い • ので大量のデータを取得しアルゴリズムで平均化した機能が有用で • ある分野しばしばバイアスが有りハルシネーションは避けられない。大量データの取得に非常にコストが掛かるので大企業製品を使わざるを得ない。医療、金融、流通、製造業などの個別分野少量だが高品質なデー • タを取得し、一貫したラベル付けによって生成された機能が有用である分野データクリーニングやデータの改善、データ拡大/変更など多様な環境をサポートするツールと作業手間が掛かる。小規模ではあるが高品質データの収集(企業固有のデータ依存:課題があれば、データ選別、改善の実施など） • 企業向け生成AIの導入においては特にデータの品質保証と、前処理だけではない処理プロセス中でのデータ改良のサイクルが必要になる。 7

データ品質強化に向けた新たな方向性 AI＝C ＋ D (コードの改善) 新しいAIの捉え方（生成AIをCとDの合体/連携と捉える） (ﾃﾞｰﾀの改善) AI＝C (コードの改善) のみの従来のモデル：モデル中心のライフサイクル繰り返し１繰り返し2~n データ前処理ハイパーパラメータの最適化同じデータを使用したモデルの改善 AI＝C (コードの改善)＋ D (ﾃﾞｰﾀの改善) の新たなモデルデータ前処理：データ中心のライフサイクル繰り返し2~n 繰り返し１エラー分析 (例: データの不適合やデータの不整合) データ変更 (例: データ拡張) データ品質評価 (例: データベンチマーク) 8

データの品質強化に向けた課題の検討課題の検討を以下の3視点で検討する • 生成AIに関するデータの要件は規模の大小、適応分野、信頼性の程度など、極めて複雑なので全体像を明確に把握する必要がある。データ戦略と統合の再考（２節） • データ中心AIは具体的にどのような仕組みで機能するのかについて明確にする必要がある。データ中心AIの機構（３節） • モデル中心AIにデータ中心AIを補完させることで具体的にどのような処理が可能になるのかをイメージアップする必要がある。データ中心AIの展望（４節） 9

10.

２．データ戦略と統合の再考データの課題分析の次元 • 生成AIの使用は、医療、金融、輸送など各業界で普及し出している。生成AIは大規模なデータセットの分析に基づいているので、高品質データの継続的供給が必要になる。 • その際、データ使用には課題がある。これを6次元で示す。データ品質データ量データの課題技術的専門知識 10

11.

図の解説 (01)データ品質 • 正確性、完全性、一貫性、適時性、など (02) データ量 • データ氾濫、ストレージの課題、データ管理、など (03)データのプライバシーとセキュリティ • 推論攻撃、敵対的攻撃、データ改ざん、など (04)バイアスと公平性 • 測定バイアス、サンプリングバイアス、時間バイアス、など (05)解釈可能性と説明可能性 • ローカル説明、パフォーマンスとのトレードオフ、など (06) 技術的専門知識 • コンピュータサイエンス、データサイエンス、倫理、など 11

12.

(01):データ品質 • 生成AIシステムが信頼性が高く価値ある結果を生成するにはデータの高品質確保が必須である。そのための手段例を以下に示す。データ品質の課題に対する提案されるソリューションデータクリーニングデータプロファイリングとデータ準備データラベリング欠損データの補完手法アクティブラーニングデータ検証とテストアルゴリズムの公平性データバイアスの緩和継続的な監視とメンテナンスデータリネージ 12

13.

図の解説 (01)データクリーニング • データ内のエラー、欠損値、不整合、外れ値の特定/修正、など (02)データプロファイリングとデータ準備 • 欠落データ、重複データ、不一致などの特定、生データのAIアルゴリズムで使用可能な形式への変換、など (03)データラベリング • データの特性を示すメタデータをタグ付け、など (04)欠損データの補完手法 • 平均補完、回帰補完、多重補完などによる補正、など (05)アクティブラーニング • トレーニングに最も有益なサンプルを反復的に選択、など (06)データ検証とテスト • データの正確性と完全性のチェック、パフォーマンスの評価、など (07)アルゴリズムの公平性 • モデルが特定のグループまたは個人に偏っていないことの確認、など (08)データバイアスの緩和 • データセットのバランス調整などでトレーニングデータの偏りを特定し対処、など (09)継続的な監視とメンテナンス • 継続的データ品質チェック、新しいデータによるモデル更新、再トレーニング、など (10)データリネージ • データの履歴を追跡し適切に使用されているか確認、など 13

14.

(02):データ量データの氾濫 • 大規模データセットはAIモデルのトレーニングには不可欠で、規模と複雑さは増大し続けている。 • そこで、効果的に使用するための課題が挙がる。 • その例を右図に示す。ストレージの課題データアクセスバイアスと代表性処理の課題データ量の課題要素データのプライバシーとセキュリティデータ管理の課題データの異質性データ管理 14

15.

(01)データの氾濫図の解説 • データ増加はAI成功の原動力だが、膨大な量のデータはデータ保存/処置/管理の問題を引き起こす。 (02)ストレージの課題 • より効率的ストレージ処理法が必要である。分散ストレージシステム、など (03)処理の課題 • 膨大なコンピュータリソースが必要である。モデル圧縮、プルーニング、など (04)データ管理の課題 • 効率的なデータ管理手法が必要である。自動データ注釈、など (05)データの異質性 • 複数のリソースがあってデータ形式や構造が異なる場合などへの対応、など (06)データのプライバシーとセキュリティ • データ侵害やプライバシー侵害リスクへの対応、など (07)バイアスと代表性 • 大量データは代表性やバイアス欠如を保証しないので、その対応、など (08)データアクセス • データアクセスに必要なライセンス、など 15

16.

(03):データのプライバシーとセキュリティ • データが安全に保存および処理され、プライバシー規制が順守されていることを確認することが重要である。対処すべき課題例を以下に示す。データのデータのプライバシーとセキュリティの課題データの収集と共有推論攻撃差分プライバシー敵対的攻撃データポイズニング攻撃モデルとデータの改ざん 16

17.

図の解説データプライバシーの課題 (01)データの収集と共有 • 大量データ収集が必要だが、データ共有契約が異なる国、地域、企業間ではデータ共有に注意が必要である。 (02)推論攻撃 • 攻撃者はメンバーシップ推論攻撃を使用して個人情報を抽出したりする。 (03)差分プライバシー • データに制御されたノイズを追加することでプライバシーを保護する。データセキュリティの課題 (04)敵対的攻撃 • 小さな変化が導入され、AIモデルが騙されて重大なリスクが生じる。 (05)データポイズニング攻撃 • トレーニングデータを改ざんしてAIモデルのパフォーマンスを低下させる。 (06)モデルとデータの改ざん • バックドア攻撃、トロイの木馬などでデータ自体を変更する。 17

18.

(04):バイアスと公平性 • AIシステムが普及するに連れ、バイアスと公平性に関する懸念が浮上している。以下にデータバイアスの例を示す。 10種類のデータバイアスグループ帰属バイアス時間的バイアス測定バイアスラベルバイアスサンプリングバイアス特徴選択バイアスアンカリングバイアス自動化バイアス集計バイアス確証バイアス 18

19.

図の解説 (01)測定バイアス • データ収集方法がデータの特徴を過大または過小に表す場合発生 (02)ラベルバイアス • ラベルが間違っているか、真の結果を代表していない場合発生 (03)サンプリングバイアス • 収集されたデータが対象の母集団を代表していない場合発生 (04)集計バイアス • 異なる特性または分布のソースからデータを結合した場合発生 (05)確証バイアス • データが選択的または重み付けて既存の信念や期待を支持する場合発生 (06)グループ帰属バイアス • 個人の行動を所属グループの特性で一般化/ステレオタイプ化した場合発生 (07)時間的バイアス • 現在の傾向やパターンを反映しなくなった履歴データでトレーニングの場合発生 (08)特徴選択バイアス • モデル開発中特定の特徴に重点が置かれ偏った結果につながった場合発生 (09)アンカリングバイアス • AIモデルが予測を行うため初期情報に大きく依存している場合発生 (10)自動化バイアス • AIシステムの出力に欠陥があったり偏っていても人間が出力に過度に依存する場合発生 19

20.

(05):解釈可能性と説明可能性 • AIモデルは解釈や説明が難しい場合があり、透明で説明可能であることを確認する必要がある。これらの困難な要素例を以下に示す。技術・本質的に解釈可能なモデル・ローカルな説明・視覚化技術必要性解釈可能性と説明可能性の挑戦的な要素パフォーマンスと解釈可能性のトレードオフ評価指標 20

21.

図の解説 (01)必要性 • 解釈可能性と説明可能性の需要は信頼、説明責任、倫理的配慮の必要性によって強く推進される必要がある。 (02)技術：本質的に解釈可能なモデル、ローカルな説明、視覚化技術、など • それぞれ、決定木/線形回帰/ルールベースなどの本質的に解釈可能なモデルで対処、単純で解釈可能なモデルで複雑なモデルの動作を近似、高次元データで視覚化を表現、などがある。 (03)パフォーマンスと解釈可能性のトレードオフ • 解釈可能性の高いモデルは予測パフォーマンスの低下を受け入れざるを得ないことが多いので、両者間のバランス確保が必要である。 (04)評価指標 • 解釈可能性と説明可能性を評価するための標準化された評価指標の開発が必要である。 21

22.

(06):技術的専門知識 • 社内に必要なAIスキルを持たない企業は、生成AIの取組みが困難な場合がある。典型的な例を以下に示す。熟練した専門必要性家の不足 2 １技術・本質的に解釈可能なモデル倫理的な懸念・ローカルな説明・視覚化技術技術的専門知識専門知識の需要が高い分野 AI関連の専門パフォーマンスと解釈可能性のト知識に対するレードオフ需要の高まり 3 4 ・コンピュータサイエンスとコンピュータエンジニアリング・データサイエンスと分析・人間とコンピュータの相互作用評価指標 (HCI) と認知科学・倫理、哲学、ポリシー・サイバーセキュリティとプライバシー・ロボット工学と自律システム 22

23.

図の解説 (01)熟練した専門家の不足 • AI技術の急速な発展はAIシステムの複雑さと多様性に対応できる労働力の成長を上回っている。この人材ギャップを埋める対応が必要である。 (02)倫理的な懸念 • AI技術は慎重な検討と専門知識を必要とするさまざまな懸念を引き起こす。この問題の対応には多様な関係者の学際的コラボレーションが必要である。 (03) AI関連の専門知識に対する需要の高まり • さまざまな業界でのAI技術の採用増加によりAI関連専門知識に対する需要は急増している。 (04)専門知識の需要が高い分野 (a) アルゴリズム開発、機械学習、ディープラーニング、自然言語処理、コンピュータビジョンのスキルを持つ専門家 (b) AI システムにおける大量データに特化したデータサイエンスと分析の専門家 (c) 人間とコンピュータの相互作用 (HCI) と認知科学に関わる専門家 (d) 倫理、哲学、ポリシーの分野で公平性、透明性、説明責任に関連する問題に対処しうる専門家 (e) サイバーセキュリティやプライバシーの分野で機密データを保護し、セキュリティを維持することに精通した専門家 (f) AI を搭載したロボット工学と自律システムが普及するにつれて、これらの制御システムなどの分野の専門家 23

24.

3．データ中心AIの機構データ中心AIが注目されるようになった理由 • 従来、AIモデルの性能が低かった際には、コード/アルゴリズムの改善にのみ注意が払われてきた。 • このアプローチが有効なのは大量データが容易に集まるビジネス/アプリケーション(言語モデル、テキスト分析、など)に限定される。 • 結果、大量の優れたデータが利用できない場合には適切なソリューションが提供できない懸念が生じる。 • この問題克服のため、巨大なデータセットの不足を補うソリューションが模索された。 • そして、データの品質や量が限定される領域でもAIの適応性(性能や信頼性)を高めることを目指して登場したのがデータ中心AIである。従来のモデル中心AIとの比較を次頁図に示す。 24

25.

モデル中心AIとデータ中心AIの動作メカニズムの比較モデル中心AIの概要モデルの再構築/再トレーニング問題定義２データ収集３収集データの前処理４５ AIモデルの展開７性能評価コードの調整（モデルの性能が良くない場合）データ中心AIの概要外れ値の除去改善されたデータによるモデルの再構築/再トレーニング適時性チェック２３データ拡張５ AIモデルの展開性能評価 AIモデルコードの最小限の調整７データの調整（モデルの性能が良くない場合） 25

26.

図の解説モデル中心AI • 現実世界の問題を解決するために広く使用されている従来のモデル中心AIアプローチのワークフローである。 • 性能が良くない場合にはモデル（コード/アルゴリズム）を調整して性能向上を試みる。データ中心AI • 従来と比較するために、モデル中心AIとデータ中心AIの違いを強調している(特にステップ３ 3とステップ８ 8）。３ • :データはAIモデルに取込まれる前に複数の側面(完全性、正確性、適時性、関連性、外れ値、欠損値、ラベル、サイズ、データソース分析、注釈、データのバージョン管理、ドメイン分析、値の形式など)で評価され選別される。８ • :性能が良くない場合はモデル（コード/アルゴリズム）だけでなくデータも調整して性能向上を試みる。 26

27.

データ中心AIの重点機能 • トレーニングデータ開発(収集データの前処理３）が中心ではあるが、実用的AIシステム構築には更に評価データの開発、データメインテナンスが必要になる。 • 全体構成を下記に示す。データ中心AIミッションの全体像と代表的なタスク/サブタスクトレーニングデータの開発評価データの開発データメインテナンスデータ視覚化データスライシングデータ収集データ理解データラベリング分布内評価データデータ合成データ品質保証データ準備データの接ぎ木データ削減データ拡張データ評価分布外評価データ品質評価品質改善敵対的摂動分布シフト 27

28.

トレーニングデータの開発データ収集 • ゼロからのデータセット構築、既存データセットからの関連部分の特定、複数データセットの統合、などデータラベリング • 手動によるラベル付け、少量のラベル付きデータに基づくラベル推測、特定状況での反復的ラベル付け、などデータ準備 • 生データを学習に適した形式に変換、クリーニング(欠損値の補完、重複の削除、不整合の修正)、特徴抽出、などデータ削減 • データ削減によるデータサイズ縮小、特徴選択や次元削減によるサイズ縮小、などデータ拡張 • 多くのデータを収集する代わりに変更したサンプルを作成することでデータの多様性を向上、など 28

29.

評価データの開発分布内評価データ：トレーニングデータと同じ分布に従うサンプルデータデータスライシング • 性別や人種などに基づいて元のデータの少なさを拡大、などデータ合成 • 元の分布に従ってデータ作成（データが限定されている場合）、などアルゴリズムによる救済 • モデル境界に近い部分での合理的予測によるデータセットの作成、など分布外評価データ：トレーニングデータと異なる分布に従うサンプルデータデータの接ぎ木 • 類似したデータ形式を持つ類似ドメインのデータを統合、など敵対的摂動 • 堅牢性をテストするため元のサンプルに類似したサンプルを作成、など分布シフト • 分布シフトに対する感度を評価するための意図的データの作成、など 29

30.

データメインテナンスデータ理解：データを包括的に理解するためのアルゴリズム/ツール開発データ視覚化 • 次元削減手法の適応などで人間がデータ分布を理解しやすくする、などデータ評価 • どのタイプのデータが最も価値があるかを理解するための評価、などデータ品質保証：モデルトレーニングの鍵となる。品質評価 • データ品質を測定し潜在的欠陥やリスクを特定する為の評価指標の開発、など品質改善 • 監視やフィードバック、多数決、ユーザ定義ルールによる品質改善、などデータアクセラレータ：データの迅速な取得のためのインフラ構築リソースの割り当て • データベース構築を管理してスループットを向上、などクエリアクセラレータ • クエリ処理中のディスクアクセス数最小化でワークロード削減、など 30

31.

データ中心AIにおける自動化とコラボレーション • データ中心 AI はさまざまなデータライフサイクルに関連するさまざまなタスクで構成される。 • そして、一部のタスクでは、プロセス合理化のため自動化アルゴリズムを開発することが不可欠になる。 • 一方、他の幾つかのタスクでは、データが意図に一致しているかを確認するために人間の介在が不可欠である。 • 自動化には幾つかのレベルがある。人間の参加にも幾つかのレベルがある。学習ベースの自動化データ中心AI 関係の論文プログラムによる自動化パイプラインの自動化部分参加完全参加最低限の参加 31

32.

自動化と人間参加のレベル自動化のレベルプログラムによる自動化 • 多くの場合、ヒューリスティクと統計情報に基づいてプログラムが作られる。学習ベースの自動化 • 最適化を伴う自動化戦略の学習など。学習に追加コストがかかる。パイプラインの自動化 • 複数のタスクに渡る統合/調整など。大幅にコストが掛かる。人間とのコラボレーションのレベル完全参加 • 人間がプロセスを完全に制御。人間の意図と良く一致するがコストが掛かる。部分参加 • 人間は大量フィードバック、頻繁な対話時などに集中して参加する。最低限の参加 • システムが必要な場合にのみ人間に相談する。全体としては効率(人間の労力が少ない)と有効性(人間との整合性が高い)のトレードオフになる。 32

33.

結局、データ中心AIとは・・ • ・・従来、経験豊富なデータサイエンティストが試行錯誤と直観で手動でデータセットの改良を行ってきたものを、体系的エンジニアリングとして捉え直したものと言うことができる。 • データ中心AIは、モデルに重点を置くというのでなく、トレーニングと評価に使用される基盤としてのデータに改めて重点を置くという最近のトレンドを表している。 • 背景に、現在でもモデルが主流ではあるが、実際にはデータセットの構造と使用に性能も信頼性も大きく依存しており、また、労力とコストも掛かっていることがある。 • このため、データに関わるインフラストラクチャーと適切な解が不足しているとの認識が高まったと考えられる。 33

34.

４．データ中心AIの展望モデル中心AIとデータ中心AIの定量分析/比較 • 主要な比較ポイントは精度、複雑性、あるいは精度を低下させない最小限のサンプル数、偽陽性/偽陰性率、再現性などである。 • 鋼板検査シナリオが報告されている。【下記図の(a)は鋼板検査シートの概要、（b)はさまざまな欠陥の例（赤いボックスが鋼板検査シートのさまざまな種類の欠陥）を示す】モデル中心AIアプローチとデータ中心AIアプローチの定量的結果と比較を示す。精度向上は得られず精度が大幅に向上(90%以上) 34

35.

データ中心AIが有効な領域 • データ中心AIは一モデルで全ての課題に対処するのが難しい(あるいは信頼性で課題発生などのような)場合に有効である。 • 結果、固有データ量が少なく、特殊データ形式が多い産業分野などで有効である。 • 両アプローチの包括的比較を下記に示す。基本的比較技術的比較比較基準モデル中心AIアプローチデータ中心AIアプローチ主な焦点コードデータ研究者の焦点比率 90% <10% 研究期間 30年～3年データ分析 1回連続（n回）精度低い高い品質保証なしあり実践手法コード第一データ第一比較基準モデル中心AIアプローチデータ中心AIアプローチドリフト感受性概念とデータの両方なしデータチェックトレーニングの前のみライフサイクル全体でフィードバック遅くて不十分タイムリーなフィードバック結果の説明可能性複雑簡単データ準備の手順限定的包括的 35

36.

基本的比較から表の解説 • 研究者の主要な関心事は依然としてモデル/アルゴリズムにある。 • データ中心AIで話題になる各種ツールは既に考えられてきたものもある。 • 新しいのは、個々のタスクを包括的に把握し如何にAIシステムの性能や信頼性を挙げるかの視点である。 • このような取組みが注目されるようになった背景にアルゴリズムがコモディティ化し成果が上げ難くなったこともある。技術的比較から • 第2節で述べたような、データに付帯する諸次元を認識し極力ノイズを混入させない方法は、解釈可能性、説明可能性実現に有効である。 • しかし、当然ながら、このような手法は時間もコストもかかる。 • 従って、データ中心AIに重点を置く程度にはトレードオフがある。 • AI適応分野の拡大によって、データ中心AIアプローチがより評価される、あるいは必須な領域が拡大して来ていると言える。 36

37.

モデル中心AIと比較したデータ中心AIの利点 (1) AI技術による社会的リスクの低減 • AIの決定の背後にある公平性、信頼性、説明可能性および根拠の明確化のため (2) AI技術を活用して長年の業界の問題を効果的に解決 • 故障診断、予知保全、残存耐用年数分析、アラート、などによって (3) AIの現在のアプリケーションスタックの拡張 • 気候変動、環境、持続可能性、地震発生予測などへの取組みにも適応 (4)中小企業でも安価にAIを導入 • 売上・損失予測のためのChatGPT利用、大規模アプリケーションの小規模向けカスタマイズなどによって (5)計算リソースとインフラストラクチャのコスト節約 • 問題のある部分のデータ収集を2倍に（あるいは多く）するなど、データ取得のメリハリをつけることによって (6) AIシステムの寿命延長 • AIシステムにおけるデータ、概念、モデルのドリフト防止などの対応によって (7) AIシステムをより適切に制御 • AI技術を使用した壊滅的結果（または金銭的損失）を防ぐために制御するなどで 37

38.

モデル中心AIとデータ中心AIを何時統合するか両アプローチの統合が適当なように思えるが、背景分析、指針が必要である。 • 生成AI適応の拡大はさまざまな問題に直面する懸念を深めており、広範な採用の中でAI技術の是正も急務になっている。 • この文脈で、モデル中心AIとデータ中心AIの適切な統合は社会の利益に貢献できる可能性がある。 • 典型的には、データ中心AIによるデータの変更がモデル中心AI によるコードの変更にもつながるので、両アプローチ間には多様な相互作用の関係が推定できる。 • データ特性とコード特性に基づく代表的な両アプローチ間の相互作用関係を次頁図に示す。 38

39.

モデル中心AIとデータ中心AI間の相互作用の関係(概要) データ中心AI モデル中心AI データサイズパラメータ調整データ評価学習アルゴリズムデータモダリティデータ剪定スパースAIモデルデータ配置モデルに依存しないデータ多様性マルチモデル特徴に関する地図 AIモデルの安定性悪いサンプル 39

40.

図の解説両アプローチ間の相互作用の関係例を示す。 • データサイズの変更には関係するモデルのパラメータ調整が必要である。 • データを評価するにはAIモデル(学習アルゴリズム)が必要である。 • AIモデルはデータモダリティに基づいて変更される。 • データの不適切な部分が削除(データ剪定)される場合、モデルもスパースであることが必要になる。 • データが整列している場合、ほとんどのモデルで動作できる(モデルに依存しない)ことが必要になる。 • データが多様な場合、モデル間で一貫したパフォーマンスが得られるはずである。 • データプロパティの特徴マップ(特徴に関する地図)はAIモデルの安定性の確認に役立つ。 • 間違ったデータ(悪いサンプル)が使用されるとモデルの堅牢性も低下するはずである、など 40

41.

モデル中心AIとデータ中心AIの統合のケース前述の状況を踏まえて、両方のパラダイムが必要になる 10 個の実際の状況と各パラダイムの役割を示す。モデル中心AIとデータ中心AI両パラダイムの統合が必要な状況の例自動運転車予測メンテナンス伝染病対策システム異常検出人間の活動認識データの整合性、一貫性、新鮮度、信頼性 MLoP/TinyML 気候変動時系列分析音声アシスタント公平性と包括性データの前処理、整理、品質の向上、エラー分析 41

42.

図の解説モデル中心AIのみの結果が信頼できない場合 • 両アプローチを慎重に統合することで生成結果の信頼性を高められる場合がある。 • 背景に前頁リストの殆どがデータが複数ソースから発生していることがある。特定の性能目標を満たす必要がある場合 • AIを使用して達成すべき性能目標が設定されていることがある。 • 鋼板検査シナリオでは目標精度が90%以上と設定されていた。コンピューティングのオーバーヘッドが一定限度を超えて負担できない場合 • 生成AIではトレーニングのためのコンピュータ負荷がしばしば極めて高くなる。 • 小売業界などではデータを取得し過ぎる場合、必要なデータのみに限定する必要性が高くなる。 AI システムの寿命の延長のため • しばしば外部条件でデータの完全性と適時性を無視せざるを得ないことがある。 • これは、AIシステムの再トレーニングや再開発で解決できることがある。現実世界を代表するデータの可用性に制限がある場合 • 現実世界では高品質データを利用できないことがある。 • このような状況では既存データの改善などで不足を補う手法が貴重になる。 42

43.

データ中心AIの展望 • 現在、データ中心AIで使用できる有効な技術は少ない。しかし、データ中心AIと他AI技術との潜在的相乗効果によりデータ中心AIの応用範囲は拡大される可能性がある。 • データ中心AIアプローチが有効か(あるいは必須か)区別できる手法はまだない。但し、このような手法が開発されれば有効な領域は拡大される可能性がある。 • さまざまな領域で、どの程度の品質向上が必要か判断することは難しい。しかし、アプリケーション毎に適切な分析手法が提供されて来る可能性はある。 • データ中心AIは一種のデータに関するデバックとコンパイルに例えられる作業と言える。従って、洗練された適切なツールの存在が必須なので、このようなツールへの認識が高まれば良い方向に移行する可能性がある。 • それぞれのAIアプリケーションに適したデータ中心AI技術の選択が重要である。これは事例の蓄積が進むにつれて改善して行くことを示唆する。 43

44.

５．新たな生成AI時代の到来に向けてモデル中心AIとデータ中心AIを適切に組合わせて生成AI時代の新たな高みを目指すデータ中心AI活用の路を切り拓くデータ中心AIシステムの利点データ中心AIシステムの欠点データセット当たりのトレーニング量が少なくて済む長期的な効率性と適応性データ中心 AIの観点における利点パフォーマンスの最適化堅牢かつ公正なモデル vs 膨大なデータ量データ中心 AIの観点における欠点ツールは開発段階にある 44

45.

図の解説データ中心AIシステムの利点 • 特定のデータタイプに限定されず、テキスト、画像、音声、ビデオなど複数ソースからのデータを活用した学習を実施できる。 • データ品質の適宜＆抜本的な強化からモデル評価をより定期的に行うことができ、迅速なフィードバックを実施できる。 • それらの結果、1) データセット当たりのトレーニング量の削減、2) 長期的な効率性と適応性の実現、3) パフォーマンスの最適化などを狙える。データ中心AIシステムの欠点 • データ中心AI は有望な進歩と見做せ、今後に期待できるものの、まだ十分に準備が整っておらず、当面は微妙なアプローチが必要になる。 • データとモデルを巧みに絡み合わせて相乗的に活用することが推奨されるが、発展途上のため、1) 当面利用できるツールを工夫して使用、 2) 高価な高品質データを一定のコスト負担許容で利用、3) 各種場面での定期的な人間の努力が必要になる。 45

46.

データ中心AIの課題課題内容データの品質と量トレーニングとテスト用に使用されるデータが高品質で十分な量であることを保証不確実性への対応データ不完全、ノイズ多、不確実性などに対処する確実な方法の開発リアルタイム処理データを迅速に処理しほぼリアルタイムで予測する効率的で効果的なアルゴリズムの開発複数のデータソースの統合異なるソースからの形式、構造、品質レベルが異なるデータの統合と分析一般化新しいデータや見たことのないデータに対しても一定の予測を一般化する手法データのプライバシーとセキュリティ医療記録や財務データなど機密データや個人情報分析にAIを使用しても不正アクセスや誤用から保護できる手法(匿名化や差分化など) 説明可能性と解釈可能性医療, 金融, 刑事司法など機密性の高いアプリケーションでの生成結果に信頼性を保証スケーラビリティと堅牢性データ量の増大に対しても全データをタイムリーかつ効率的に処理、分析できる機能マルチモーダルとマルチソースデータデータの量と多様性が増加し、センサーデータ、ソーシャルメディアデータ、その他の非構造化データなどの複数ソースからデータを入手しても統合できる機能因果関係と反事実的推論予測や決定を行う為にAIを使用した際の、予測や決定の根底にある因果関係の明確化人間とAIのコラボレーション様々な領域にAIが統合されるにつれて人間と AI 間のより効果的なコラボレーションバイアスと公平性トレーニングに使用されるデータが全体を代表していない場合でも、意図せず予測にバイアスを導入させる危険性への対応(特に医療、金融、法執行などで) 他の技術との統合センサー、IoT、ロボット工学など、独自の特性や制約がある対象との統合倫理と規制 AI がより洗練され普及するにつれて重要になる、AI が仕事や社会に与える影響、AI システムの説明責任、AI の潜在的誤用などに対応できる倫理や規制上の対策 46

47.

表の解説課題と解決策 • 種々の課題はあるが、最大の課題はトレーニングやテスト用に使用されるデータが高品質で十分な量であることを保証することである。 • データが不完全で、ノイズが多い場合には、性能は低下し、予測は不正確になるので、データの高品質＆十分な量はデータ中心AIアプローチの出発点になる。 • 従って、これを達成するためのステップが最重要になるが、3節, 4節で論述の通り、いずれも時間がかかるし相当のコストがかかる。 • 他の多くの課題も、表面的にはモデル中心AIにおける課題と重複する課題のように見えるが、実際にはデータ中心AIの目指す目標（信頼性向上など）に向けて個別テーマはブレークダウンされる。 • 解決策は個別研究テーマの進捗に応じて、徐々に時間をかけて登場してくる。 47

48.

データ取集と品質の課題についての補足 • 生成AIはデータに基づいて関数をトレーニングするが、出発点となるデータ準備はコストが最もかかるステップとして知られている。 • データ収集、クリーニングとトレーニングに適した状態にするまでに、全体の時間の45%、研究によっては80%かかるとの報告がある。 • にも拘わらず、研究の取組みは90%が関数(モデル/コード)、10%がデータ準備に費やされており、この数字は逆であるべきとの不満もある。 • このような環境において、企業は, 1)データ不足と2)トレーニング済みモデルの説明可能性欠如を理由に生成AI利用を中止する傾向がある。 • 加えて、意図的にデータを汚染するデータポイズニングの問題もある。 • これらの課題を乗り越えた後でも全ての問題を解決したとの保証はない。 • データに問題が残る場合、それを改善するための汚れたデータへの対応、欠落したデータへの対応などが必要になる。 • 課題は困難なので企業は長期的視野に立って取組むべきと言える。 48

49.

データ中心AIは性能を向上させる • 一般的データセット(MNIST, CIFAR-10など)を使用して両アプローチの性能比較を行う。 • データ中心AIでは主としてノイズの多いラベルの修正などを実施する。 • 結果、データ中心AIの方が少なくとも3%程度性能でモデル中心AIより優れていた。性能一般的データセットの例与えられたラベル実際のラベル 49

50.

モデル中心 AIとデータ中心 AIの統合アーキテクチャとしてのモデルデータ中心 AIについて • 今後重要なリアルタイム処理などを効果的に機能させるためにも信頼性の高いデータは不可欠になる。 • この考慮事項は基盤となるモデルにおいても同様の程度に重要である。 • そこで、両アプローチの統合が目標とされるが、この方向での問題解決の試みは現在初期段階にある。 • 両アプローチを統合した一般的アーキテクチャ（下図）を構想し、両アプローチ間のバランスを確保する取組みを順次実施して行く必要がある。データアルゴリズム(A) モデル中心AI アルゴリズム(A) データ中心AI モデルデータ中心AI 50

51.

最終まとめ 1. データ中心AIの取組みは始まったばかりであり、装備は不充分で、使いこなす負担も大きい。 2. しかし、OpenAI社などの製品に丸ごと依存していただけでは、自社差別化の見通しがつけられないのも事実である。 3. そして、自社固有データを活用した独自差別化に挑戦しようとすると、本稿のデータ中心AIの解説で取り上げた各種課題そのもの、あるいは類似の課題に取り組まざるをえない。 4. 今後、生成AIの影響が長期的にますます高まって行くのは間違いない。 5. このような状況を正当に認識すれば、長期的視野に立って、本格的にデータ中心AIへの取組みと、それをモデル中心AIにも適切に統合して新たな価値創造を目指す目標は、当面の負担は大きいものの合理的決断と言える。 51

52.

編集後記 • データ中心AIはChatGPT登場(2022年11月)前の2021年, AI研究で著名なAndrew Ngによって提唱された。 • 良く知られた論文によるものと言うよりは、演説や雑誌記者とのインタビュー、シンポジウム提唱などによるもので、概要はYoutubeでも公開されている Andrew Ng (https://www.youtube.com/watch?v=06-AZXmwHjo&t=217s)。ｽﾀﾝﾌｫｰﾄﾞ大 • Ng提唱のシンポジウムはThe International Workshop on Data-Centric AIとい兼担教授う名称で既に4回(2021~2024年)開催されている。 • 従って、シンポジウム発表論文などは多数あるが、技術的内容が多い。 • その中で本稿は敢えて技術的内容ではなく、一般企業が生成AIに取組む際のデータ中心AIの意義などに焦点を当ててまとめてみた。 • このような姿勢の論文は、一般的論調の論文は幾つかあるが、細部に渡る考察に取り組んだものは少ない。 • その中で、第3節、第4節で取り上げた論文は引用回数は少ないものの頑張っていた（また、第2節で取り上げた論文は引用件数が多く(349回), 著者達がQatar 大学の人達であることも興味深かった）。 • データ中心AI導入の事例については触れなかったが、第4節論文では例示のURL が多数あった。但し、個別事例に基づく本格的分析の段階にはなかったので、今回は割愛した。 52

53.

文献 https://spectrum.ieee.org/andrew-ng-data-centric-ai 53

https://spectrum.ieee.org/andrew-ng-data-centric-ai