888 Views
December 15, 24
スライド概要
ChatGPT登場(2022年11月)から2年が経過した。その間、生成AI普及のけん引役は消費者から企業に移行した。それを示す例として、米企業の生成AI支出が2023年に比べて6倍に増加したことがある。激しい競争によって生成AI利用料金も劇的に低下した。
しかし、それにも関わらず、Gartnerは恒例のハイプカーブで2025年に“生成AIは「幻滅期」に突入する”と主張している。個々の企業ニーズに本格的に対応しようとすると、個別用途向けの信頼性は欠くことのできない要件だが、現行の生成AIでは充分その見通しが立たないからである。
そこで、改めて信頼性に係わる『データの高品質化』に焦点が当たっており、データ中心AI(Data Centric AI)という取組みに注目が集まっている。
そこで、データ中心AIの展望と課題について報告する。
定年まで35年間あるIT企業に勤めていました。その後、大学教員を5年。定年になって、非常勤講師を少々と、ある標準化機関の顧問。そこも定年になって数年前にB-frontier研究所を立ち上げました。この名前で、IT関係の英語論文(経営学的視点のもの)をダウンロードし、その紹介と自分で考えた内容を取り交ぜて情報公開しています。幾つかの学会で学会発表なども。昔、ITバブル崩壊の直前、ダイヤモンド社からIT革命本「デジタル融合市場」を出版したこともあります。こんな経験が今に続く情報発信の原点です。
データ中心AIの展望と課題 - データ中心AIの潜在能力の解放に向けて - B-frontier 研究所 高橋 浩 1
目的 • 生成AIの開発競争は激化しているが、インターネット期のEC、クラ ウド、あるいは検索エンジンのような有力サービスは未だ登場せず、 利益獲得方法も定着していない。 • 企業の生産性向上や収益向上を目指した取組みも信頼性が不確実な ため不活発で、多くの企業が本格導入に躊躇している。 • 背景に生成AIが本質的に持つハルシネーションのような構造がある。 • そこで、この状況改善のため、モデルへの注力のみでは限界がある との認識から、改めてデータ品質向上に注目が集まっている。 • 但し、従来のモデル中心AIと新たなデータ中心AIは補完が望ましい が、最適補完関係を見出すには時間も費用も掛かる。 • 本稿は、このような認識から、このプロセスに関わる研究の紹介を 通して、データ中心AIの潜在能力解放に向けた課題と展望をクロー ズアップすることを目的とする。 2
目次 1. 2. 3. 4. 5. はじめに データ戦略と統合の再考 データ中心AIの機構 データ中心AIの展望 新たな生成AI時代の到来に向けて 3
1.はじめに 2025年は生成AI「幻滅期」に突入 • 生成AIの特に一般企業への導入 は大きな曲がり角にある。 • 2025年に生成AIは「幻滅期」 に突入するとGartnerは主張し ている。 • その背景と考えられることを 次頁以降に探る。 https://business.nikkei.com/atcl/gen/19/00537/111900069/ 【一方、多種アプリを保有する大手企業(Apple, Microsoft, 等)の各種 サービスや一部先行企業への生成AI浸透は着実に進展している。】 4
このような状況に到っている背景 理由1 • ChatGPTなど大手企業が提供する市販生成AIは主に インターネット世界の(主としてテキスト中心の) 膨大なデータによってトレーニングされている。 • この特徴から、データに人種バイアスなど各種のノ イズが紛れ込むのは必然であり、これでトレーニン グすれば本質的にハルシネーションは避けられない。 適応用途は限定される。 理由2 • 企業への導入の際は企業所有の個別データを活用 することで差別化に繋げたい。 • しかし、データ保有量は限定されるのが常である。 • 結果、汎用基盤モデルはそのままでは利用できな いことが多い。 適応用途は限定される。 5
「幻滅期」に入らざるを得ない理由 • 一般消費者にアピールした生成AIは極めて大規模なデータでト レーニングされており、データ規模が限定され、信頼性の要求 が極めて強い企業や機関では同様には機能しない。 • そのため、多くの企業や機関は、焦点を小規模でも機能する高 品質データに移行せざるを得ない。 • 結果、企業個別の環境にAIシステムを適応させるには、データ を体系的に定義し、個別用途に合わせてエンジニアリングでき る領域を定義しなければならない。 • この環境への移行には時間も費用も掛かる。 • 加えて、インターネット期に登場したEC, クラウド゙(あるいは Google検索連動広告モデル)のような有力サービスは登場して おらず、投資に見合う利益獲得方法も見えない。 6
企業向けに生成AI活用の構造の概念図 用途 データの特性 適応分野 問題点 ChatGPTなど 大規模なトレーニング で適応する一 データの取得(イン 般分野(翻訳、 ターネット世界に存在 要約、分類、 する膨大なデータの取 選択、など) 得) データにノイズが多い • ので大量のデータを取 得しアルゴリズムで平 均化した機能が有用で • ある分野 しばしばバイアスが有 りハルシネーションは 避けられない。 大量データの取得に非 常にコストが掛かるの で大企業製品を使わざ るを得ない。 医療、金融、 流通、製造業 などの個別分 野 少量だが高品質なデー • タを取得し、一貫した ラベル付けによって生 成された機能が有用で ある分野 データクリーニングや データの改善、データ 拡大/変更など多様な環 境をサポートするツー ルと作業手間が掛かる。 小規模ではあるが高品 質データの収集(企業固 有のデータ依存:課題が あれば、データ選別、 改善の実施など) • 企業向け生成AIの導入においては特にデータの品質保証と、前処理だ けではない処理プロセス中でのデータ改良のサイクルが必要になる。 7
データ品質強化に向けた新たな方向性 AI=C + D (コードの改善) 新しいAIの捉え方(生成AIをCとDの合体/連携と捉える) (データの改善) AI=C (コードの改善) のみの従来のモデル :モデル中心のライフサイクル 繰り返し1 繰り返し2~n データ前処理 ハイパーパラメータの最適化 同じデータを使用したモデルの改善 AI=C (コードの改善)+ D (データの改善) の新たなモデル データ前処理 :データ中心のライフサイクル 繰り返し2~n 繰り返し1 エラー分析 (例: データの不適合やデータの不整合) データ変更 (例: データ拡張) データ品質評価 (例: データ ベンチマーク) 8
データの品質強化に向けた課題の検討 課題の検討を以下の3視点で検討する • 生成AIに関するデータの要件は規模の大小、適応分野、信頼 性の程度など、極めて複雑なので全体像を明確に把握する必 要がある。 データ戦略と統合の再考(2節) • データ中心AIは具体的にどのような仕組みで機能するのかに ついて明確にする必要がある。 データ中心AIの機構(3節) • モデル中心AIにデータ中心AIを補完させることで具体的にど のような処理が可能になるのかをイメージアップする必要が ある。 データ中心AIの展望(4節) 9
2.データ戦略と統合の再考 データの課題分析の次元 • 生成AIの使用は、医療、金融、輸送など各業界で普及し出し ている。生成AIは大規模なデータセットの分析に基づいてい るので、高品質データの継続的供給が必要になる。 • その際、データ使用には課題がある。これを6次元で示す。 データ品質 データ量 データの 課題 技術的専門 知識 10
図の解説 (01)データ品質 • 正確性、完全性、一貫性、適時性、など (02) データ量 • データ氾濫、ストレージの課題、データ管理、など (03)データのプライバシーとセキュリティ • 推論攻撃、敵対的攻撃、データ改ざん、など (04)バイアスと公平性 • 測定バイアス、サンプリングバイアス、時間バイアス、など (05)解釈可能性と説明可能性 • ローカル説明、パフォーマンスとのトレードオフ、など (06) 技術的専門知識 • コンピュータサイエンス、データサイエンス、倫理、など 11
(01):データ品質 • 生成AIシステムが信頼性が高く価値ある結果を生成するにはデータの高 品質確保が必須である。そのための手段例を以下に示す。 データ品質の課題に対する提案されるソリューション データ クリーニング データプロファイリングとデータ準備 データラベリング 欠損データの補完手法 アクティブラーニング データ検証とテスト アルゴリズムの公平性 データバイアスの緩和 継続的な監視とメンテナンス データリネージ 12
図の解説 (01)データクリーニング • データ内のエラー、欠損値、不整合、外れ値の特定/修正、など (02)データプロファイリングとデータ準備 • 欠落データ、重複データ、不一致などの特定、生データのAIアルゴリズムで 使用可能な形式への変換、など (03)データラベリング • データの特性を示すメタデータをタグ付け、など (04)欠損データの補完手法 • 平均補完、回帰補完、多重補完などによる補正、など (05)アクティブラーニング • トレーニングに最も有益なサンプルを反復的に選択、など (06)データ検証とテスト • データの正確性と完全性のチェック、パフォーマンスの評価、など (07)アルゴリズムの公平性 • モデルが特定のグループまたは個人に偏っていないことの確認、など (08)データバイアスの緩和 • データセットのバランス調整などでトレーニングデータの偏りを特定し対処、など (09)継続的な監視とメンテナンス • 継続的データ品質チェック、新しいデータによるモデル更新、再トレーニング、など (10)データリネージ • データの履歴を追跡し適切に使用されているか確認、など 13
(02):データ量 データの氾濫 • 大規模データセットはAIモデ ルのトレーニングには不可欠 で、規模と複雑さは増大し続 けている。 • そこで、効果的に使用するた めの課題が挙がる。 • その例を右図に示す。 ストレージの 課題 データアクセス バイアスと代 表性 処理の課題 データ量の 課題要素 データのプラ イバシーとセ キュリティ データ管理の 課題 データの異質 性 データ 管理 14
(01)データの氾濫 図の解説 • データ増加はAI成功の原動力だが、膨大な量のデータはデータ保存/処置/管理の 問題を引き起こす。 (02)ストレージの課題 • より効率的ストレージ処理法が必要である。分散ストレージシステム、など (03)処理の課題 • 膨大なコンピュータリソースが必要である。モデル圧縮、プルーニング、など (04)データ管理の課題 • 効率的なデータ管理手法が必要である。自動データ注釈、など (05)データの異質性 • 複数のリソースがあってデータ形式や構造が異なる場合などへの対応、など (06)データのプライバシーとセキュリティ • データ侵害やプライバシー侵害リスクへの対応、など (07)バイアスと代表性 • 大量データは代表性やバイアス欠如を保証しないので、その対応、など (08)データアクセス • データアクセスに必要なライセンス、など 15
(03):データのプライバシーとセキュリティ • データが安全に保存および処理され、プライバシー規制が順守されてい ることを確認することが重要である。対処すべき課題例を以下に示す。 データのデータのプライバシーとセキュリティの課題 データの収 集と共有 推論攻撃 差分プライ バシー 敵対的攻撃 データポイ ズニング 攻撃 モデルと データの改 ざん 16
図の解説 データプライバシーの課題 (01)データの収集と共有 • 大量データ収集が必要だが、データ共有契約が異なる国、地域、企業間ではデー タ共有に注意が必要である。 (02)推論攻撃 • 攻撃者はメンバーシップ推論攻撃を使用して個人情報を抽出したりする。 (03)差分プライバシー • データに制御されたノイズを追加することでプライバシーを保護する。 データセキュリティの課題 (04)敵対的攻撃 • 小さな変化が導入され、AIモデルが騙されて重大なリスクが生じる。 (05)データポイズニング攻撃 • トレーニングデータを改ざんしてAIモデルのパフォーマンスを低下させる。 (06)モデルとデータの改ざん • バックドア攻撃、トロイの木馬などでデータ自体を変更する。 17
(04):バイアスと公平性 • AIシステムが普及するに連れ、バイアスと公平性に関する懸念が浮上し ている。以下にデータバイアスの例を示す。 10種類のデータバイアス グループ帰属 バイアス 時間的 バイアス 測定バイアス ラベルバイ アス サンプリング バイアス 特徴選択 バイアス アンカリング バイアス 自動化 バイアス 集計バイアス 確証バイアス 18
図の解説 (01)測定バイアス • データ収集方法がデータの特徴を過大または過小に表す場合発生 (02)ラベルバイアス • ラベルが間違っているか、真の結果を代表していない場合発生 (03)サンプリングバイアス • 収集されたデータが対象の母集団を代表していない場合発生 (04)集計バイアス • 異なる特性または分布のソースからデータを結合した場合発生 (05)確証バイアス • データが選択的または重み付けて既存の信念や期待を支持する場合発生 (06)グループ帰属バイアス • 個人の行動を所属グループの特性で一般化/ステレオタイプ化した場合発生 (07)時間的バイアス • 現在の傾向やパターンを反映しなくなった履歴データでトレーニングの場合発生 (08)特徴選択バイアス • モデル開発中特定の特徴に重点が置かれ偏った結果につながった場合発生 (09)アンカリングバイアス • AIモデルが予測を行うため初期情報に大きく依存している場合発生 (10)自動化バイアス • AIシステムの出力に欠陥があったり偏っていても人間が出力に過度に依存する場合発生 19
(05):解釈可能性と説明可能性 • AIモデルは解釈や説明が難しい場合があり、透明で説明可能であること を確認する必要がある。これらの困難な要素例を以下に示す。 技術 ・本質的に解釈可能 なモデル ・ローカルな説明 ・視覚化技術 必要性 解釈可能性 と説明可能 性の挑戦的 な要素 パフォーマンスと 解釈可能性のト レードオフ 評価指標 20
図の解説 (01)必要性 • 解釈可能性と説明可能性の需要は信頼、説明責任、倫理的配慮の必 要性によって強く推進される必要がある。 (02)技術: 本質的に解釈可能なモデル、ローカルな説明、視覚化技術、など • それぞれ、決定木/線形回帰/ルールベースなどの本質的に解釈可能 なモデルで対処、単純で解釈可能なモデルで複雑なモデルの動作を 近似、高次元データで視覚化を表現、などがある。 (03)パフォーマンスと解釈可能性のトレードオフ • 解釈可能性の高いモデルは予測パフォーマンスの低下を受け入れざ るを得ないことが多いので、両者間のバランス確保が必要である。 (04)評価指標 • 解釈可能性と説明可能性を評価するための標準化された評価指標の 開発が必要である。 21
(06):技術的専門知識 • 社内に必要なAIスキルを持たない企業は、生成AIの取組みが困難な場合 がある。典型的な例を以下に示す。 熟練した専門 必要性 家の不足 2 1 技術 ・本質的に解釈可能 なモデル 倫理的な懸念 ・ローカルな説明 ・視覚化技術 技術的専門 知識 専門知識の需要が高い分野 AI関連の専門 パフォーマンスと 解釈可能性のト 知識に対する レードオフ 需要の高まり 3 4 ・コンピュータ サイエンスとコ ンピュータ エンジニアリング ・データ サイエンスと分析 ・人間とコンピュータの相互作用 評価指標 (HCI) と認知科学 ・倫理、哲学、ポリシー ・サイバーセキュリティとプライ バシー ・ロボット工学と自律システム 22
図の解説 (01)熟練した専門家の不足 • AI技術の急速な発展はAIシステムの複雑さと多様性に対応できる労 働力の成長を上回っている。この人材ギャップを埋める対応が必要 である。 (02)倫理的な懸念 • AI技術は慎重な検討と専門知識を必要とするさまざまな懸念を引き 起こす。この問題の対応には多様な関係者の学際的コラボレーショ ンが必要である。 (03) AI関連の専門知識に対する需要の高まり • さまざまな業界でのAI技術の採用増加によりAI関連専門知識に対す る需要は急増している。 (04)専門知識の需要が高い分野 (a) アルゴリズム開発、機械学習、ディープラーニング、自然言語処理、コンピュータ ビジョンのスキルを持つ専門家 (b) AI システムにおける大量データに特化したデータサイエンスと分析の専門家 (c) 人間とコンピュータの相互作用 (HCI) と認知科学に関わる専門家 (d) 倫理、哲学、ポリシーの分野で公平性、透明性、説明責任に関連する問題に対処しうる専門家 (e) サイバーセキュリティやプライバシーの分野で機密データを保護し、セキュリティを維持することに精通した専門家 (f) AI を搭載したロボット工学と自律システムが普及するにつれて、これらの制御システムなどの分野の専門家 23
3.データ中心AIの機構 データ中心AIが注目されるようになった理由 • 従来、AIモデルの性能が低かった際には、コード/アルゴリズムの改 善にのみ注意が払われてきた。 • このアプローチが有効なのは大量データが容易に集まるビジネス/ア プリケーション(言語モデル、テキスト分析、など)に限定される。 • 結果、大量の優れたデータが利用できない場合には適切なソリュー ションが提供できない懸念が生じる。 • この問題克服のため、巨大なデータセットの不足を補うソリュー ションが模索された。 • そして、データの品質や量が限定される領域でもAIの適応性(性能や 信頼性)を高めることを目指して登場したのがデータ中心AIである。 従来のモデル中心AIとの比較を次頁図に示す。 24
モデル中心AIとデータ中心AIの動作メカニズムの比較 モデル中心AIの概要 モデルの再構築/再トレーニング 問題定義 2 データ 収集 3 収集データの 前処理 4 5 AIモデル の展開 7 性能評価 コードの調整(モデルの性 能が良くない場合) データ中心AIの概要 外れ値の除去 改善されたデータによるモデル の再構築/再トレーニング 適時性 チェック 2 3 データ拡張 5 AIモデル の展開 性能評価 AIモデルコードの最 小限の調整 7 データの調整(モデルの性 能が良くない場合) 25
図の解説 モデル中心AI • 現実世界の問題を解決するために広く使用されている従来のモデ ル中心AIアプローチのワークフローである。 • 性能が良くない場合にはモデル(コード/アルゴリズム)を調整し て性能向上を試みる。 データ中心AI • 従来と比較するために、モデル中心AIとデータ中心AIの違いを強調 している(特にステップ 3 3とステップ 8 8)。 3 • :データはAIモデルに取込まれる前に複数の側面(完全性、正確性、 適時性、関連性、外れ値、欠損値、ラベル、サイズ、データソース 分析、注釈、データのバージョン管理、ドメイン分析、値の形式な ど)で評価され選別される。 8 • :性能が良くない場合はモデル(コード/アルゴリズム)だけでなく データも調整して性能向上を試みる。 26
データ中心AIの重点機能 • トレーニングデータ開発(収集データの前処理 3)が中心ではあるが、実 用的AIシステム構築には更に評価データの開発、データメインテナンス が必要になる。 • 全体構成を下記に示す。 データ中心AIミッションの全体像と代表的なタスク/サブタスク トレーニングデータの開発 評価データの開発 データメインテナンス データ視覚化 データスライシング データ収集 データ理解 データラベリング 分布内評価データ データ合成 データ品質保証 データ準備 データの接ぎ木 データ削減 データ拡張 データ評価 分布外評価データ 品質評価 品質改善 敵対的摂動 分布シフト 27
トレーニングデータの開発 データ収集 • ゼロからのデータセット構築、既存データセットからの関連部分の特定、複数 データセットの統合、など データラベリング • 手動によるラベル付け、少量のラベル付きデータに基づくラベル推測、特定状況 での反復的ラベル付け、など データ準備 • 生データを学習に適した形式に変換、クリーニング(欠損値の補完、重複の削除、 不整合の修正)、特徴抽出、など データ削減 • データ削減によるデータサイズ縮小、特徴選択や次元削減によるサイズ縮小、な ど データ拡張 • 多くのデータを収集する代わりに変更したサンプルを作成することでデータの多 様性を向上、など 28
評価データの開発 分布内評価データ:トレーニングデータと同じ分布に従うサンプルデータ データスライシング • 性別や人種などに基づいて元のデータの少なさを拡大、など データ合成 • 元の分布に従ってデータ作成(データが限定されている場合)、など アルゴリズムによる救済 • モデル境界に近い部分での合理的予測によるデータセットの作成、など 分布外評価データ:トレーニングデータと異なる分布に従うサンプルデータ データの接ぎ木 • 類似したデータ形式を持つ類似ドメインのデータを統合、など 敵対的摂動 • 堅牢性をテストするため元のサンプルに類似したサンプルを作成、など 分布シフト • 分布シフトに対する感度を評価するための意図的データの作成、など 29
データメインテナンス データ理解 :データを包括的に理解するためのアルゴリズム/ツール開発 データ視覚化 • 次元削減手法の適応などで人間がデータ分布を理解しやすくする、など データ評価 • どのタイプのデータが最も価値があるかを理解するための評価、など データ品質保証:モデルトレーニングの鍵となる。 品質評価 • データ品質を測定し潜在的欠陥やリスクを特定する為の評価指標の開発、など 品質改善 • 監視やフィードバック、多数決、ユーザ定義ルールによる品質改善、など データアクセラレータ :データの迅速な取得のためのインフラ構築 リソースの割り当て • データベース構築を管理してスループットを向上、など クエリアクセラレータ • クエリ処理中のディスクアクセス数最小化でワークロード削減、など 30
データ中心AIにおける自動化とコラボレーション • データ中心 AI はさまざまなデータライフサイクルに関連するさまざ まなタスクで構成される。 • そして、一部のタスクでは、プロセス合理化のため自動化アルゴリズ ムを開発することが不可欠になる。 • 一方、他の幾つかのタスクでは、データが意図に一致しているかを確 認するために人間の介在が不可欠である。 • 自動化には幾つかのレベルがある。人間の参加にも幾つかのレベルが ある。 学習ベースの 自動化 データ中心AI 関係の論文 プログラムに よる自動化 パイプライン の自動化 部分参加 完全参加 最低限の参加 31
自動化と人間参加のレベル 自動化のレベル プログラムによる自動化 • 多くの場合、ヒューリスティクと統計情報に基づいてプログラムが作られる。 学習ベースの自動化 • 最適化を伴う自動化戦略の学習など。学習に追加コストがかかる。 パイプラインの自動化 • 複数のタスクに渡る統合/調整など。大幅にコストが掛かる。 人間とのコラボレーションのレベル 完全参加 • 人間がプロセスを完全に制御。人間の意図と良く一致するがコストが掛かる。 部分参加 • 人間は大量フィードバック、頻繁な対話時などに集中して参加する。 最低限の参加 • システムが必要な場合にのみ人間に相談する。 全体としては効率(人間の労力が少ない)と有効性(人間との整合性が高い)のトレードオフ になる。 32
結局、データ中心AIとは・・ • ・・従来、経験豊富なデータサイエンティストが試行錯誤と 直観で手動でデータセットの改良を行ってきたものを、体系 的エンジニアリングとして捉え直したものと言うことができ る。 • データ中心AIは、モデルに重点を置くというのでなく、ト レーニングと評価に使用される基盤としてのデータに改めて 重点を置くという最近のトレンドを表している。 • 背景に、現在でもモデルが主流ではあるが、実際にはデータ セットの構造と使用に性能も信頼性も大きく依存しており、 また、労力とコストも掛かっていることがある。 • このため、データに関わるインフラストラクチャーと適切な 解が不足しているとの認識が高まったと考えられる。 33
4.データ中心AIの展望 モデル中心AIとデータ中心AIの定量分析/比較 • 主要な比較ポイントは精度、複雑性、あるいは精度を低下させない最小限のサンプル 数、偽陽性/偽陰性率、再現性などである。 • 鋼板検査シナリオが報告されている。【下記図の(a)は鋼板検査シートの概要、(b)はさまざまな 欠陥の例(赤いボックスが鋼板検査シートのさまざまな種類の欠陥)を示す】 モデル中心AIアプローチとデータ中心AIアプローチの定量的結果と比較を示す。 精度向上は得られず 精度が大幅に向上(90%以上) 34
データ中心AIが有効な領域 • データ中心AIは一モデルで全ての課題に対処するのが難しい(あるいは信頼性で課題発生な どのような)場合に有効である。 • 結果、固有データ量が少なく、特殊データ形式が多い産業分野などで有効である。 • 両アプローチの包括的比較を下記に示す。 基本的比較 技術的比較 比較基準 モデル中心AIアプローチ データ中心AIアプローチ 主な焦点 コード データ 研究者の焦点比率 90% <10% 研究期間 30年 ~3年 データ分析 1回 連続(n回) 精度 低い 高い 品質保証 なし あり 実践手法 コード第一 データ第一 比較基準 モデル中心AIアプローチ データ中心AIアプローチ ドリフト感受性 概念とデータの両方 なし データチェック トレーニングの前のみ ライフサイクル全体で フィードバック 遅くて不十分 タイムリーなフィードバック 結果の説明可能性 複雑 簡単 データ準備の手順 限定的 包括的 35
基本的比較から 表の解説 • 研究者の主要な関心事は依然としてモデル/アルゴリズムにある。 • データ中心AIで話題になる各種ツールは既に考えられてきたものもある。 • 新しいのは、個々のタスクを包括的に把握し如何にAIシステムの性能や 信頼性を挙げるかの視点である。 • このような取組みが注目されるようになった背景にアルゴリズムがコモ ディティ化し成果が上げ難くなったこともある。 技術的比較から • 第2節で述べたような、データに付帯する諸次元を認識し極力ノイズを 混入させない方法は、解釈可能性、説明可能性実現に有効である。 • しかし、当然ながら、このような手法は時間もコストもかかる。 • 従って、データ中心AIに重点を置く程度にはトレードオフがある。 • AI適応分野の拡大によって、データ中心AIアプローチがより評価される、 あるいは必須な領域が拡大して来ていると言える。 36
モデル中心AIと比較したデータ中心AIの利点 (1) AI技術による社会的リスクの低減 • AIの決定の背後にある公平性、信頼性、説明可能性および根拠の明確化のため (2) AI技術を活用して長年の業界の問題を効果的に解決 • 故障診断、予知保全、残存耐用年数分析、アラート、などによって (3) AIの現在のアプリケーションスタックの拡張 • 気候変動、環境、持続可能性、地震発生予測などへの取組みにも適応 (4)中小企業でも安価にAIを導入 • 売上・損失予測のためのChatGPT利用、大規模アプリケーションの小規模向け カスタマイズなどによって (5)計算リソースとインフラストラクチャのコスト節約 • 問題のある部分のデータ収集を2倍に(あるいは多く)するなど、データ取得の メリハリをつけることによって (6) AIシステムの寿命延長 • AIシステムにおけるデータ、概念、モデルのドリフト防止などの対応によって (7) AIシステムをより適切に制御 • AI技術を使用した壊滅的結果(または金銭的損失)を防ぐために制御するなどで 37
モデル中心AIとデータ中心AIを何時統合するか 両アプローチの統合が適当なように思えるが、背景分析、指針が必要である。 • 生成AI適応の拡大はさまざまな問題に直面する懸念を深めてお り、広範な採用の中でAI技術の是正も急務になっている。 • この文脈で、モデル中心AIとデータ中心AIの適切な統合は社会 の利益に貢献できる可能性がある。 • 典型的には、データ中心AIによるデータの変更がモデル中心AI によるコードの変更にもつながるので、両アプローチ間には多 様な相互作用の関係が推定できる。 • データ特性とコード特性に基づく代表的な両アプローチ間の相 互作用関係を次頁図に示す。 38
モデル中心AIとデータ中心AI間の相互作用の関係(概要) データ中心AI モデル中心AI データサイズ パラメータ調整 データ評価 学習アルゴリズム データモダリティ データ剪定 スパースAIモデル データ配置 モデルに依存しない データ多様性 マルチモデル 特徴に関する地図 AIモデルの安定性 悪いサンプル 39
図の解説 両アプローチ間の相互作用の関係例を示す。 • データサイズの変更には関係するモデルのパラメータ調整が必要である。 • データを評価するにはAIモデル(学習アルゴリズム)が必要である。 • AIモデルはデータモダリティに基づいて変更される。 • データの不適切な部分が削除(データ剪定)される場合、モデルもスパースであ ることが必要になる。 • データが整列している場合、ほとんどのモデルで動作できる(モデルに依存し ない)ことが必要になる。 • データが多様な場合、モデル間で一貫したパフォーマンスが得られるはずで ある。 • データプロパティの特徴マップ(特徴に関する地図)はAIモデルの安定性の確認 に役立つ。 • 間違ったデータ(悪いサンプル)が使用されるとモデルの堅牢性も低下するはず である、など 40
モデル中心AIとデータ中心AIの統合のケース 前述の状況を踏まえて、両方のパラダイムが必要になる 10 個の実際の状況と各パラダ イムの役割を示す。 モデル中心AIとデータ中心AI両パラダイムの統合が必要な状況の例 自動運転車 予測メンテ ナンス 伝染病対策 システム 異常検出 人間の活動 認識 データの整合性、一貫性、 新鮮度、信頼性 MLoP/TinyML 気候変動 時系列分析 音声アシスタント 公平性と 包括性 データの前処理、整理、品質の 向上、エラー分析 41
図の解説 モデル中心AIのみの結果が信頼できない場合 • 両アプローチを慎重に統合することで生成結果の信頼性を高められる場合がある。 • 背景に前頁リストの殆どがデータが複数ソースから発生していることがある。 特定の性能目標を満たす必要がある場合 • AIを使用して達成すべき性能目標が設定されていることがある。 • 鋼板検査シナリオでは目標精度が90%以上と設定されていた。 コンピューティングのオーバーヘッドが一定限度を超えて負担できない場合 • 生成AIではトレーニングのためのコンピュータ負荷がしばしば極めて高くなる。 • 小売業界などではデータを取得し過ぎる場合、必要なデータのみに限定する必要 性が高くなる。 AI システムの寿命の延長のため • しばしば外部条件でデータの完全性と適時性を無視せざるを得ないことがある。 • これは、AIシステムの再トレーニングや再開発で解決できることがある。 現実世界を代表するデータの可用性に制限がある場合 • 現実世界では高品質データを利用できないことがある。 • このような状況では既存データの改善などで不足を補う手法が貴重になる。 42
データ中心AIの展望 • 現在、データ中心AIで使用できる有効な技術は少ない。しかし、データ中 心AIと他AI技術との潜在的相乗効果によりデータ中心AIの応用範囲は拡大 される可能性がある。 • データ中心AIアプローチが有効か(あるいは必須か)区別できる手法はまだ ない。但し、このような手法が開発されれば有効な領域は拡大される可能 性がある。 • さまざまな領域で、どの程度の品質向上が必要か判断することは難しい。 しかし、アプリケーション毎に適切な分析手法が提供されて来る可能性は ある。 • データ中心AIは一種のデータに関するデバックとコンパイルに例えられる 作業と言える。従って、洗練された適切なツールの存在が必須なので、こ のようなツールへの認識が高まれば良い方向に移行する可能性がある。 • それぞれのAIアプリケーションに適したデータ中心AI技術の選択が重要で ある。これは事例の蓄積が進むにつれて改善して行くことを示唆する。 43
5.新たな生成AI時代の到来に向けて モデル中心AIとデータ中心AIを適切に組合わせて生成AI時代 の新たな高みを目指す データ中心AI活用の路を切り拓く データ中心AIシステムの利点 データ中心AIシステムの欠点 データセット当た りのトレーニング 量が少なくて済む 長期的な 効率性と 適応性 データ中心 AIの観点に おける利点 パフォーマンスの 最適化 堅牢かつ 公正なモ デル vs 膨大な データ量 データ中心 AIの観点に おける欠点 ツールは 開発段階 にある 44
図の解説 データ中心AIシステムの利点 • 特定のデータタイプに限定されず、テキスト、画像、音声、ビデオなど 複数ソースからのデータを活用した学習を実施できる。 • データ品質の適宜&抜本的な強化からモデル評価をより定期的に行うこ とができ、迅速なフィードバックを実施できる。 • それらの結果、1) データセット当たりのトレーニング量の削減、2) 長 期的な効率性と適応性の実現、3) パフォーマンスの最適化などを狙える。 データ中心AIシステムの欠点 • データ中心AI は有望な進歩と見做せ、今後に期待できるものの、まだ 十分に準備が整っておらず、当面は微妙なアプローチが必要になる。 • データとモデルを巧みに絡み合わせて相乗的に活用することが推奨さ れるが、発展途上のため、1) 当面利用できるツールを工夫して使用、 2) 高価な高品質データを一定のコスト負担許容で利用、3) 各種場面で の定期的な人間の努力が必要になる。 45
データ中心AIの課題 課題 内容 データの品質と量 トレーニングとテスト用に使用されるデータが高品質で十分な量であることを保証 不確実性への対応 データ不完全、ノイズ多、不確実性などに対処する確実な方法の開発 リアルタイム処理 データを迅速に処理しほぼリアルタイムで予測する効率的で効果的なアルゴリズムの開発 複数のデータソースの統合 異なるソースからの形式、構造、品質レベルが異なるデータの統合と分析 一般化 新しいデータや見たことのないデータに対しても一定の予測を一般化する手法 データのプライバシーとセ キュリティ 医療記録や財務データなど機密データや個人情報分析にAIを使用しても不正アクセスや誤 用から保護できる手法(匿名化や差分化など) 説明可能性と解釈可能性 医療, 金融, 刑事司法など機密性の高いアプリケーションでの生成結果に信頼性を保証 スケーラビリティと堅牢性 データ量の増大に対しても全データをタイムリーかつ効率的に処理、分析できる機能 マルチモーダルとマルチソー スデータ データの量と多様性が増加し、センサーデータ、ソーシャルメディア データ、その他の非 構造化データなどの複数ソースからデータを入手しても統合できる機能 因果関係と反事実的推論 予測や決定を行う為にAIを使用した際の、予測や決定の根底にある因果関係の明確化 人間とAIのコラボレーション 様々な領域にAIが統合されるにつれて人間と AI 間のより効果的なコラボレーション バイアスと公平性 トレーニングに使用されるデータが全体を代表していない場合でも、意図せず予測にバイ アスを導入させる危険性への対応(特に医療、金融、法執行などで) 他の技術との統合 センサー、IoT、ロボット工学など、独自の特性や制約がある対象との統合 倫理と規制 AI がより洗練され普及するにつれて重要になる、AI が仕事や社会に与える影響、AI シス テムの説明責任、AI の潜在的誤用などに対応できる倫理や規制上の対策 46
表の解説 課題と解決策 • 種々の課題はあるが、最大の課題はトレーニングやテスト用に使用され るデータが高品質で十分な量であることを保証することである。 • データが不完全で、ノイズが多い場合には、性能は低下し、予測は不正 確になるので、データの高品質&十分な量はデータ中心AIアプローチの 出発点になる。 • 従って、これを達成するためのステップが最重要になるが、3節, 4節で 論述の通り、いずれも時間がかかるし相当のコストがかかる。 • 他の多くの課題も、表面的にはモデル中心AIにおける課題と重複する課 題のように見えるが、実際にはデータ中心AIの目指す目標(信頼性向上 など)に向けて個別テーマはブレークダウンされる。 • 解決策は個別研究テーマの進捗に応じて、徐々に時間をかけて登場して くる。 47
データ取集と品質の課題についての補足 • 生成AIはデータに基づいて関数をトレーニングするが、出発点となる データ準備はコストが最もかかるステップとして知られている。 • データ収集、クリーニングとトレーニングに適した状態にするまでに、 全体の時間の45%、研究によっては80%かかるとの報告がある。 • にも拘わらず、研究の取組みは90%が関数(モデル/コード)、10%が データ準備に費やされており、この数字は逆であるべきとの不満もある。 • このような環境において、企業は, 1)データ不足と2)トレーニング済み モデルの説明可能性欠如を理由に生成AI利用を中止する傾向がある。 • 加えて、意図的にデータを汚染するデータポイズニングの問題もある。 • これらの課題を乗り越えた後でも全ての問題を解決したとの保証はない。 • データに問題が残る場合、それを改善するための汚れたデータへの対応、 欠落したデータへの対応などが必要になる。 • 課題は困難なので企業は長期的視野に立って取組むべきと言える。 48
データ中心AIは性能を向上させる • 一般的データセット(MNIST, CIFAR-10など)を使用して両アプローチの性能比較を行う。 • データ中心AIでは主としてノイズの多いラベルの修正などを実施する。 • 結果、データ中心AIの方が少なくとも3%程度性能でモデル中心AIより優れていた。 性能 一般的データセットの例 与えられたラベル 実際のラベル 49
モデル中心 AIとデータ中心 AIの統合アーキテクチャとして のモデルデータ中心 AIについて • 今後重要なリアルタイム処理などを効果的に機能させるためにも信頼性の高いデータは 不可欠になる。 • この考慮事項は基盤となるモデルにおいても同様の程度に重要である。 • そこで、両アプローチの統合が目標とされるが、この方向での問題解決の試みは現在初 期段階にある。 • 両アプローチを統合した一般的アーキテクチャ(下図)を構想し、両アプローチ間のバ ランスを確保する取組みを順次実施して行く必要がある。 データ アルゴリズム(A) モデル中心AI アルゴリズム(A) データ中心AI モデルデータ中心AI 50
最終まとめ 1. データ中心AIの取組みは始まったばかりであり、装備は不充 分で、使いこなす負担も大きい。 2. しかし、OpenAI社などの製品に丸ごと依存していただけで は、自社差別化の見通しがつけられないのも事実である。 3. そして、自社固有データを活用した独自差別化に挑戦しよう とすると、本稿のデータ中心AIの解説で取り上げた各種課題 そのもの、あるいは類似の課題に取り組まざるをえない。 4. 今後、生成AIの影響が長期的にますます高まって行くのは間 違いない。 5. このような状況を正当に認識すれば、長期的視野に立って、 本格的にデータ中心AIへの取組みと、それをモデル中心AIに も適切に統合して新たな価値創造を目指す目標は、当面の負 担は大きいものの合理的決断と言える。 51
編集後記 • データ中心AIはChatGPT登場(2022年11月)前の2021年, AI研究で著名なAndrew Ngによって提唱された。 • 良く知られた論文によるものと言うよりは、演説や雑誌記者とのインタビュー、 シンポジウム提唱などによるもので、概要はYoutubeでも公開されている Andrew Ng (https://www.youtube.com/watch?v=06-AZXmwHjo&t=217s)。 スタンフォード大 • Ng提唱のシンポジウムはThe International Workshop on Data-Centric AIとい 兼担教授 う名称で既に4回(2021~2024年)開催されている。 • 従って、シンポジウム発表論文などは多数あるが、技術的内容が多い。 • その中で本稿は敢えて技術的内容ではなく、一般企業が生成AIに取組む際の データ中心AIの意義などに焦点を当ててまとめてみた。 • このような姿勢の論文は、一般的論調の論文は幾つかあるが、細部に渡る考察 に取り組んだものは少ない。 • その中で、第3節、第4節で取り上げた論文は引用回数は少ないものの頑張って いた(また、第2節で取り上げた論文は引用件数が多く(349回), 著者達がQatar 大学の人達であることも興味深かった)。 • データ中心AI導入の事例については触れなかったが、第4節論文では例示のURL が多数あった。但し、個別事例に基づく本格的分析の段階にはなかったので、 今回は割愛した。 52
文献 https://spectrum.ieee.org/andrew-ng-data-centric-ai 53