1.8K Views
November 12, 24
スライド概要
生成AI活用に関する情報がネットに溢れている。しかし、個人が情報検索や要約、分類、翻訳程度の用途で使用するレベルを超えて、企業が投資に見合う生産性向上や収益性改善を狙う場合、そうそう簡単に取り組めるものでは無い様だ。その一方、NVIDIA株が持て囃されるなど、生成AI絡みの投資熱は続いている。今後はどうなって行くのだろうか?このような疑問は誰しもが持つ。これにヒントを得るには、企業が本格的に組織ぐるみで生成AIを導入していく場合、どのような課題があるのか?課題解決の取組みにはどのようなものがあるのか?などについて探索してみれば良いかと思われる。そこで、このような認識から関連する研究を探索しまとめたので、その結果を報告する。
定年まで35年間あるIT企業に勤めていました。その後、大学教員を5年。定年になって、非常勤講師を少々と、ある標準化機関の顧問。そこも定年になって数年前にB-frontier研究所を立ち上げました。この名前で、IT関係の英語論文(経営学的視点のもの)をダウンロードし、その紹介と自分で考えた内容を取り交ぜて情報公開しています。幾つかの学会で学会発表なども。昔、ITバブル崩壊の直前、ダイヤモンド社からIT革命本「デジタル融合市場」を出版したこともあります。こんな経験が今に続く情報発信の原点です。
生成AIの皮肉とガバナンス - モデル中心AIとデータ中心AIの視点からの示唆 - B-frontier 研究所 高橋 浩 1
目的 • 生成AIの魅力と誇大宣伝もあって、企業組織への生成AI導入熱が激 している。 • 他方、壁にぶつかり、生成AI使用禁止を言い出した企業や、禁止を 検討している企業のニュースも増えている。 • 背景に、新技術導入で嘗ても発生した「自動化の皮肉」に直面して いることも推定される。 • 生成AIがもたらす新たな機会や潜在的能力への期待は維持されてい るが、いよいよ本格普及の壁にぶつかった印象がある。 • このような状態では、過去の経験に照らして新しい環境に適応する 地道な活動が求められる。 • また、市販生成AIの事前トレーニングに依存するだけでなく、自ら データ品質に関与する「データ中心AI」も試みる価値がある。 • 本稿は、このような認識から、関連する研究の紹介を通じて今一歩 進んだ取組みを探索することを目的とする。
目次 1. 2. 3. 4. 5. はじめに 生成AIの皮肉 企業向け生成AIのガバナンス データ中心AI 人間と生成AIの相互作用の展望 3
1.はじめに 企業の生成AIへの取組み • 企業の 75% が ChatGPT等の生成AIの使用禁止または禁止の 検討をしており、生成AI は組織にとって最大の懸念事項に 浮上している。 (英米豪日仏独オランダの2000人のIT意思決定者アンケート調査などから)。 ・・・ by E. Yu(Senior Contributing editor), ZDNET 2023.8.11 禁止の理由:データセキュリティ、プライバシー、ブランド の評判に対するリスク、セキュリティ保護されていないアプ リケーションへの懸念、など • 但し、生成AIがもたらす機会は広く認識されており、また、 職場で生成AIの利用を監視するようなことは多くの潜在的メ リットを損なうとも考えられている。
企業組織へ生成AI導入の方向性 生成AI導入を判断するためのポイント • 生成AIが成熟し規制が施行されて来るに連れ、組織への生成AI導 入方針を柔軟に見直し導入の可能性を適切に評価する必要がある。 • 現場で使用される生成AIアプリケーションが適切に使用されてい るかどうかを判断するための可視性、監視、管理等のツールを適 切に利用し、活用評価を継続的に行う必要がある。 その他の取組むべき課題例: ・過去の自動化で発生したトラブルにはどのような傾向があったか? ・生成AI活用の最適化を図るためにはどのようなガバナンスが適当か? ・データ品質を適切に維持するための生成AI活用法はどのようなものか?
課題を3視点で検討 • 航空業界の自動操縦など、新技術由来の自動化で「自動化の 皮肉」を経験した過去の知見を集約し生成AI導入による自動 化に活用する。 生成AI導入で生産性が低下する要因のクローズアップ(2節) • 生成AI普及においても組織ガバナンスを維持し、生成AI由来 の機会とリスクを適切に制御する。 生成AIガバナンスのためのフレームワークの構築と普及(3節) • 「モデル中心AI」である市販製品に対しデータをより体系的、 高品質に強化する「データ中心AI」の視点で補完を行う。 「データ中心AI」導入でより高度な生成AI活用の実現(4節)
2.生成AIの皮肉 生成AI導入により発生している現象 • 観察される事項: • プログラム開発分野(初心者のCopilot使用などで) • 認知負荷、フラストレーションの増加 • 生成AI利用によって場合によってはタスクに費やす時間が増加 • クリエイティブ分野 • グラフィックや製造製品デザインにおける苦労、など • これらの観察結果は人間と自動化の長い歴史に関わるヒュー マンファクター研究で称される「自動化の皮肉」に類似 • 「人間の手動制御を機械が引き継いでいるにも関わらず、人間は依 然として自動化を監視」している状態の登場 • 生成AIの文脈では、ユーザーの役割はコンテンツ作成からコ ンテンツ評価に移行しているにも関わらず、この状況に対す る認識とサポートが不足している状態
「自動化の皮肉」からの教訓 • 30年以上の「自動化の皮肉」に関わるヒューマンファク ター研究の蓄積がある。 • 生成AI導入システムで発生している課題は数十年前からの自動化に よるワークフロー中断など、嘗ての課題と類似性がある。 • 類似性に基づいて生成AI導入による生産性低下が懸念されるポイン トは、1)フィードバック、2)状況認識、3)認知作業負荷、4)ワーク フロー中断、など • このような認識から生成AI活用に向けた視点を導出する。 • 生産性の低下につながる可能性のある主要な課題は、(i) 生産から 評価への移行、(ii) 役に立たないワークフローの再構築、(iii) タス クの中断、(iv) タスクの複雑性の二極化、など • 潜在的な設計の方向性は、 (i) 継続的なフィードバック、(ii) シス テムのパーソナライゼーション、(iii) 生態学的インターフェース設 計、(iv) メインタスクの安定化と中断のタイミング、(v) 明確なタ スク割り当て、など
生成 AI起因の自動化における生産性向上の課題 生産から評価への移行 役に立たないワークフローの再構築 プロンプトの実行 タスクの中断 タスクの複雑さの二極化 出力の適応 タスク順序の 損失 フィードバッ クの喪失
図の解説 (a) 生産から評価への移行 • この移行によって、ユーザーの作業環境に関する状況認識は低下し、 AI 出力を評価するために必要な認知的負荷は増大する。 (b) 役に立たないワークフローの再構築 • これには、プロンプト実行や出力への適応などの新たなタスクの追加、 AI の提案やその他の変更によるタスク順序の損失、関連するコンテキス トなしで AI の提案が提示された場合のフィードバックの喪失、などが含 まれる。 (c) 自動化された AI の提案によるタスクの中断 • AIによるプログラムコードの自動生成などで発生する。 (d) タスクの複雑性の二極化 • 実際に実装すると、自動化によって簡単なタスクはより簡単になり、 難しいタスクはより難しくなる傾向がある。
(a) 生産から評価への移行 次のような現象や課題が発生する可能性がある。 状況認識の低下 • 作業内容が受動的なため監視者の能力が低下しやすい。 自動化能力の高さ • 自動化能力の高さが逆に監視を困難にする面がある。 自動化の複雑さと不透明性 • 生成AIの説明可能性が低いことが評価を困難にする面がある。 自動化の信頼性 • 信頼性の低い自動化はそもそも監視できない。 潜在的な自己満足と過度の依存 • 上述のような傾向の結果、エラー増加を生じさせる懸念がある。
(b) 役に立たないワークフローの再構築 次のような現象や課題が発生する可能性がある。 新しいタスクとしてのプロンプト • モデルが処理できる程度のものに適応させる負担が大きい。 出力の適応は新しいタスク • 生成された出力をワークフロー内に適応させるための負担が大きい。 タスクの順序の喪失 • ワークフローに変更が発生することにより、タスク間の慣れ親しん だ手順を修正するための負担が大きい。 フィードバックの喪失 • 自動化によってタスク実行力を評価するために必要なフィードバッ クが得られなくなる懸念がある。
(c) 自動化された AI の提案によるタスクの中断 タスクの中断 • 中断は人間の思考プロセスを混乱させる可能性があり、また、タス ク間切り替え判断などに悪影響を及ぼす場合がある。 (d) タスクの複雑性の二極化 タスク複雑性の二極化 • 自動化は簡単なタスクを容易化/効率化はできるが、認知的に要求 の厳しいタスクは作業負荷を軽減できず、実際には残存タスクを困 難にすることがある(「不器用な自動化」と呼ばれる)。
ヒューマンファクターソリューション これらの課題を軽減するアプローチとして次のようなことが考えられる。 継続的なフィードバック • フィードバックは、慎重に設計された説明可能性機能と結び付け、システムが特定の 方法で応答する理由、振る舞い、やり取りができるメンタルモデル構築で実現する。 システムのパーソナライゼーション • ユーザーが作業方法を変更してシステムを理解し、適応させようとすると、認知的 負荷が増大し生産性低下を起こすことがある。これを軽減するには、ユーザーが自 分のタスクや作業方法に合わせてシステムを柔軟にパーソナライズする方法がある。 生態学的インターフェース設計 • 生成AI システムをユーザーのワークフローに効果的に合わせるためには、生態学的 インターフェース設計が効果的である。 メインタスクの安定化と中断のタイミング • システムは、タスク安定化技術を組み込むかフロー状態に合わせて中断のタイミン グを慎重に調整すると、ユーザーのフロー状態を維持しやすい。 明確なタスク割り当て • 複雑性の二極化に対応するには、特に作業負荷が高い期間に、人間とシステムの 間でタスクがどのように割り振るかを明確に指定することが有効である。
生成AIの皮肉(中間まとめ) 生産性低下の要因 • 新技術由来の自動化で生産性低下が発生する現象は「自 動化の皮肉」として知られて来た。 • この知見(4つの要因)を生成AI環境に適用することで、 「自動化の皮肉」を克服できる可能性がある。 課題を緩和する方向性 • 課題を緩和する設計論(5つのヒューマンファクター 論)が蓄積されてきた。 • これらは主として生成AIガバナンスフレームワーク(3 節)の(iv)人々、(v)組織の設計に貢献できる。
3.企業向け生成AIのガバナンス 研究の目的 • 生成AI導入熱の拡大はガバナンスが不安定な組織にまで生成 AIを浸透させ、機会とリスクの両方をもたらしている。 • 但し、現在、企業組織向けに生成AI導入時の適切なガバナン スフレームワークは登場していない。 • このような状況で生成AIを導入すると、特定環境では生産性 向上が実現される場合もあるが、企業組織に生成AI統合によ る潜在的リスク発生時のリスク軽減策などまでは考慮されて いない。 • そこで、組織に生成AI導入/統合時のリスク軽減に資する総 合的フレームワークが必要になる。 • 適切なガバナンス実現の調整ポイントは、範囲、対象、ガバ ナンス機構、目的などである。
フレームワークの次元 • 生成AIガバナンスフレームワークがカバーすべき基本的な5つの 次元を示す。 • AI導入で実績のあるフレームワーク(Schneider, 2022)に、生成AI で重要になる、1)ボトムアップのインセンティブ、2)ユーザー・ プロンプト、3)人間とAIのコラボレーションなどを考慮して、要 素として人々(顧客、ユーザー、従業員、など)を追加する。 範囲 (ⅰ)データ 前提条件 内部要因 外部要因 (ⅱ)モデル ガバナンス機構 構造的 手続的 関係性的 対象 (ⅰ)データ (ⅱ)モデル (ⅲ)システム (ⅲ)システム (ⅳ)人々 (ⅳ)人々 (ⅴ)組織 (ⅴ)組織 結果
前提条件 内部要因 • 組織文化、AI機能、タスク構造、組織戦略などが特定される。 • 組織文化に開放性が欠けていたり、充分なAI機能が不足の場合は、 対象を絞って訓練や動機付けなどガバナンスリテラシーの拡充か ら始める必要がある。 • 顧客の信頼を特に重視する場合は、特定顧客向けには生成AIを適 応しない選択肢もある。 外部要因 • 国、法律と規制、業界などが特定される。 • 国と言語は生成AIアプリのカスタマイズやローカライズに大きな影 響を与える。 • 規制の枠組みは形成過程にあるので、組織にとっては予測不可能性 も生じる。 • 特定組織のガバナンスは業界固有の要因によっても影響を受ける。
(ⅰ)データの範囲と対象 データの範囲 • データの種類、データソース、モダリティ、ラベル、目的、配布、 環境に対する考慮などが特定される。 • データの種類は構造化、非構造化があり、主にテキスト、画像、音 声などの非構造化データでトレーニングされることが多い。最先端 モデルの多くはマルチモーダルである。 • データソースには市販生成AIのトレーニングに使用される大量デー タの他に、特定用途向けのデータの品質や適時性も重要になる。 データ対象 • データの量と品質などが特定される。 • データ品質では適時性、正確性、ノイズの多寡がある。 • これらの管理は極めて難しく、仮に高品質であれば特定タスクに対 する最適化を少数サンプルで実現できることがある。 • また、堅牢性を保ちながら記憶容量を減らす重複回避、有害データ フィルタリングなどの手段もある。
(ⅱ)モデルの範囲と対象 モデルの範囲 • トレーニング、カスタマイズ、学習、ホスティング、エラーに関 する考慮などが特定される。 • 生成AIは教師なし学習の一種である自己教師あり学習が増えてい る。 • プロンプトの一種のソフトプロンプトでは入力前に仮想トークン を追加することで性能向上を計れることもある。 モデル対象 • モデルの品質、人間とAIの連携、安全性とセキュリティ、モデルの ライフサイクルなどが特定される。 • 出力の正確性を損なう幻覚、推論の欠陥はLLM固有の問題であり、 RAGなどの使用によっても部分的にしか軽減できない。 • プロンプトの小さな変更がモデル出力の大きな変更につながる不安 定さも存在する。
(ⅲ)システムの範囲と対象 システムの範囲 • データソース、システムの自律性と人間との相互作用の程度、 アーキテクチャーなどが特定される。 • システムはプロンプト指示に応答してデータベースや外部ソース からデータを取得しプロンプト関連情報をLLMに提供する。 • 生成AIシステムは超人的パフォーマンスによってより自律的に動 作するので、自律性の程度はガバナンスにも大きな影響を与える。 システム対象 • パフォーマンス、人間とAIとのコラボレーション促進、説明責任と 透明性、モデル対応などが特定される。 • システム対象はモデル対象と絡み合い重複する部分もある(セキュ リティの一部など)。 • システムセキュリティは回復力なども包含する。 • 説明責任にはある程度のトレーサビリティ機能が必要である。
人々の範囲 (ⅳ)人々の範囲と対象 • システムの計画、開発、使用に携わる利害関係者などが特定され る。 • これには生成AIによる変革の影響、リスクの影響が及ぶグループ や社会も含まれる。 • この影響範囲は生成AIの浸透に応じて徐々に着実に拡大して行く。 • 結果、生成AIの文脈では利害関係者グループ間の境界線は徐々に 曖昧になって行く。 人々対象 • IP漏洩などのリスク対応、生成AI使用と評価に携わる人間スキルな どが特定される。 • 技術的、実践的な倫理トレーニングは重要であり、初期段階から組 み込む必要がある。 • 生成AI出力に対する誤った信頼や過度の依存リスクを軽減するため の批判的思考力トレーニングも重要である。
(ⅴ)組織の範囲と対象 組織の範囲 • 組織内と組織間は区別される。 • 組織内は生成AI以前の時代と比べると、より広範なアプリケー ションと複雑なリスクがあり、より困難になる。 • 組織間は新しいAIサプライチェーンに不可欠なアクターが追加さ れる。 • 結果、モデル固有のリスクを軽減するための制御と責任は組織間 ネットワーク全体に広がる。 組織目標 • ガバナンスの調整、特に部門間の調整が重要になる。 • 生成AI活用は、個々の従業員または部門からボトムアップで生まれ る可能性があるため、独自のガバナンス機構を開発する必要がある。
ガバナンス機構 構造的ガバナンス • 役割や意思決定権限の場所である組織が含まれる。 • ドメイン、倫理、法律、AIの専門家を含む委員会、あるいは製品 の安全なリリースに責任を負う開発企業を含む専門機関などが必 要な場合がある。 • 国によってAI規制に対するアプローチが異なるので、このような 側面への対応も必要になる。 手順的ガバナンス • 意思決定の方法と行動の実行方法に関わる。 • ビジネス目標に向けたガバナンス戦略も含まれる。 • AIリクスの管理、人々を主役に据えること、生産性計画の策定、エコシステ ムの構築、など • リリース時の考慮事項には社会的懸念、悪意のある使用、監査可能 性、説明責任なども含まれる。
ガバナンス機構と結果 関係性的ガバナンス • 意思決定にコミュニケーション、トレーニング、調整を組み込む ことで利害関係者間のコラボレーションを支援する。 • 社会的透明性はAI使用が社会に与える要因を可視化するのに貢献 する。 結果 • 効果的な生成AIガバナンスは種々の方法で企業目標の達成に貢献す る。 • 従業員の効率性向上、顧客満足度の向上、など • リスク管理もIP漏洩リスクの軽減、評価リスクの軽減、法的リスク の軽減などに貢献する。 • 全体図を次頁に示す。
組織向け 生成AI ガバナンスのフレームワーク 先行事例 内部要因: 文化, AI 機能, 戦 略,タスク構造, など 外部要因: 国, 法律と規制, 業界, など スコープ ガバナンス機構 対象 データタイプ: 非構造化/構造化 ソース: 人間/非人間, 内部/3rdパーティ モダリティ: テキスト/画像/音声… 環境: 静的/動的 モデル:トレーニング:非/自己/教師 あり/強化 カスタマイゼーション:微調整/プロン プト 学習:オンライン/オフライン/文脈内 ホスティングと開発:内部/外部 エラー:幻覚, 推論 脆弱性: プロンプトハッキング、データ 漏洩 システムアーキテクチャー 自律性と人間との相互作用 (+モデル範囲: エラー、脆弱性、ホス ティング) 構造的メカニズム: 役割と責任 意思決定権限の所在 データ品質、データの質とバイアス データの値 データセキュリティ ライフサイクルとドリフト メタデータと系譜 人々: 開発者、評価者、エンドユーザー 開発者とエンドユーザーによるカスタマイズ 組織: 組織内: タスクレベル/企業レベル 組織間: 複数の企業/エコシステム 手続的メカニズム: 戦略 ポリシー、標準、プロセス、手順 コンプライアンス監視 問題管理 パフォーマンス管理 関係性的メカニズム: コミュニケーション トレーニング 意思決定の調整 モデル品質:正確性、堅牢性、予測 不確実性、効率性 人間とAIの整合性:共感、倫理と法 律、安全性、セキュリティとプライ バシー ライフサイクル システム性能 人間とAIの連携:アクセシビリ ティの説明責任と透明性(+モデ ルの目標) 人材活用スキル:個人/チーム 企業価値との整合性 知的財産、ノウハウ漏洩への考慮 組織ガバナンスの調整 エコシステムと機会の活用 結果 パフォーマン スへの影響 リスク管理 人々への影響 調整、など
図の解説 1. 生成AIは、(i)ボトムアップ(展開やガバナンスが従業員や企業の 各部門によって推進される可能性)、(ii)基盤モデルの特性によ り技術的に制御することが難しい、(iii)AI動作を形成する上で重 要な利害関係者の範囲が広い、という特徴がある。 2. これを踏まえて「人々」を追加した。 3. エンドユーザーは効率的な開発者ともなり得るが、誤った出力や 有害な出力のリスクを軽減する責任も担っている。この役割の変 化も考慮する必要がある。 4. また、(i)生成AIモデルの規模の拡大、(ii)より複雑なトレーニン グ手順の登場、(iii)マルチモーダルデータによってもたらされる 技術的複雑さの増大、なども考慮しなければならない。 5. 結果、生成AI以前のフレームワークと比較してデータとモデルの ガバナンスの範囲は大幅に拡大し、新しいガバナンス対象が導入 され、対象の優先順位も変更になっていることを考慮する必要が ある。
企業向け生成AIのガバナンス(中間まとめ) 既存 • AI導入時の企業向けガバナンスフレームワークとし てSchneider(2022)案が知られている。 • 倫理などに特化したフレームワークは多数あるが、 企業向けに特化したフレームワークは少ない。 今回 • このフレームワークを基礎にして(ボトムアップ、人間 とAIのコラボレーションなど)生成AI特有の人々を追加 して全体を見直した。 • 生成AIは極めて広範に浸透して行くものなので、各次元 間、各要素間の境界が曖昧化して行くのも特徴である。 Johannes Schneider リヒテンシュタイン大学準教授 効用 • 全体ガバナンスに利用できる他に、他節と組合わせたより細 かい利用も可能になる。 • 2節:(iv)人々、(v)組織とヒューマンファクター論との組合せ • 4節:(i)データ、(ii)モデルとデータ中心AIとの組合せ
4.データ中心AI データ中心AIの登場 • 適切なデータの品質と量の提供が AI システムに与える影 響については従来見落とされがちであった。 • 2021年、Andrew Ng によって推進され出したデータ中心 AI (DCAI:Data Centric AI)は新しい方向性を示している。 Andrew Ng スタンフォード大 兼担教授 モデル中心AIのライフサイクル 繰り返し1 繰り返し2~n データ前処理 ハイパーパラメータの最適化 同じデータを使用したモデルの改善 データ中心AIのデータ改善を統合したライフサイクル データ前処理 繰り返し1 エラー分析 (例: データの不適合やデータの不整合) データ変更 (例: データ拡張) データ品質評価 (例: データ ベンチマーク) 繰り返し2~n
データ中心AIの目的 • データ中心AIはデータセットを体系的に設計し、データの品 質と量の適切な調整によってAIシステムの性能を向上させる ことに重点を置く。 • この新しいパラダイムは、単により多くのデータの取得を目 指すのではなく、より適切なデータの取得を目指す。 • データ中心AIはさまざまな分野(例えば、(i) 機械学習と データサイエンス、(ii) データエンジニアリング、(iii) 情報 システム、など)の研究を結集して、現実世界で生成AIを含 む機械学習アプローチを改善することを目的とする。
モデル中心AIとデータ中心AI モデル中心AI • 効果的で効率的なAIシステムを構築するのに適切なモデルの種 類、アーキテクチャー、などの選択に重点を置いたパラダイム • 但し、実際のデータセットに対して複雑なモデル改善に重点 を置いても性能の大幅向上が期待できなくなってきている。 • そこで、従来無視されがちであったデータに関心を移し、よ り体系的なデータ作業によってデータを改善した上でトレー ニングしなおすことで、効率的AIシステムの構築を目指す機 運が高まっている。 データ中心AI • 効果的で効率的なAIシステムを構築するのにデータの体系的設計 とエンジニアリングが不可欠であることを強調するパラダイム
AIシステム開発のための新たな補完的パラダイ ムとしてのデータ中心AI • データ中心AIはモデル中心AIとは逆にモデルを固定する。 • 性能向上はデータの品質と量を改善することで実現する。 • データ作業は半自動化ツールの開発によっても補完される。 • データ中心AIはモデル中心AIと補完関係にあり、理想的にはAI システムは最終的に両パラダイムが組込まれるのが望ましい。 モデル中心AI データ中心AI モデルを体系的に強化 データを体系的に強化 補完 データ モデル データ モデル
データ中心AIの3つの側面 1) 既存データの改良(インスタンスレベルでデータ品質を向上) • 特徴品質の向上(例: 画像内の破損したピクセルの半自動識別) • ラベル品質の向上(例: ラベルエラーの半自動識別) 2) 既存データの改良(データセットレベルでデータ品質を向上) • 関連性の高いインスタンスの量を増やす (例: 重要なエッジ ケースの半自 動拡張)。 • 低品質のインスタンスの量を減らす (例: データ品質レベル別にデータセッ トをグループ化する半自動ツール)。 • 関連性の高い機能の量を増やす (例: 合成機能生成用の半自動ツール)。 • 意味のない機能の量を減らす (例: 無関係な機能の半自動識別)。 3) 追加データ取得によるデータの拡張(データセットレベルで盲点の新 規データを取得) • 新しいインスタンスを取得する(例: 必要な追加画像の種類を半自動で推定する) • 新しい機能を取得する(例: 追加センサーの利点を半自動で評価する) • 新しいラベルを取得する(例: ラベル付け画像の順序を決定する半自動ツール)
データ改良とデータ拡張の特徴とツール • データ改良は既存データの操作によるデータ品質向上である。 • データ拡張はデータ量の増加によるデータ品質向上である。 • これらの実践には適当なツールが必要である。 • 現在、幾つかの対応する手段が存在はするが、データを体系的に 設計およびエンジニアリングする手段は欠けている。 • 商用アプリケーションの例を下記に示す。 ツールの目的 商品名 ラベルエラーの識別 cleanlab.ai ラベル付けサポート prodi.gy 合成データの生成 gretel.ai 異常検出 Microsoft Azure エッジケースの識別 iMerit edge case 視覚的なデータ探索 tableau.com 1) データ改良 2) データ改良 (インスタンスレベル) (データセットレベル) 3) データ拡張 〇 〇 〇 〇 〇 〇 〇 〇 〇 〇
データ中心AIの概念を取り込んだ情報システム • データ中心AIはモデル中心AIを補完することでAIシステムを根本的 に改善できる可能性がある。 • データ中心AIはより効率的な情報システムの設計と運用に関われる。 • 3つの領域が識別できる。 組織間レベル データ 組織レベル データ理解 データ品質 の測定 データ中心 AI のための データ共有 AIベースの システム 個人レベル 人間と AI シス テムにおける データ中心性 AI ベースシ ステムの開発 組織間の AI ベース システム 35
個人レベル • 大規模データセットの中から関連性の高い高品質データサブセット を正確かつ頻繁に選択する処理が必要になる。 • 複雑なデータパターンに関する洞察を得るにはデータの視覚化と解 釈可能性を探索する方法の研究およびツール開発が必要になる。 • インタラクティブなダッシュボードはユーザーがさまざまな視点か らデータを探索し分析するのに役立つ。 • データ中心AIは社会的側面と技術的側面の両方を取込んでいるので、 データ作業は本質的に人間中心の作業である。 • データ中心AIでは対象領域の知識へのアクセスのため、AIループ内 に一人以上の人間が必要であり、データ作業の効率化は人間が関与 するシステムにおける人間とAIとの相互作用によって促進される。 36
組織レベル • 実データセットのデータ品質を強化するには、データの完全性、 特徴精度の向上、ラベル精度の向上、モデルに与える影響の監 視、などが必要になる。 • リアルタイムデータやセンサー取得データを扱う際には、デー タ検証と妥当性確認のための強化も必要になる。 • これらの実施のためには、改善手段の特定とこれを支援する ツールが必要である。 • データ品質の測定方法を変革し反復的データ作業プロセス全体 に渡る継続的監視が重視される。 • この枠組みによる全体図を次頁に示す。 37
データ中心AI を考慮した標準プロセス 黒ボックスはデータ中心 AI の役割、灰色ボックスは主要なプロセスの役割を示している。 データ中心AI の焦点領域 ドメイン知識 ビジネス理解 データの理解 データ準備 ビジネス展開 モデリング 評価 38
組織間レベル • 多くの場合、関連データはさまざまな組織に分散しているので、 データ中心AIではデータ共有と組織間協力が重要なテーマにな る。 • AIを組織間で利用するにはデータ共有に加えてローカルでト レーニングされたモデルをも共有する必要がある。 • データ共有無しで、モデルのみを共有する場合もあり得るが、 その際は組織間で個々のモデル毎に高度のデータ品質を確保す ることはかなり困難な作業になる。 • このような状況を緩和するためにも、分散データセット間での データ作業を容易化するための方法の確立と自動化、半自動化 ツールの開発が必要になる。 39
データ中心AI(中間まとめ) • データはあらゆるAIシステムにとって不可欠な要素である。 • 従って、データ中心AIへの取組みと、それに伴って発生する AIシステム開発におけるデータ作業の効率化は重要な意味を 持つ。 • データ中心AIというパラダイムはAIシステムのパフォーマン スを大幅に向上させる可能性を保有している。 • 一方、その可能性を開花させるには、データ中心AIの概念を 取り込んだ情報システムの詳細化と、開発を容易化する自動 化と半自動化ツールの特定および開発が必要である。
5.人間と生成AIの相互作用の展望 全体を通した統合 1節 1. 生成AI導入の現実的課題が組織に懸念を生じさせている。 2節 2. その懸念は「自動化の皮肉」と称される嘗ての経験と類似し ている部分があり、過去の知見が現在の課題解決や緩和に有 用である。 3節 3. 但し、生成AI導入範囲は極めて広いので、過去の知見適用レ ベルでは全く不足で、ガバナンス全体の再評価が必要になる。 その際、生成AI特有の「人々」の側面が重要になる。 4節 4. また、生成AIの本質的課題に幻覚などの問題がある。これら への緩和に向けても施策がないと適応範囲は限定される。こ れにはモデル中心AIを補完するデータ中心AIが有効である可 能性がある。但し、より高レベルのAIシステム構築が期待さ れる反面、今後の課題はかなり多い。
ガバナンス構成図(3節)に2節,4節を統合した図 4節)モデル中心AIとデータ中心AI (ⅰ)データ (ⅱ)モデル (ⅲ)システム (✙コスト) 4節)データ中心AIベースの 個人レベル (ⅳ)人々 組織レベル 組織間レベル (ⅴ)組織 2節)ヒューマンファクターソリューション 生成AIで重要な人々/組織 主体の統合的ガバナンス
図の解説 3節関係 • 生成AI導入には、1)ボトムアップのインセンティブ、2)ユー ザー・プロンプト、3)人間とAIのコラボレーション、など独特 の側面があるので、これを踏まえ「人々」も加えてガバナンス 構造を再評価している。 2節関係 • このうち生成AI由来の自動化に関する課題は、過去の「自動化 の皮肉」の知見を援用すると有効な場合がある。 4節関係 • また、データに起因する生成AIの本質的課題(幻覚など)に本 格的に対応する施策がないと、信頼性が重要な多くの分野への 真の生成AI普及や拡大は望めない。 4節関係 • これに向けてはデータ中心AIが有効と考えられるので、個人レ ベル、組織レベル、組織間レベル、などと分けて検討を深める 必要がある。但し、現在は多数の課題が存在している。
生成AI導入に向けた示唆 1節 • 潜在的な適応形態の広さと、それ故の潜在的リスクを充分 に認識できているか? 2節 • 能動的活動(生産など)から受動的活動(評価など)への 移行のような変化が人間の行動に与える影響および阻害要 因が充分に認識できているか? • 人間と生成AIとの相互作用による生産性低下のような新た な事態を回避する工夫が充分に把握できているか? 3節 • 組織が生成AIの価値を引き出しながらリスクを軽減するた めのガバナンスフレームワークを充分認識できているか? • ガバナンスがボトムアップに(即ち、企業の従業員や各部 門で個別に)対応されるような状況を充分に理解できてい るか?
生成AI導入に向けた示唆(続) 4節 • 市販生成AIの利用で充分に想定適用分野に向けた信頼性確保 が可能と考えられるか? • 不安がある場合、自主的にデータ品質向上に向けてデータ中 心AIのような取組みが可能な状態にあるか? • このような取組みに躊躇する場合、何が一番大きなネットと 考えられるか? ・・技術力、資金力、人材、あるいはタイムスケジュール、など • このような質問への回答模索と、人間と生成AIとの相互作用の繰 り返しを通じて今後の展望が拓けてゆくものと思われる。
全体まとめ 1. 企業の懸念を払拭し、信頼性が重要な多くの分野も含めて、真に 生成AI普及や拡大を実現し、企業の生産性向上や収益性向上を目 指せる見通しが立たなければ、生成AI向けの過大な投資は正当化 されない。 2. 生成AI活用はともすると適応し易い分野に偏る危険性があり、こ の路を進み過ぎると、困難な問題のみが人間に残され、生成AI活 用は早晩壁に突き当たる。 3. そうならないためには生成AI由来の幻覚などの本質的課題へも見 通しを示す必要がある。 4. データ中心AIは、現在見えている、生成AI活用に向けた本質的対 応策の一つと評価できる。 5. これに向けてはデータ中心AIを取込んだシステムの問題とも考え られるので、具体的には、個人レベル、組織レベル、組織間レベ ルなどと分けて更なる検討が必要である。多数の課題が存在して おり、今後かなりの努力が必要と思われる。
文献 https://www.zdnet.com/article/75-of-businesses-areimplementing-or-considering-bans-on-chatgpt/