生成AIの皮肉とガバナンス

2.6K Views

November 12, 24

#生成ai #モデル中心ai #データ中心ai #ガバナンス #自動化の皮肉 #生成AI #AIガバナンス #データ中心AI #生産性向上

スライド概要

生成AI活用に関する情報がネットに溢れている。しかし、個人が情報検索や要約、分類、翻訳程度の用途で使用するレベルを超えて、企業が投資に見合う生産性向上や収益性改善を狙う場合、そうそう簡単に取り組めるものでは無い様だ。その一方、NVIDIA株が持て囃されるなど、生成AI絡みの投資熱は続いている。今後はどうなって行くのだろうか？このような疑問は誰しもが持つ。これにヒントを得るには、企業が本格的に組織ぐるみで生成AIを導入していく場合、どのような課題があるのか？課題解決の取組みにはどのようなものがあるのか？などについて探索してみれば良いかと思われる。そこで、このような認識から関連する研究を探索しまとめたので、その結果を報告する。

高橋浩

@5451263343

スライド一覧

定年まで35年間あるIT企業に勤めていました。その後、大学教員を5年。定年になって、非常勤講師を少々と、ある標準化機関の顧問。そこも定年になって数年前にB-frontier研究所を立ち上げました。この名前で、IT関係の英語論文（経営学的視点のもの）をダウンロードし、その紹介と自分で考えた内容を取り交ぜて情報公開しています。幾つかの学会で学会発表なども。昔、ITバブル崩壊の直前、ダイヤモンド社からIT革命本「デジタル融合市場」を出版したこともあります。こんな経験が今に続く情報発信の原点です。

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

生成AIからエージェントAIへの移行の課題と展望

aiエージェントエージェントai 自律性ガバナンスエージェント介入リスク

高橋浩 8.6K

医療分野における大規模言語モデルの調査

医療医療llm 生成ai 医師免許試験デジタル化

高橋浩 5K

医療へのChatGPT & AIの適用

chatgpt イノベーションヘルスケア新サービス開発組織変革

高橋浩 5K

ChatGPT 機会課題影響

大規模言語モデル chatgpt 生成ai 商業化の壁 llm

高橋浩 4.9K

GPTは労働市場にどのような影響を与えるか

chatgpt 生成aiツール生産性向上生成aiの今後 llm

高橋浩 3.8K

価値創造と価値獲得

value creation value capture オープンイノベーションデジタル化 b2b業界価値創造と価値獲得のバランス

高橋浩 3.7K

各ページのテキスト

生成AIの皮肉とガバナンス - モデル中心AIとデータ中心AIの視点からの示唆 - B-frontier 研究所高橋浩 1

目的 • 生成AIの魅力と誇大宣伝もあって、企業組織への生成AI導入熱が激している。 • 他方、壁にぶつかり、生成AI使用禁止を言い出した企業や、禁止を検討している企業のニュースも増えている。 • 背景に、新技術導入で嘗ても発生した「自動化の皮肉」に直面していることも推定される。 • 生成AIがもたらす新たな機会や潜在的能力への期待は維持されているが、いよいよ本格普及の壁にぶつかった印象がある。 • このような状態では、過去の経験に照らして新しい環境に適応する地道な活動が求められる。 • また、市販生成AIの事前トレーニングに依存するだけでなく、自らデータ品質に関与する「データ中心AI」も試みる価値がある。 • 本稿は、このような認識から、関連する研究の紹介を通じて今一歩進んだ取組みを探索することを目的とする。

目次 1. 2. 3. 4. 5. はじめに生成AIの皮肉企業向け生成AIのガバナンスデータ中心AI 人間と生成AIの相互作用の展望 3

１．はじめに企業の生成AIへの取組み • 企業の 75% が ChatGPT等の生成AIの使用禁止または禁止の検討をしており、生成AI は組織にとって最大の懸念事項に浮上している。（英米豪日仏独オランダの2000人のIT意思決定者アンケート調査などから）。・・・ by E. Yu(Senior Contributing editor), ZDNET 2023.8.11 禁止の理由：データセキュリティ、プライバシー、ブランドの評判に対するリスク、セキュリティ保護されていないアプリケーションへの懸念、など • 但し、生成AIがもたらす機会は広く認識されており、また、職場で生成AIの利用を監視するようなことは多くの潜在的メリットを損なうとも考えられている。

企業組織へ生成AI導入の方向性生成AI導入を判断するためのポイント • 生成AIが成熟し規制が施行されて来るに連れ、組織への生成AI導入方針を柔軟に見直し導入の可能性を適切に評価する必要がある。 • 現場で使用される生成AIアプリケーションが適切に使用されているかどうかを判断するための可視性、監視、管理等のツールを適切に利用し、活用評価を継続的に行う必要がある。その他の取組むべき課題例：・過去の自動化で発生したトラブルにはどのような傾向があったか？・生成AI活用の最適化を図るためにはどのようなガバナンスが適当か？・データ品質を適切に維持するための生成AI活用法はどのようなものか？

課題を3視点で検討 • 航空業界の自動操縦など、新技術由来の自動化で「自動化の皮肉」を経験した過去の知見を集約し生成AI導入による自動化に活用する。生成AI導入で生産性が低下する要因のクローズアップ（２節） • 生成AI普及においても組織ガバナンスを維持し、生成AI由来の機会とリスクを適切に制御する。生成AIガバナンスのためのフレームワークの構築と普及（３節） • 「モデル中心AI」である市販製品に対しデータをより体系的、高品質に強化する「データ中心AI」の視点で補完を行う。「データ中心AI」導入でより高度な生成AI活用の実現（４節）

２．生成AIの皮肉生成AI導入により発生している現象 • 観察される事項： • プログラム開発分野（初心者のCopilot使用などで） • 認知負荷、フラストレーションの増加 • 生成AI利用によって場合によってはタスクに費やす時間が増加 • クリエイティブ分野 • グラフィックや製造製品デザインにおける苦労、など • これらの観察結果は人間と自動化の長い歴史に関わるヒューマンファクター研究で称される「自動化の皮肉」に類似 • 「人間の手動制御を機械が引き継いでいるにも関わらず、人間は依然として自動化を監視」している状態の登場 • 生成AIの文脈では、ユーザーの役割はコンテンツ作成からコンテンツ評価に移行しているにも関わらず、この状況に対する認識とサポートが不足している状態

「自動化の皮肉」からの教訓 • 30年以上の「自動化の皮肉」に関わるヒューマンファクター研究の蓄積がある。 • 生成AI導入システムで発生している課題は数十年前からの自動化によるワークフロー中断など、嘗ての課題と類似性がある。 • 類似性に基づいて生成AI導入による生産性低下が懸念されるポイントは、1)フィードバック、2)状況認識、3)認知作業負荷、4)ワークフロー中断、など • このような認識から生成AI活用に向けた視点を導出する。 • 生産性の低下につながる可能性のある主要な課題は、(i) 生産から評価への移行、(ii) 役に立たないワークフローの再構築、(iii) タスクの中断、(iv) タスクの複雑性の二極化、など • 潜在的な設計の方向性は、 (i) 継続的なフィードバック、(ii) システムのパーソナライゼーション、(iii) 生態学的インターフェース設計、(iv) メインタスクの安定化と中断のタイミング、(v) 明確なタスク割り当て、など

生成 AI起因の自動化における生産性向上の課題生産から評価への移行役に立たないワークフローの再構築プロンプトの実行タスクの中断タスクの複雑さの二極化出力の適応タスク順序の損失フィードバックの喪失

10.

図の解説 (a) 生産から評価への移行 • この移行によって、ユーザーの作業環境に関する状況認識は低下し、 AI 出力を評価するために必要な認知的負荷は増大する。 (b) 役に立たないワークフローの再構築 • これには、プロンプト実行や出力への適応などの新たなタスクの追加、 AI の提案やその他の変更によるタスク順序の損失、関連するコンテキストなしで AI の提案が提示された場合のフィードバックの喪失、などが含まれる。 (c) 自動化された AI の提案によるタスクの中断 • AIによるプログラムコードの自動生成などで発生する。 (d) タスクの複雑性の二極化 • 実際に実装すると、自動化によって簡単なタスクはより簡単になり、難しいタスクはより難しくなる傾向がある。

11.

(a) 生産から評価への移行次のような現象や課題が発生する可能性がある。状況認識の低下 • 作業内容が受動的なため監視者の能力が低下しやすい。自動化能力の高さ • 自動化能力の高さが逆に監視を困難にする面がある。自動化の複雑さと不透明性 • 生成AIの説明可能性が低いことが評価を困難にする面がある。自動化の信頼性 • 信頼性の低い自動化はそもそも監視できない。潜在的な自己満足と過度の依存 • 上述のような傾向の結果、エラー増加を生じさせる懸念がある。

12.

(b) 役に立たないワークフローの再構築次のような現象や課題が発生する可能性がある。新しいタスクとしてのプロンプト • モデルが処理できる程度のものに適応させる負担が大きい。出力の適応は新しいタスク • 生成された出力をワークフロー内に適応させるための負担が大きい。タスクの順序の喪失 • ワークフローに変更が発生することにより、タスク間の慣れ親しんだ手順を修正するための負担が大きい。フィードバックの喪失 • 自動化によってタスク実行力を評価するために必要なフィードバックが得られなくなる懸念がある。

13.

(c) 自動化された AI の提案によるタスクの中断タスクの中断 • 中断は人間の思考プロセスを混乱させる可能性があり、また、タスク間切り替え判断などに悪影響を及ぼす場合がある。 (d) タスクの複雑性の二極化タスク複雑性の二極化 • 自動化は簡単なタスクを容易化/効率化はできるが、認知的に要求の厳しいタスクは作業負荷を軽減できず、実際には残存タスクを困難にすることがある（「不器用な自動化」と呼ばれる）。

14.

ヒューマンファクターソリューションこれらの課題を軽減するアプローチとして次のようなことが考えられる。継続的なフィードバック • フィードバックは、慎重に設計された説明可能性機能と結び付け、システムが特定の方法で応答する理由、振る舞い、やり取りができるメンタルモデル構築で実現する。システムのパーソナライゼーション • ユーザーが作業方法を変更してシステムを理解し、適応させようとすると、認知的負荷が増大し生産性低下を起こすことがある。これを軽減するには、ユーザーが自分のタスクや作業方法に合わせてシステムを柔軟にパーソナライズする方法がある。生態学的インターフェース設計 • 生成AI システムをユーザーのワークフローに効果的に合わせるためには、生態学的インターフェース設計が効果的である。メインタスクの安定化と中断のタイミング • システムは、タスク安定化技術を組み込むかフロー状態に合わせて中断のタイミングを慎重に調整すると、ユーザーのフロー状態を維持しやすい。明確なタスク割り当て • 複雑性の二極化に対応するには、特に作業負荷が高い期間に、人間とシステムの間でタスクがどのように割り振るかを明確に指定することが有効である。

15.

生成AIの皮肉(中間まとめ) 生産性低下の要因 • 新技術由来の自動化で生産性低下が発生する現象は「自動化の皮肉」として知られて来た。 • この知見（４つの要因）を生成AI環境に適用することで、「自動化の皮肉」を克服できる可能性がある。課題を緩和する方向性 • 課題を緩和する設計論（５つのヒューマンファクター論）が蓄積されてきた。 • これらは主として生成AIガバナンスフレームワーク（3 節）の(iv)人々、(v)組織の設計に貢献できる。

16.

３．企業向け生成AIのガバナンス研究の目的 • 生成AI導入熱の拡大はガバナンスが不安定な組織にまで生成 AIを浸透させ、機会とリスクの両方をもたらしている。 • 但し、現在、企業組織向けに生成AI導入時の適切なガバナンスフレームワークは登場していない。 • このような状況で生成AIを導入すると、特定環境では生産性向上が実現される場合もあるが、企業組織に生成AI統合による潜在的リスク発生時のリスク軽減策などまでは考慮されていない。 • そこで、組織に生成AI導入/統合時のリスク軽減に資する総合的フレームワークが必要になる。 • 適切なガバナンス実現の調整ポイントは、範囲、対象、ガバナンス機構、目的などである。

17.

フレームワークの次元 • 生成AIガバナンスフレームワークがカバーすべき基本的な５つの次元を示す。 • AI導入で実績のあるフレームワーク(Schneider, 2022)に、生成AI で重要になる、1)ボトムアップのインセンティブ、2)ユーザー・プロンプト、3)人間とAIのコラボレーションなどを考慮して、要素として人々（顧客、ユーザー、従業員、など）を追加する。範囲 (ⅰ)データ前提条件内部要因外部要因 (ⅱ)モデルガバナンス機構構造的手続的関係性的対象 (ⅰ)データ (ⅱ)モデル (ⅲ)システム (ⅲ)システム (ⅳ)人々 (ⅳ)人々 (ⅴ)組織 (ⅴ)組織結果

18.

前提条件内部要因 • 組織文化、AI機能、タスク構造、組織戦略などが特定される。 • 組織文化に開放性が欠けていたり、充分なAI機能が不足の場合は、対象を絞って訓練や動機付けなどガバナンスリテラシーの拡充から始める必要がある。 • 顧客の信頼を特に重視する場合は、特定顧客向けには生成AIを適応しない選択肢もある。外部要因 • 国、法律と規制、業界などが特定される。 • 国と言語は生成AIアプリのカスタマイズやローカライズに大きな影響を与える。 • 規制の枠組みは形成過程にあるので、組織にとっては予測不可能性も生じる。 • 特定組織のガバナンスは業界固有の要因によっても影響を受ける。

19.

(ⅰ)データの範囲と対象データの範囲 • データの種類、データソース、モダリティ、ラベル、目的、配布、環境に対する考慮などが特定される。 • データの種類は構造化、非構造化があり、主にテキスト、画像、音声などの非構造化データでトレーニングされることが多い。最先端モデルの多くはマルチモーダルである。 • データソースには市販生成AIのトレーニングに使用される大量データの他に、特定用途向けのデータの品質や適時性も重要になる。データ対象 • データの量と品質などが特定される。 • データ品質では適時性、正確性、ノイズの多寡がある。 • これらの管理は極めて難しく、仮に高品質であれば特定タスクに対する最適化を少数サンプルで実現できることがある。 • また、堅牢性を保ちながら記憶容量を減らす重複回避、有害データフィルタリングなどの手段もある。

20.

(ⅱ)モデルの範囲と対象モデルの範囲 • トレーニング、カスタマイズ、学習、ホスティング、エラーに関する考慮などが特定される。 • 生成AIは教師なし学習の一種である自己教師あり学習が増えている。 • プロンプトの一種のソフトプロンプトでは入力前に仮想トークンを追加することで性能向上を計れることもある。モデル対象 • モデルの品質、人間とAIの連携、安全性とセキュリティ、モデルのライフサイクルなどが特定される。 • 出力の正確性を損なう幻覚、推論の欠陥はLLM固有の問題であり、 RAGなどの使用によっても部分的にしか軽減できない。 • プロンプトの小さな変更がモデル出力の大きな変更につながる不安定さも存在する。

21.

(ⅲ)システムの範囲と対象システムの範囲 • データソース、システムの自律性と人間との相互作用の程度、アーキテクチャーなどが特定される。 • システムはプロンプト指示に応答してデータベースや外部ソースからデータを取得しプロンプト関連情報をLLMに提供する。 • 生成AIシステムは超人的パフォーマンスによってより自律的に動作するので、自律性の程度はガバナンスにも大きな影響を与える。システム対象 • パフォーマンス、人間とAIとのコラボレーション促進、説明責任と透明性、モデル対応などが特定される。 • システム対象はモデル対象と絡み合い重複する部分もある（セキュリティの一部など）。 • システムセキュリティは回復力なども包含する。 • 説明責任にはある程度のトレーサビリティ機能が必要である。

22.

人々の範囲 (ⅳ)人々の範囲と対象 • システムの計画、開発、使用に携わる利害関係者などが特定される。 • これには生成AIによる変革の影響、リスクの影響が及ぶグループや社会も含まれる。 • この影響範囲は生成AIの浸透に応じて徐々に着実に拡大して行く。 • 結果、生成AIの文脈では利害関係者グループ間の境界線は徐々に曖昧になって行く。人々対象 • IP漏洩などのリスク対応、生成AI使用と評価に携わる人間スキルなどが特定される。 • 技術的、実践的な倫理トレーニングは重要であり、初期段階から組み込む必要がある。 • 生成AI出力に対する誤った信頼や過度の依存リスクを軽減するための批判的思考力トレーニングも重要である。

23.

(ⅴ)組織の範囲と対象組織の範囲 • 組織内と組織間は区別される。 • 組織内は生成AI以前の時代と比べると、より広範なアプリケーションと複雑なリスクがあり、より困難になる。 • 組織間は新しいAIサプライチェーンに不可欠なアクターが追加される。 • 結果、モデル固有のリスクを軽減するための制御と責任は組織間ネットワーク全体に広がる。組織目標 • ガバナンスの調整、特に部門間の調整が重要になる。 • 生成AI活用は、個々の従業員または部門からボトムアップで生まれる可能性があるため、独自のガバナンス機構を開発する必要がある。

24.

ガバナンス機構構造的ガバナンス • 役割や意思決定権限の場所である組織が含まれる。 • ドメイン、倫理、法律、AIの専門家を含む委員会、あるいは製品の安全なリリースに責任を負う開発企業を含む専門機関などが必要な場合がある。 • 国によってAI規制に対するアプローチが異なるので、このような側面への対応も必要になる。手順的ガバナンス • 意思決定の方法と行動の実行方法に関わる。 • ビジネス目標に向けたガバナンス戦略も含まれる。 • AIリクスの管理、人々を主役に据えること、生産性計画の策定、エコシステムの構築、など • リリース時の考慮事項には社会的懸念、悪意のある使用、監査可能性、説明責任なども含まれる。

25.

ガバナンス機構と結果関係性的ガバナンス • 意思決定にコミュニケーション、トレーニング、調整を組み込むことで利害関係者間のコラボレーションを支援する。 • 社会的透明性はAI使用が社会に与える要因を可視化するのに貢献する。結果 • 効果的な生成AIガバナンスは種々の方法で企業目標の達成に貢献する。 • 従業員の効率性向上、顧客満足度の向上、など • リスク管理もIP漏洩リスクの軽減、評価リスクの軽減、法的リスクの軽減などに貢献する。 • 全体図を次頁に示す。

26.

組織向け生成AI ガバナンスのフレームワーク先行事例内部要因: 文化, AI 機能, 戦略,タスク構造, など外部要因: 国, 法律と規制, 業界, などスコープガバナンス機構対象データタイプ: 非構造化/構造化ソース: 人間/非人間, 内部/3rdﾊﾟｰﾃｨモダリティ: テキスト/画像/音声… 環境: 静的/動的モデル：トレーニング：非/自己/教師あり/強化カスタマイゼーション：微調整/プロンプト学習：オンライン/オフライン/文脈内ホスティングと開発：内部/外部エラー：幻覚, 推論脆弱性: プロンプトハッキング、データ漏洩システムアーキテクチャー自律性と人間との相互作用 (+モデル範囲: エラー、脆弱性、ホスティング) 構造的メカニズム: 役割と責任意思決定権限の所在データ品質、データの質とバイアスデータの値データセキュリティライフサイクルとドリフトメタデータと系譜人々: 開発者、評価者、ｴﾝﾄﾞﾕｰｻﾞｰ開発者とｴﾝﾄﾞﾕｰｻﾞｰによるカスタマイズ組織: 組織内: タスクレベル/企業レベル組織間: 複数の企業/エコシステム手続的メカニズム: 戦略ポリシー、標準、プロセス、手順コンプライアンス監視問題管理パフォーマンス管理関係性的メカニズム: コミュニケーショントレーニング意思決定の調整モデル品質：正確性、堅牢性、予測不確実性、効率性人間とAIの整合性：共感、倫理と法律、安全性、セキュリティとプライバシーライフサイクルシステム性能人間とAIの連携：アクセシビリティの説明責任と透明性（+モデルの目標）人材活用スキル：個人/チーム企業価値との整合性知的財産、ノウハウ漏洩への考慮組織ガバナンスの調整エコシステムと機会の活用結果パフォーマンスへの影響リスク管理人々への影響調整、など

27.

図の解説 1. 生成AIは、(i)ボトムアップ（展開やガバナンスが従業員や企業の各部門によって推進される可能性）、(ii)基盤モデルの特性により技術的に制御することが難しい、(iii)AI動作を形成する上で重要な利害関係者の範囲が広い、という特徴がある。 2. これを踏まえて「人々」を追加した。 3. エンドユーザーは効率的な開発者ともなり得るが、誤った出力や有害な出力のリスクを軽減する責任も担っている。この役割の変化も考慮する必要がある。 4. また、(i)生成AIモデルの規模の拡大、(ii)より複雑なトレーニング手順の登場、(iii)マルチモーダルデータによってもたらされる技術的複雑さの増大、なども考慮しなければならない。 5. 結果、生成AI以前のフレームワークと比較してデータとモデルのガバナンスの範囲は大幅に拡大し、新しいガバナンス対象が導入され、対象の優先順位も変更になっていることを考慮する必要がある。

28.

企業向け生成AIのガバナンス(中間まとめ) 既存 • AI導入時の企業向けガバナンスフレームワークとしてSchneider(2022)案が知られている。 • 倫理などに特化したフレームワークは多数あるが、企業向けに特化したフレームワークは少ない。今回 • このフレームワークを基礎にして（ボトムアップ、人間とAIのコラボレーションなど）生成AI特有の人々を追加して全体を見直した。 • 生成AIは極めて広範に浸透して行くものなので、各次元間、各要素間の境界が曖昧化して行くのも特徴である。 Johannes Schneider ﾘﾋﾃﾝｼｭﾀｲﾝ大学準教授効用 • 全体ガバナンスに利用できる他に、他節と組合わせたより細かい利用も可能になる。 • 2節：(iv)人々、(v)組織とヒューマンファクター論との組合せ • 4節：(i)データ、(ii)モデルとデータ中心AIとの組合せ

29.

４．データ中心AI データ中心AIの登場 • 適切なデータの品質と量の提供が AI システムに与える影響については従来見落とされがちであった。 • 2021年、Andrew Ng によって推進され出したデータ中心 AI (DCAI:Data Centric AI)は新しい方向性を示している。 Andrew Ng ｽﾀﾝﾌｫｰﾄﾞ大兼担教授モデル中心AIのライフサイクル繰り返し１繰り返し2~n データ前処理ハイパーパラメータの最適化同じデータを使用したモデルの改善データ中心AIのデータ改善を統合したライフサイクルデータ前処理繰り返し１エラー分析 (例: データの不適合やデータの不整合) データ変更 (例: データ拡張) データ品質評価 (例: データベンチマーク) 繰り返し2~n

30.

データ中心AIの目的 • データ中心AIはデータセットを体系的に設計し、データの品質と量の適切な調整によってAIシステムの性能を向上させることに重点を置く。 • この新しいパラダイムは、単により多くのデータの取得を目指すのではなく、より適切なデータの取得を目指す。 • データ中心AIはさまざまな分野（例えば、(i) 機械学習とデータサイエンス、(ii) データエンジニアリング、(iii) 情報システム、など）の研究を結集して、現実世界で生成AIを含む機械学習アプローチを改善することを目的とする。

31.

モデル中心AIとデータ中心AI モデル中心AI • 効果的で効率的なAIシステムを構築するのに適切なモデルの種類、アーキテクチャー、などの選択に重点を置いたパラダイム • 但し、実際のデータセットに対して複雑なモデル改善に重点を置いても性能の大幅向上が期待できなくなってきている。 • そこで、従来無視されがちであったデータに関心を移し、より体系的なデータ作業によってデータを改善した上でトレーニングしなおすことで、効率的AIシステムの構築を目指す機運が高まっている。データ中心AI • 効果的で効率的なAIシステムを構築するのにデータの体系的設計とエンジニアリングが不可欠であることを強調するパラダイム

32.

AIシステム開発のための新たな補完的パラダイムとしてのデータ中心AI • データ中心AIはモデル中心AIとは逆にモデルを固定する。 • 性能向上はデータの品質と量を改善することで実現する。 • データ作業は半自動化ツールの開発によっても補完される。 • データ中心AIはモデル中心AIと補完関係にあり、理想的にはAI システムは最終的に両パラダイムが組込まれるのが望ましい。モデル中心AI データ中心AI モデルを体系的に強化データを体系的に強化補完データモデルデータモデル

33.

データ中心AIの３つの側面 1) 既存データの改良(インスタンスレベルでデータ品質を向上) • 特徴品質の向上(例: 画像内の破損したピクセルの半自動識別) • ラベル品質の向上(例: ラベルエラーの半自動識別) 2) 既存データの改良(データセットレベルでデータ品質を向上) • 関連性の高いインスタンスの量を増やす (例: 重要なエッジケースの半自動拡張)。 • 低品質のインスタンスの量を減らす (例: データ品質レベル別にデータセットをグループ化する半自動ツール)。 • 関連性の高い機能の量を増やす (例: 合成機能生成用の半自動ツール)。 • 意味のない機能の量を減らす (例: 無関係な機能の半自動識別)。 3) 追加データ取得によるデータの拡張(データセットレベルで盲点の新規データを取得） • 新しいインスタンスを取得する(例: 必要な追加画像の種類を半自動で推定する) • 新しい機能を取得する(例: 追加センサーの利点を半自動で評価する) • 新しいラベルを取得する(例: ラベル付け画像の順序を決定する半自動ツール)

34.

データ改良とデータ拡張の特徴とツール • データ改良は既存データの操作によるデータ品質向上である。 • データ拡張はデータ量の増加によるデータ品質向上である。 • これらの実践には適当なツールが必要である。 • 現在、幾つかの対応する手段が存在はするが、データを体系的に設計およびエンジニアリングする手段は欠けている。 • 商用アプリケーションの例を下記に示す。ツールの目的商品名ラベルエラーの識別 cleanlab.ai ラベル付けサポート prodi.gy 合成データの生成 gretel.ai 異常検出 Microsoft Azure エッジケースの識別 iMerit edge case 視覚的なデータ探索 tableau.com 1) データ改良 2) データ改良 (インスタンスレベル) (データセットレベル) 3) データ拡張〇〇〇〇〇〇〇〇〇〇

35.

データ中心AIの概念を取り込んだ情報システム • データ中心AIはモデル中心AIを補完することでAIシステムを根本的に改善できる可能性がある。 • データ中心AIはより効率的な情報システムの設計と運用に関われる。 • ３つの領域が識別できる。組織間レベルデータ組織レベルデータ理解データ品質の測定データ中心 AI のためのデータ共有 AIベースのシステム個人レベル人間と AI システムにおけるデータ中心性 AI ベースシステムの開発組織間の AI ベースシステム 35

36.

個人レベル • 大規模データセットの中から関連性の高い高品質データサブセットを正確かつ頻繁に選択する処理が必要になる。 • 複雑なデータパターンに関する洞察を得るにはデータの視覚化と解釈可能性を探索する方法の研究およびツール開発が必要になる。 • インタラクティブなダッシュボードはユーザーがさまざまな視点からデータを探索し分析するのに役立つ。 • データ中心AIは社会的側面と技術的側面の両方を取込んでいるので、データ作業は本質的に人間中心の作業である。 • データ中心AIでは対象領域の知識へのアクセスのため、AIループ内に一人以上の人間が必要であり、データ作業の効率化は人間が関与するシステムにおける人間とAIとの相互作用によって促進される。 36

37.

組織レベル • 実データセットのデータ品質を強化するには、データの完全性、特徴精度の向上、ラベル精度の向上、モデルに与える影響の監視、などが必要になる。 • リアルタイムデータやセンサー取得データを扱う際には、データ検証と妥当性確認のための強化も必要になる。 • これらの実施のためには、改善手段の特定とこれを支援するツールが必要である。 • データ品質の測定方法を変革し反復的データ作業プロセス全体に渡る継続的監視が重視される。 • この枠組みによる全体図を次頁に示す。 37

38.

データ中心AI を考慮した標準プロセス黒ボックスはデータ中心 AI の役割、灰色ボックスは主要なプロセスの役割を示している。データ中心AI の焦点領域ドメイン知識ビジネス理解データの理解データ準備ビジネス展開モデリング評価 38

39.

組織間レベル • 多くの場合、関連データはさまざまな組織に分散しているので、データ中心AIではデータ共有と組織間協力が重要なテーマになる。 • AIを組織間で利用するにはデータ共有に加えてローカルでトレーニングされたモデルをも共有する必要がある。 • データ共有無しで、モデルのみを共有する場合もあり得るが、その際は組織間で個々のモデル毎に高度のデータ品質を確保することはかなり困難な作業になる。 • このような状況を緩和するためにも、分散データセット間でのデータ作業を容易化するための方法の確立と自動化、半自動化ツールの開発が必要になる。 39

40.

データ中心AI（中間まとめ） • データはあらゆるAIシステムにとって不可欠な要素である。 • 従って、データ中心AIへの取組みと、それに伴って発生する AIシステム開発におけるデータ作業の効率化は重要な意味を持つ。 • データ中心AIというパラダイムはAIシステムのパフォーマンスを大幅に向上させる可能性を保有している。 • 一方、その可能性を開花させるには、データ中心AIの概念を取り込んだ情報システムの詳細化と、開発を容易化する自動化と半自動化ツールの特定および開発が必要である。

41.

５．人間と生成AIの相互作用の展望全体を通した統合 1節 1. 生成AI導入の現実的課題が組織に懸念を生じさせている。 2節 2. その懸念は「自動化の皮肉」と称される嘗ての経験と類似している部分があり、過去の知見が現在の課題解決や緩和に有用である。 3節 3. 但し、生成AI導入範囲は極めて広いので、過去の知見適用レベルでは全く不足で、ガバナンス全体の再評価が必要になる。その際、生成AI特有の「人々」の側面が重要になる。 4節 4. また、生成AIの本質的課題に幻覚などの問題がある。これらへの緩和に向けても施策がないと適応範囲は限定される。これにはモデル中心AIを補完するデータ中心AIが有効である可能性がある。但し、より高レベルのAIシステム構築が期待される反面、今後の課題はかなり多い。

42.

ガバナンス構成図(3節)に２節,４節を統合した図 4節)モデル中心AIとデータ中心AI (ⅰ)データ (ⅱ)モデル (ⅲ)システム (✙コスト) 4節)データ中心AIベースの個人レベル (ⅳ)人々組織レベル組織間レベル (ⅴ)組織 2節)ヒューマンファクターソリューション生成AIで重要な人々/組織主体の統合的ガバナンス

43.

図の解説 3節関係 • 生成AI導入には、1)ボトムアップのインセンティブ、2)ユーザー・プロンプト、3)人間とAIのコラボレーション、など独特の側面があるので、これを踏まえ「人々」も加えてガバナンス構造を再評価している。 2節関係 • このうち生成AI由来の自動化に関する課題は、過去の「自動化の皮肉」の知見を援用すると有効な場合がある。 4節関係 • また、データに起因する生成AIの本質的課題（幻覚など）に本格的に対応する施策がないと、信頼性が重要な多くの分野への真の生成AI普及や拡大は望めない。 4節関係 • これに向けてはデータ中心AIが有効と考えられるので、個人レベル、組織レベル、組織間レベル、などと分けて検討を深める必要がある。但し、現在は多数の課題が存在している。

44.

生成AI導入に向けた示唆 1節 • 潜在的な適応形態の広さと、それ故の潜在的リスクを充分に認識できているか？ 2節 • 能動的活動（生産など）から受動的活動（評価など）への移行のような変化が人間の行動に与える影響および阻害要因が充分に認識できているか？ • 人間と生成AIとの相互作用による生産性低下のような新たな事態を回避する工夫が充分に把握できているか？ 3節 • 組織が生成AIの価値を引き出しながらリスクを軽減するためのガバナンスフレームワークを充分認識できているか？ • ガバナンスがボトムアップに（即ち、企業の従業員や各部門で個別に）対応されるような状況を充分に理解できているか？

45.

生成AI導入に向けた示唆（続） 4節 • 市販生成AIの利用で充分に想定適用分野に向けた信頼性確保が可能と考えられるか？ • 不安がある場合、自主的にデータ品質向上に向けてデータ中心AIのような取組みが可能な状態にあるか？ • このような取組みに躊躇する場合、何が一番大きなネットと考えられるか？・・技術力、資金力、人材、あるいはタイムスケジュール、など • このような質問への回答模索と、人間と生成AIとの相互作用の繰り返しを通じて今後の展望が拓けてゆくものと思われる。

46.

全体まとめ 1. 企業の懸念を払拭し、信頼性が重要な多くの分野も含めて、真に生成AI普及や拡大を実現し、企業の生産性向上や収益性向上を目指せる見通しが立たなければ、生成AI向けの過大な投資は正当化されない。 2. 生成AI活用はともすると適応し易い分野に偏る危険性があり、この路を進み過ぎると、困難な問題のみが人間に残され、生成AI活用は早晩壁に突き当たる。 3. そうならないためには生成AI由来の幻覚などの本質的課題へも見通しを示す必要がある。 4. データ中心AIは、現在見えている、生成AI活用に向けた本質的対応策の一つと評価できる。 5. これに向けてはデータ中心AIを取込んだシステムの問題とも考えられるので、具体的には、個人レベル、組織レベル、組織間レベルなどと分けて更なる検討が必要である。多数の課題が存在しており、今後かなりの努力が必要と思われる。

47.

文献 https://www.zdnet.com/article/75-of-businesses-areimplementing-or-considering-bans-on-chatgpt/

https://www.zdnet.com/article/75-of-businesses-are-implementing-or-considering-bans-on-chatgpt/