101 Views
August 06, 24
スライド概要
直前にアップした「社会科学の生成AI(&LLM)への適応」の付属資料
定年まで35年間あるIT企業に勤めていました。その後、大学教員を5年。定年になって、非常勤講師を少々と、ある標準化機関の顧問。そこも定年になって数年前にB-frontier研究所を立ち上げました。この名前で、IT関係の英語論文(経営学的視点のもの)をダウンロードし、その紹介と自分で考えた内容を取り交ぜて情報公開しています。幾つかの学会で学会発表なども。昔、ITバブル崩壊の直前、ダイヤモンド社からIT革命本「デジタル融合市場」を出版したこともあります。こんな経験が今に続く情報発信の原点です。
社 会 科 学 の 生 成 AI( & LLM) へ の 適 応 〇高橋 浩 ( B-frontier 研 究 所 ) 1.はじめに 生成 AI(&LLM)適応が各方面に拡大をみせて いる。そして、人間が生成したデータに基づいて 人間によってトレーニングされ、人間によって利 用される LLM が、本質的に社会技術的システム であることがますます明らかになっている。これ は生成 AI(&LLM)に関する課題が基本的に社会 技術的課題であることを意味する。この状況を端 的に可視化するには、多様な社会の振る舞いを分 析する社会科学の生成 AI(&LLM)への適応を探 索するのが適当である。本稿は、このような認識から、 図1.計算社会科学(CSS)の領域 社会技術的課題への生成 AI(&LLM)適応を主として社 団、社会や経済などと幅広く、これまでにない解像度 会科学者が LLM を使用して研究を行う視点で観察す とスケールで研究されている[2]( 図1)。日本でも CSS る。そうすることで、今後の AI と人間の関係性の理解 を研究する計算社会科学会が設立され活動している。 本稿のテーマは CSS と深く係わるので、LLM が CSS を深めることを目的とする。 を再変革できるかどうかに焦点を当てる。CSS の最も 基本認識: 人間が生成したデータに基づいて人間によってトレ 進んだ計算手法は教師あり学習モデル(人間がタグ付 ーニングされ、人間によって利用される LLM が、本質 与)だが、タグ付け作業の負担が問題になっていた。 的に社会技術的システムであるならば、注目されがち そこで、もし LLM が多くの CSS タスクをゼロショッ な LLM の技術的課題に捕らわれ過ぎると、LLM の責 ト (対 象 タ ス ク 向 け の カ ス タ ム デ ー タ ト レ ー ニ ン グ な 任ある開発や展開に疑念を生じる可能性がある。即ち、 し)で実行できれば CSS を強化/変革できる。 LLM に係わる課題の大部分は技術と社会の相互作用 と利害関係者間のコラボレーションを考慮した社会技 術的アプローチで対処する必要がある。 2. LLM は CSS(計算社会科学)を変革できるか? ゼロショット LLM が各種の社会現象を確実に分類 し説明できるなら、LLM は CSS を大幅に強化できる AI と社会科学研究の変遷: LLM の進歩は社会科学研究に劇的な影響を与えた。 との視点から、スタンフォード大学を中心としたチー その結果、人間の行動に関する理論や仮説を大規模か ムが大規模な実験を行なった[3]。実験は第1実験、第 つ迅速にテストできる機会が提供されることになった。 2実験からなる。実験の概念図を図2に示す。 従来の社会科学研究では、アンケート、 行動テスト、半構造化質問への応答分析、 エージェントベースモデル(ABM)、観察、 実験などに依存してきた。しかし、2009 年デジタル時代の社会科 学 として計算社 会 科 学 (CSS: computational social science)が登場し大きな変革があった[1]。 これは、「複雑で通常は大規模な人間の行 動データに対する計算手法の開発と適用」 と定義されている。検討対象は、個人と集 図2.CSS に対する LLM の可能性評価の実験概念図
第1実験:CSS 各種タスクに LLM 適応の評価 成内容がソース文書およびタスクの定義と一致してい CSS タスク各種(縦軸)とゼロショット LLM モデ るか?2)一貫性:生成内容が適切に構造化され、整理 ル各種(横軸)を比較した(表1)。 前者は、1)発言 されているか?3)関連性:生成内容に重要な情報のみ レベルのタスク(方言、感情、比喩、ユーモア、イデ が含まれ余分な情報が含まれていないか?4)流暢性: オロギー、憎悪、誤情報、など)、2)会話レベルのタス テキストを読み難くする書式、文字の誤り、文法的誤 ク(共感、説得、礼儀、権力、毒性、など)、3)文書レ りがないか?である。 ベルのタスク(イデオロギー、比喩、など)からなる。 評価結果:主要な LLM モデルが人間の最上位レベルと 後者 は 、1)従来 方 式、2)オ ープ ン ソ- ス ベー ス LLM 同等またはそれを超える品質のテキストを生成してい ( FLAN、 FLAN-T5、 な ど )、 3)GPT-3 ベ ー ス LLM た。主な傾向は、1)①各種側面の要約、⑤社会的バイ ( text-001, text-002, text-003, な ど )、 4)GPT-3.5 アスの推論では GPT-3.5、GPT-4 が良い結果を出して (RLHF 使用)、5)GPT-4 からなる。 おり、人間のレベルを超えていた(表2の赤枠)。2)一方、 評価結果:多くの項目で従来手法(教師ありモデルで ②比喩的表現の説明、③肯定的再構成、④暗示された 人間がラベル付与)の方がスコアが高く、GPT-4 を含 誤情報の説明では、GPT-4 は人間と同等レベルで性能 むどの LLM モデルでも従来方式を上回れなかった。中 があまり良くなく、代わりに GPT-3 モデルの一部、 では FLAN と GPT-4 がかなりの項目で従来方式に迫る GPT-3.5 が人間のレベルを上回っていた(表2の青枠)。 か(半分程度)上回る実績を上げていた。但し、GPT-4 実験の総括: の実績を細かく見ると、項目によって水準の低い項目 ・LLM の優れたパフォーマンスにもかかわらず、従来 もあった(例:発言レベルでの比喩、憎悪、など。会 話レベルでの共感、など)。 第2実験:人間(専門家)によるスコアリング評価 5つの項目について、ゼロショット LLM モデル(縦 軸)と4つの標準尺度(横軸)を比較した(表2)。5 つの項目は、①各種側面の要約、②比喩的表現の説明、 ③肯定的再構成、④暗示された誤情報の説明、⑤社会 方式を大幅に上回る LLM モデルはなかった。 ・従って、最高レベルの LLM でも従来方式を完全に置 き換えることは不可能であることが判明した。 ・但し、LLM はラベル付けタスクに対しては人間と同 等レベルの対応に達していた。 ・今後、研究モデルがスケールアップするに連れて LLM の利点は増大すると予想される。 的バイアスの推論であり、それぞれに評価の専門家を ・これは、LLM が反復的共同ラベル付けを通じて注釈 当てた。前者のゼロショット LLM モデルは第1実験と プロセスを強化し、社会科学におけるテキスト分析 同じである。後者の4つの標準尺度は、1)忠実性:生 の高速化と改善が見込めるためである。
レードオフももたらす。外部妥当性は多様な文化的コ 3.実際の実践には多様な課題が登場する ンテンツでトレーニングされた LLM で、より適切な環 実験結果からクローズアップされているように、社 境を提供する。一方、内部妥当性はより小さく制御さ 会科学への LLM 活用では人間と AI の複雑な関係が想 れたデータセットに基づいてトレーニングされた 定される。想定される課題を 4 つ切り口で紹介する。 LLM で、強力な機能を提供する。両傾向の LLM のバ 3.1 CSS の障害と機会:[4] ランスの取れた活用のための知恵が求められる。 殆どの大学ではこの種の学際的取組みへの対応が充 3.3 GPT-4/後継技術を使用した場合の影響:[6] 分整備されていない。計算研究者と社会科学者 のコラ 幻覚は説得力のある方法で提示されてくる。そこで、 ボレーションも奨励されていない。研究資金の割り当 綿密な事実確認を行わないと正誤の識別が困難になる。 ても適切でなく、学際的取組みの学者は過小評価され 結果、真実性と正確性が求められる領域での LLM 使用 る傾向がある。また、プライバシーを保証しながらミ は出力の正確性を確認するための特段の注意がいる。 クロ/マイクロレベルのデータ分析を行うためのプラッ また、LLM は人間と機械の従来の専門知識分担に関す トフォームも整備されていない。科学研究の「ルール」 る概念や慣習を破壊するので、多くの職業で人間と機 も策定されていない。機密データを適切に収容/管理す 械は新たな方法で競合と補完を模索する。仕事の中味 るための技術的、法的、規制的、倫理的ガイダンスを は見直され、AI による自動化に適したタスクは切り出 提供している大学/機関は殆どない。 されて大幅に自動化される。その影響の一例として、 3.2 AI をベースとした社会科学研究の変革:[5] LLM の能力が高まるに連れて、利用可能者と利用不可 社会科学者は人間の行動をシミュレートし、文化的 進化を追跡するため、社会文化的偏見も組み込んだ 能者間で不平等が拡大し、「AI 格差」が発生する。 3.4 LLM の整合と安全性の保証:[7] LLM を望む。一方、LLM エンジニアは現実の世界よ LLM はどのような価値、誰のための価値に整合され りは、 「あるべき」世界に向けてトレーニング済みモデ るべきかが曖昧なところがある。そのため、1)さまざ ルの微調整を目指す。LLM トレーニング独自の「ブラ まな価値体系の理解、2)技術的な実現可能性が価値選 ックボックス」化は社会科学者と LLM エンジニア間に 択にどう影響するか、3)LLM が特定価値を社会にどの ジレンマをもたらす可能性がある。また、LLM によっ ように押し付けるか、などについて更なる研究がいる。 て生成された応答を従来の実験に組み込むこと はでき また、LLM ベースのシステムは偶発的な損害を引き起 るが、外部妥当性と内部妥当性という重要な事項でト こさないという保証はない。損害は LLM の欠陥により
発生するだけでなく、ユーザーの不適切な使用によっ 経済的・破壊的性質 、誤用される可能性、急速に進 ても発生する。そして、LLM の急速な進化は労働力、 化する技術環境などにより困難性が増している。 所得格差、教育、経済の発展に大きな影響を与える た これらの課題に対して、LLM を効果的に管理するに め、LLM の社会経済的影響は極めて破壊的である。 は、競争圧力が無責任な AI 開発につながらないよう にするなどの社会技術的アプローチが必要になる。 4.社会技術的アプローチの取組みが今から必要 最後に全体をまとめる。 従って、社会技術的課題への対応に重点を移すこと 1.LLM 普及は人間が生成したデータによってトレーニ がますます重要になってくる。社会技術的課題に向け ングされた LLM が本質的に社会技術的システムで た社会技術的アプローチを 4 つ切り口で紹介する。 あることをますます明らかにしている。 4.1 CSS 用専門用語の LLM への吸収:[3] CSS 専門家の用語には特殊な専門用語が含まれてお り、これらの専門用語の LLM への吸収が必要になる。 2.直近では、既存技術によって社会科学研究を推進し てきた CSS の研究能力が LLM によって強化される ことを確認できる実験結果が報告された。 また、時間の経過とともに社会科学全般に係わる言語、 3.そして、最新 LLM でも従来方式を完全には置換でき 規範、信念、政治構造は変化して行くので、このフォ ないことが判明した。この延長で新たな社会技術的 ローもいる。しかし、これには法外なコストがかかる。 課題もクローズアップされた。 また、モデルがスケールアップするに連れて この問題 は悪化する。このような状況にどのように適切に対処 して行くかの社会技術的アプローチがいる。 4.2 高度な AI の危険性への対応:[8] 高度なデジタル技術は、抑制されないまま放置され 4.但し、LLM は進化の途上にあり、判明した課題も限 定的である。 5.従って、適切な方向性や対応策を描ける段階ではな いものの、将来の LLM による社会、経済へのインパ クトは避けられない。 ると、人権、社会正義、民主主義を犠牲にして権力と 6.このような事態を充分に認識し、AI と人間の共進化 利益を追求するために使用される可能性がある。この を社会技術的側面にも重点を置いて準備すべき時で ような状況に対しては、社会技術的アプローチのみが ある。 〔参考文献〕 真に高度な AI の危険性と潜在的な危険性を制限する ことができる。 4.3 バイアス起因で悪用されることへの対応:[6] 偏見まみれのデータをトレーニングに使用する LLM にバイアスが存在するのは当然のことである。し かし、トレーニングプロセスや RLHF プロセスは非公 [1] David M. J. Lazer et al., “Computational social science”, Science 323, 721 2009. [2] 研究開発の俯瞰報告書 システム・情報科学技術 分野(2023 年)の 2.3.5 計算社会科学 2023. [3] Caleb Ziems et al., “Can Large Language Models 開のままである。結果、例えば、学術誌や資金提供機 Transform Computational Social 関は LLM によって作成された低品質の「ジャンクサイ Computational Linguistics, 1-55 2024. Science?”, エンス」によって圧倒されるかもしれない。 このよう [4] David M. J. Lazer et al., “Computational social な攻撃に対しても何らかの社会技術的アプローチを奨 science: Obstacles and opportunities”, Science 369 励することで適切に対応することが必要になる。 (6507), 1060-1062 2020. 4.4 LLM ガバナンスの欠如:[7] [5] Igor Grossmann et al., “AI and the LLM が社会に有益であり、害を及ぼさないことを保 transformation of social science research -Careful 証するには、適切なガバナンスが必要であるが、対処 bias management and data fidelity are key-”, すべき課題は多い。以下に若干の例を挙げる。 Science 380 (6650), 1108-1109 2023. ・LLM に関して、必要な科学的理解の欠如、効果的で [6] Sebastien Bubeck et al., “Sparks of Artificial 迅速に働くガバナンス機関の欠如、責任追及制度の General Intelligence: Early experiments with 欠如、企業の力などがあり、ガバナンス構造は極め て複雑である。 ・ほとんどのガバナンスメカニズムは未発達であり、 現状は、ガバナンスに関する具体的な提案が欠けて いる。 ・LLM のガバナンスは、技術の急速な製品化、技術の GPT-4”, arXiv:2303.12712 2023. [7] Usman Anwar et al., “Foundational Challenges in Assuring Alignment and Safety of Large Language Models”, arXiv:2404.09932 2024. [8] Seth Lazar et al., “AI safety on whose terms?” Science 381 (6654), 138-138 2023.