74.3K Views
January 27, 24
スライド概要
新潟大学 若手データサイエンスコロキウム2024 で発表した資料です。
高機能雑用
1 エシカルデータの潮流 2023/01/26 新潟大学 若手データサイエンスコロキウム2024 株式会社NextInt 中山心太
2 自己紹介 • 中山心太(ところてん) • @tokoroten • 株式会社NextInt 代表 • 著書 • • • • 仕事に役立つ必修科目情報I(10/27 発売) ChatGPT 攻略 仕事ではじめる機械学習 データサイエンティスト養成読本ビジネス活用編 • お仕事 • • • • • 機械学習システム構築に関する技術顧問 各種スポットデータ分析業、ビジュアライズ 業務改善コンサルティング、DX支援・研修 新規事業コンサルティング、PoC構築 ゲームディレクター
3 エシカルデータの潮流 • この講演はChatGPT攻略に掲載されているコラムに基づ いています(紙面都合でかなりカットされた) • 全文を載せたブログ記事もあります • 「エシカルデータの潮流」でググってください • https://tokoroten.medium.com/%E3%82%A8%E3%82%B 7%E3%82%AB%E3%83%AB%E3%83%87%E3%83%BC% E3%82%BF%E3%81%AE%E6%BD%AE%E6%B5%814973bd4be5b7 • 「エシカルデータ」は講演者の造語です、私以外に使っ ている人はいません、他所で使うと恥かくかも • 発表者はAIの専門家ではありません • Webで公開されている資料を整理・未来予測を行ったも のです
4 目次 • エシカルとは?、ESG、SDGsとの関係性 • 失敗したAI、そこから生まれたエシカルAI • 反AI活動、LAION5Bのヤバさ、OpenAIのデータソースは? • エシカルデータの潮流 • 1984年へ
5 エシカル(Ethical)とは? • 「倫理的な」 • 身近な利用例だと「エシカル消費」が有名 • エシカル消費 • フェアトレード等を包括する概念として新たに登場 • SDGsの12番「つくる責任 使う責任」が該当 • 生産消費活動における「負の外部性」に着目し、負の外部性が低い商品を優 先的に選択することを推奨する活動 • 負の外部性 • 生産・消費活動によって、第三者に対して害を及ぼし、長期的に全人類に負 の影響が発生すること、「共有地の悲劇」 • 企業は営利活動を追及すると自然と、貧困、人権問題、自然破壊等が起こっ てしまう(一例:紛争ダイヤモンド、水俣病、焼き畑農業、交通事故)
6 エシカルの背景にあるPRI署名、ESG投資 • PRI:責任投資原則 • 機関投資家にESG投資(Environment、 Social、Governance)の視点を組み 入れることを求める国連提唱の投資 原則 • GPIF(日本の年金基金)をはじめ、 世界中の機関投資家がPRIに署名 している • GPIFはESG投資インデックスを採用 することで、ESG投資を実現 • 機関投資家はESGに配慮した企業 への投資を重視するようになった 出典:「サステナブルな企業価値創造に向けた サステナビリティ関連データの効率的な収集と戦略的活用」(経済産業省) https://www.meti.go.jp/shingikai/economy/hizaimu_joho/data_wg/pdf/001_04_00.pdf
7 GPIF(年金基金)のESG投資 • GPIFはPRI署名によりESG投資を実行 • ESGを重視した企業が組み入られたETF(投資信託)を大量保有 • 企業の株価は、ESG ETFに採用されるかどうかに強く依存するように なった、ESGやSDGsが株価対策と言われる所以はこのあたり https://www.gpif.go.jp/esg-stw/esginvestments/
8 PRI署名によるゲームルールの変化 • 企業の営利活動と、ESG、SDGsは基本的には相いれない、 ESG、SDGsを無視した経済活動をしたほうが利益が出る • PRI署名により機関投資家の行動が変化、彼らがESGやSDGsを重視 した企業の株を買うことで、当該企業の株価が上昇 • 企業は上昇した株価を利用して、低金利の借入や株式転換社債、新株発行な どを行い資本調達を行う • これにより、資本コストが低下し、市場競争力が改善する • このほかにも株式交換によるM&Aなども可能 • PRI署名は、企業のESGやSDGsの活動(人類の長期的利益)と、 営利活動(企業の短期的利益)の両立を可能にした • 二宮尊徳「経済なき道徳は戯言であり、道徳なき経済は犯罪である」
9 SDGs、持続可能な開発の要請 • ESGはマルチステークホルダにおけ る、中長期的な企業戦略の考え方 • SDGsは、このままだと人類全体の 持続的な発展が困難であることが前 提の考え方 • SDGsは人類の自主規制 • 資本主義(株主資本主義)の仕組みに 任せていくと、搾取的な構造や不平等 な仕組み、環境破壊が自然と起こって しまうので、自粛をしましょう • ESGは企業と株式市場の約束、 SDGsは企業等が行うアクションの 関係性 https://www.unic.or.jp/activities/economic_social_development/ sustainable_development/2030agenda/sdgs_logo/
10 余談)上場企業と非上場企業の考え方の違い • 非上場企業では、ESGやSDGsに取り組んでも、株価は変わらない ため、直接的には競争力に寄与しない、別の考え方が必要 • BtoC取引で消費者には選好されやすくなるように、ESGやSDGsを アピールして、エシカル消費を狙う • SDGsの概念の普及により、 SDGsに配慮した製品を選好する消費者や上場 企業が増えたため、SDGsを推進することは、企業利益と相反することは無 くなりつつある(ということになってる) • 上場企業とのBtoB取引で、上場企業がESGやSDGsに貢献したこと になる製品・サービスが求められる • CO2排出量の少ない製品を上場企業に販売、上場企業は株主説明会でCO2排 出量を報告 • IFRS(国際会計基準)ではGHGプロトコルによるCO2排出量の開示が要求
11 目次 • エシカルとは?、ESG、SDGsとの関係性 • 失敗したAI、そこから生まれたエシカルAI • 反AI活動、LAION5Bのヤバさ、OpenAIのデータソースは? • エシカルデータの潮流 • 1984年へ
12 エシカルとAIの関係性 • 2010年代にビッグテックがAIが散々やらかした結果、 「エシカルAI」という概念が誕生(私見) • AIの出力結果に差別的な問題が含まれていないか • AIがなぜそのような出力をしたのかの理由を説明する(説明可能AI、XAI) • AIの出力結果によって差別的な構造が再生産されないようにする • 現代社会を教師データにすると、現代社会が抱えている偏見がその まま学習されてしまう • 何も考えずに機械学習を行うと、自然と差別的なAIが生まれてしまう • AIの出力結果に暗黙的に従うと、差別的な構造が再生産されてしまう • データがあれば、ボタン一つで学習できる、というのは幻想 • 実際にはデータの精査、出力結果の精査が必要、大量のマンパワーが必要 • データ中心のAI(Data-Centric AI)等に発展(今回は割愛)
13 医者と看護師の問題 • Grad-CAMという説明可能AIの論文の中の例題 • https://arxiv.org/abs/1610.02391 • 医者と看護師を2値分類するAIを作った • 医師と看護師の画像をそれぞれ250枚用意(検索して拾ってきた) • 男女比は全体として1:1になるように調整した • 教師データとテストデータを1:1に分割 • 学習時の精度は良かったが、実際に使ってみると駄目だった • 女性医師の画像を入れると、高確率で看護師と誤認識された • 男性看護師の画像を入れると、高確率で医者と誤認識された • なぜ失敗モデルができてしまったのだろう?
14 普通にAIを作ると、普通に偏見を学習する • Grad-CAMに説明させると、失敗モデル は、いずれも顔に着目してしまっていた • つまり、男性なら医者、女性なら看護師 と分類するAIが出来上がっていた • インターネット上の画像は、現実の医者 と看護師の男女比を反映していた • 医者は男性率78%、看護師は女性率93% • 職業を当てるAIを作っているはずが、性別 を当てるAIが出来上がってしまっていた • 2クラスなら簡単に気づけるが、これが多ク ラスだとどうだろう? • 各クラスの男女比を均等にして再学習を 行ったものが右列 • 半袖ならナース、長袖で聴診器なら医者と いう説明がなされていると考えられる 入力画像 失敗モデル 修正後モデル https://arxiv.org/abs/1610.02391
15 マイクロソフトの失敗 • 2016年、MSが開発したChatBot TayががTwitter上で公開、即日 サービス終了 • ユーザとのコミュニケーションを 元に学ぶ仕組みがハックされた • 大量の偏った情報を入力され、誘 導尋問によって不適切発現を連発 • ユーザから入力された情報を精査 するプロセスが抜けていた • 不適切情報のフィルターが甘かっ た • 学習率が高すぎた、もっとゆっく りと学習させるべきであった https://twitter.com/geraldmellor/status/712880710328139776
16 Googleの失敗 • 2015年、Google Photoが黒人の写真に 「ゴリラ」とタグ付けしてしまう問題が発 覚 • Googleをはじめとする各社は、写真に対 して「ゴリラ」とラベルを付けるのを現在 でも避けている • データセットの中に十分な量の黒人の写真 がなかったことが問題であると言われてい る • Googleのような何億人も利用するアプリ では、ほんの僅かな誤分類がSNSでシェア されて大問題になる • 黒人に「ゴリラ」と付ける人種差別主義者 は一定量存在するので、ユーザからの入力 をそのまま学習データとするのは危険 https://gigazine.net/news/20150702-google-photos-gorilla/
17 Amazonの失敗 • 2014年、Amazonは採用支援AIを開 発 • アメリカの履歴書に性別欄はない • 経歴の中に「女子大学」や「女子 チェス部」といった項目があると、 マイナス評価してしまった • これまで応募した人、採用した人の 履歴書を学習データとしていた • システム開発関連職では男女比が 偏っており、女性差別するAIが生ま れてしまった • Amazonは最終的にAIの運用を中止 した https://www.businessinsider.jp/post-177193
18 リクルートの失敗 • 2019年、リクルートは就活生 の「内定辞退確率」を選考に利 用しないという条件で販売 • リクナビ内での行動履歴から予 測を実施 • 内定辞退率が高い学生に対して、 不当な取り扱いをする可能性 • 「内定辞退率10%」と「内定辞 退率90%」の就活生が居たら、 どちらに内定を出したいか? • 内定を出し過ぎてしまった場合、 誰に内定辞退を強要するか? https://www.nikkei.com/article/DGXMZO48076190R0 0C19A8MM8000/
19 Facebookの失敗 • 2012年、Facebookはタイムライン に表示されるポストをコントロールす ることで、利用者の心理をコントロー ルできるかどうかの実験を実施 • ポジティブなポスト、ネガティブなポ ストを優先して見せることで、感情が 伝搬するかを調査 • 人の感情をポジティブ、ネガティブに 操ることに成功 • 現代の倫理観では完全にNG • SNSでマインドコントロールが可能であ るという実験結果なので、マジでアカン https://www.itmedia.co.jp/news/articles/1406/ 29/news007.html
20 2010年代の失敗を元にルール整備 • 2019年、内閣府はAI の7原則を策定 • 大企業はエシカルAIの 規定を作成 • IBM:AI倫理、AI Ethics • アクセンチュア:責任ある AI • 富士通:AI倫理技術 • 日立:AI倫理原則 • NEC: NECグループAIと 人権に関するポリシー • Google:責任あるAI • リクルート:AIガバナンス https://www5.cao.go.jp/keizaishimon/kaigi/special/reform/wg7/20191101/shiryou1.pdf
21 目次 • エシカルとは?、ESG、SDGsとの関係性 • 失敗したAI、そこから生まれたエシカルAI • 反AI活動、LAION5Bのヤバさ、OpenAIのデータソースは? • エシカルデータの潮流 • 1984年へ
22 現代の反AI活動とAI倫理 • 現在の反AI活動は、主に「学習データ」の倫理的側面に起因し ている • ここではいくつかの例を紹介 • OpenAI社のGPTの学習プロセスの問題、学習データに対する問題 • ハリウッドのストライキ • 画像生成AIの学習データに対する問題 • これらの問題が解決しなければ、AIの健全な利用は望めない
23 OpenAI社のアウトソーシングの問題 • TIME紙はOpenAI社がケニアの労働者に対 して、時給2ドル以下でアノテーション作業 をアウトソーシングしていたと報道 • どのような文章が、児童性的虐待、獣姦、殺人、 自殺、拷問、自傷行為、近親相姦といった不適切 なコンテンツに該当するのかをラベリングする作 業に従事 • 一日中そのような文章を読んだ結果、精神疾患を 患う人が続出 • 国内で行うと大問題になる仕事を、途上国に 発注して良いのか? • これは「精神的産業廃棄物の国外投棄は認め られるか?」という問題に発展する https://time.com/6247678/openai-chatgpt-kenya-workers/
24 GPT3のデータソースの問題 • Common Crawlは世界中のウェブサイトを巡回して収集されたデータ セット、学習は合法だが、ウェブサイトの権利者はAI開発に使われること を許諾していない • WebText2はRedditから収集されたWebTextを拡張されて作られている • Books1と、Books2は海賊版書籍サイトから収集されたと考えられてい る • OpenAI社は作家との集団訴訟をいくつか抱えている https://arxiv.org/pdf/2005.14165.pdf
25 OpenAI社からのクローラを拒否する流れ • 2023年8月頃から、OpenAI社の Webクローラが巡回中 • 追加学習用のデータセットを自ら 作成する動き • Common Crawlの更新タイミング (2か月に1回)に合わせないと知 識が更新できないという問題を回 避するためだと考えられる • GPTが不足している知識を自ら考 えて自ら探索しているとも考えら れる? • ニューヨークタイムスなどは GPTBotをrobots.txtで拒絶 https://www.theverge.com/2023/8/21/23840705/newyork-times-openai-web-crawler-ai-gpt
26 ハリウッド:エキストラ俳優のストライキ • 2023年7月頃、AIをめぐるエキストラ俳優のストライ キが発生 • 同時に脚本家のストも発生、こちらは生成AIによる脚本家の 失職に対する恐怖から • 映画にはエキストラを3Dスキャンして作られる3Dモデ ルが使われている • ストライキは以下の2点で争議 • 3Dモデルを他の作品で使えるようにする包括契約(他の作品 に3Dモデルが出演しても報酬が発生しない) • 複数の3Dモデルを混ぜて、新たな3Dモデルを作るようにす ること • AIの普及によって、1回撮影したらもう次はない、とい う状態になる可能性が高いため、ストが発生 • ゲームのキャラクターエディットの多様性を考えたら、たぶ ん早晩そうなる • 組合との労働争議によって、データの提供元に対して 利益を還元するような業界規制を敷くことができると いう考え方に繋がる https://jp.reuters.com/article/idUSKBN2Z4090/
27 画像生成AIの法的リスク • 現状で著作権周りの法的リスクはほとんどない • 出力されたものが、既存著作物と過度に似ている場合は、 著作権法や、不正競争防止法が適用される • 既存の著作権はキャラクターを保護対象にするが、 作風は保護対象にならない • 右図はいずれもStable Diffusion 1.5 で生成したもの • 「ドラゴンボールの孫悟空」(右上)は現行法で割とアウト • 「ドラゴンボールに登場するネコ」(右下)は現行法でOK Super saiyan Son Goku in DragonBallZ drawn by Toriyama Akira. TV series. • 著作権者に許諾を取らないで、機械学習を行っている ことが、現在「倫理的な問題」になっている • 多くの画像生成AIは、LAION-5Bという画像データベース で学習している、これがだいぶマズい cat in dragonballz
28 著作権侵害の要件 • 文化庁としては、基本的には現行法と同様に判断するよ • 文化庁の出した資料はみんな読んでくれ!!! • https://www.bunka.go.jp/seisaku/chosakuken/pdf/93903601_01.pdf
29 AI生成画像は常識的範囲では合法 • 類似性、依拠性が問題ないなら、 画像生成AIを使っても大丈夫 • 類似性(似ていること) • 他者が著作権を持つ別キャラクター を想起しないか? • ミッキーを描いたらアカンよ • 依拠性(依存していること) • 他者が著作権を持つものに依存して いないか? • コピペ、トレスは当然駄目よ • 他者の著作物を知りながら似せるの はだめよ(知識の依存) • 知らずに偶然似てしまうのは問題ない という判例が存在 https://www.bunka.go.jp/seisaku/chosakuken/pdf/93903601_01.pdf
30 AIの学習は日本の著作権的には問題ない • 著作権者の許諾を得ない学習は、基本的には問題が無い • AIの学習は「享受」ではないため、許諾無く行える • 一部のクリエイターはこれに猛反発している https://www.bunka.go.jp/seisaku/chosakuken/pdf/93903601_01.pdf
31 余談)日本は二次創作のどこに寛容的なのか? • 類似性・依拠性については、日本は比較的寛容 • 既存キャラクターが同人誌に登場していても基本的 には文句を言わない • 類似性のある二次創作はよっぽどでない限り、原作 者は侵害を主張しない • キャラクターはある種の公共物である、というよう な運用がなされる • 東浩紀の「動物化するポストモダン」における 「データベース消費」の考え方 • 二次創作が原作者の育成の場(≒修行、道)という 考え方もある • 直接利用の類似性・依拠性については、日本は とても厳しい • コピペ、トレスを行ってオリジナルと主張する人に 対して極めて厳しい • 逆に明言していると、練習として納得される • このダブルスタンダードが軋轢の元
32 余談)著作権に対する寛容さの違い • 日本には「道」の考え方 • • • • 「道」を究めるには、模倣、マネが必要 コピーしてはいけないがマネをする必要はある、守破離の考え方 二次創作は一次創作の土壌という出版社(著作者)の文化と思惑 二次創作には緩く、コピペやトレスをオリジナルと称することには厳しい • コピペやトレスは明言していれば割と許されるのもまた「道」の考え方 • 英米は「フェアユース」の考え方 • • • • • • 一定の条件を満たせば著作物の利用が認められるという考え 教育・研究目的の利用、公共の利益 非営利性があること 使用する量が少ないこと 市場への影響が小さいこと 元著作物を変化させていること
33 反AI派はどこで燃えているのか? • 著作権のある画像が生成できるからダメだ派 • これは類似性・依拠性の問題で、既存の法で裁けるので問題ないはずだが? • 「道」から発展した、原作リスペクト無罪派 • 二次創作はリスペクトがあるから無罪である、画像生成AIはリスペクトがないからダメだ • 類似性・依拠性による著作権侵害の判定は、リスペクトに依存していると勝手に解釈 • 「道」の考え方からすると、画像生成AIは「ズルい」「道を踏み外している」となる • さらに著作権侵害は親告罪であることを忘れているので無理スジ • 著作権のある画像から学習されているからダメだ派 • • • • • Stable DiffusionやMidjourneyは、著作者の許諾を得ていないLAION-5Bから学習 これは2018年の著作権法の改正で法的に問題なくなった、しかし倫理的には問題がある 画像生成AIを通じて、クリエイターの売り上げが間接的に減少する可能性 法が追い付いていないだけ、という考えもできる、業界規制や立法待ちの状態 この問題をクリアしたAdobe Fireflyも登場してきているが、まだまだ微妙 • img2imgで著作権のある画像をデータソースにできるからダメだ派 • これは依拠性の問題で、既存の法で裁けるかどうかは、判例待ち
34 諸悪の根源 LAION-5B • SDやMidjourneyの教師データに使われている画像データ集 • Web上から収集された50億(5 Billion)枚超の画像のキャプションとURL • 著作権が存在する画像も大量に収集されている • 医療データ、YouTubeのサムネ、アニメ切り抜き画像、Pinterestの画像、無修正ポルノ、 児童ポルノなども含まれている • Pinterestには有名イラストレーターの画像が多く転載されており、それらが大量に含ま れている、これが割とマズイ • 2024年1月現在は、児童ポルノが含まれていることが表面化、画像検索サービ スがシャットダウンされている • 参考資料 • https://www.infoq.com/jp/news/2022/06/laion-5b-image-text-dataset/ • https://atmarkit.itmedia.co.jp/ait/articles/2301/18/news011.html • https://texal.jp/2023/12/21/stable-diffusion-and-other-image-generationais-were-found-to-have-been-trained-using-child-sexual-abuse-images/
35 LAION-5Bの検索結果 https://rom1504.github.io/clip-retrieval/?back=https%3A%2F%2Fknn.laion.ai&index=laion5B-H-14&useMclip=false&query=onepiece
36 LAION-5Bの検索結果 https://rom1504.github.io/clip-retrieval/?back=https%3A%2F%2Fknn.laion.ai&index=laion5B-H-14&useMclip=false&query=FinalFantasy
37 LAION-5Bの検索結果 https://rom1504.github.io/clip-retrieval/?back=https%3A%2F%2Fknn.laion.ai&index=laion5B-H-14&useMclip=false&query=your+name
38 LAION-5Bが児童ポルノで燃える • LAION5Bは、2024年1月現在、児童ポルノ が含まれていることが判明し、炎上中 • プログラムが既存の児童ポルノデータベース (Project Arachnid、画像の"指紋"を利用し た判定)と照合し、候補を抽出 • 多くの画像URLがまだ生きていることも判明 • 画像生成AIは、実在の児童の性虐待を元にし た画像や、ディープフェイクが作れることに なってしまった • 「実在の児童の性虐待を元にした画像が生成 できるAI」を使うことは倫理的に許されるだ ろうか? https://stacks.stanford.edu/file/druid:kh752sm9123/ml _training_data_csam_report-2023-12-20.pdf
39 アーティストの抗議活動が活発化 • Stable Diffusionは現役のアーティストの絵が 学習データに使われており、現役のアーティス トの絵柄を模倣した絵を作ることができる • 現役のアーティストの売上を奪っているのでは ないか? people using virtual reality wearing Oculus Quest in edo era, by Katsushika Hokusai • 「アーティストの権利を侵害している」として 抗議活動が発生、反画像生成AIの活動が活発化 • StableAI社は現在はいくつかの訴訟が進行中 • 右の図にはイラストレーターの村田蓮爾や Jeremy Lipkingの成分を入れて作られている、 これは認められるだろうか? • イラストレータの名前、作品名をダイレクトに 入れるのは、さすがにマズイんじゃねーの?と いう空気感が形成されつつある Digital painting of a close up face portrait of an elegant, beautiful, sophisticated, fashionable, pretty young burmese - japanese victoria justice, the rings of saturn. intricate ornate detail, eye focus, by artgerm, range murata, jeremy lipking, trending on pinterest, artstation hq, vivid 8 k, film still. 上記はStable Diffusion1.5で生成
倫理的な問題をクリアした画像生成AIの登場 • Adobe Firefly • https://www.adobe.com/jp/sensei/generative-ai/firefly.html • PhotoshopにGenerative Fillや、Illustratorの生成再配色としてすでに統合 • 学習データを厳選、倫理的リスクを回避 • 著作権が切れた画像(パブリックドメイン) • オープンデータ(自由に学習して良いとされているもの) • Adobe Stockに投稿された画像で、AI学習許諾が取れたもの • 出力データを精査、フェイクニュースを抑制 • 攻撃的なものや、有名人などは出力しにくくなっている • AI生成の履歴がファイル内に残る仕組み • 法的リスクサポート、訴訟費用保障 • エンタープライズ版では、著作権周りで訴訟された場合、Adobeが補償する
Adobe Fireflyに対する攻撃も発生している • 他の生成AIサービスで、イラストレー ターの名前を入れた画像を生成 • Adobe Stockに投稿、AI学習許可 • 登録時にイラストレーターの名前を入れる • Adobe FireflyやPhotoshop の Generative Fill に学習されることを期 待 • Adobe社を経由した、著作権ロンダリ ングを狙っている https://twitter.com/VoQn/status/1692842271790731742
42 「パブリックドメイン」はパブリックドメインではない • ポケモンの公式画像が詰め込まれたデータセットが、パブリックドメイン ライセンスで公開されていたりする(しかもKaggle上で) • 公開データセットは割と無法地帯、パブリックドメインのデータセットを 使っているAIだから問題ない、ということにはならない
43 目次 • エシカルとは?、ESG、SDGsとの関係性 • 失敗したAI、そこから生まれたエシカルAI • 反AI活動、LAION5Bのヤバさ、OpenAIのデータソースは? • エシカルデータの潮流 • 1984年へ
44 エシカルAIからエシカルデータへ エシカルAIのカバー範囲 データ収集 アノテーション 学習 • 権利者から許諾を得ているか? • アノテーションを行った人に対 • 大規模学習におけるCO2排出量 • 権利者・第三者の将来利益を奪 うことにならないか? して適切な賃金が支払われてい が、AI利用時の利益を上回る るか? か? 運用 • 差別的・法的問題・ポリコレNG な出力が行われていないか? • 偏見を排除できているか? • プライバシーが保護されている か? • アノテーション業務によって過 度な精神的苦痛を受けていない か? • 構造的問題が拡大するような出 力が行われていないか? • 出力結果をAIが説明できるか (説明可能AI、XAI) • 他者の権利を侵害していない か? • どのように使われるかが権利者 • アノテーションに偏見が含まれ • 学習データに含まれている個人 • 不適切な出力が行われた際に、 情報を匿名化できてているか? 即座に再学習をして、出力しな いようにできるか? • 補償はなされているか? に伝わっているか? • 幅広い人種・属性の人からサン プリングされているか? • どのようにサンプリングされた データなのか? ていないか? • アノテーションを行った人の多 様性は? • 学習データを過学習してそのま ま出力していないか? • 運用時の消費電力は適切か? • アノテーション結果の検査は? • データの権利者が許諾した用途 • フェイクニュースが生成されな への学習か? いか
45 エシカルAIの概念の拡張(未来予測) • 従来のエシカルAIは運用に重きが置かれていた • これからはデータとアノテーションもカバー範囲に含まれるよ うになる=エシカルデータ • 学習データに対する透明性と補償が重視される • アノテーション業務の透明化が重視される • 教師データの監査が求められるようになる • 第三者機関が監査を行い、エシカリティが確認されたAIについ ては、「エシカルデータ認定」が付与される • 現在の「ISO9001」や「ISO14001」「Pマーク」の流れ
46 機械学習における非対称性 • AIが今後人々の労働を大きく変えていくのは間違いない • 機械学習には大きな非対称性がある • データの提供元は低所得者や、途上国の人 • データを利用して機械学習を利益を得るのはビッグテックと、利用する人々 • この非対称性は倫理的にどうなの? • AIによる社会の変革における「負の外部性」なのではないか? • データの提供元に対して補償しないことは「持続可能」なのか? • こういった疑問を解消するには、透明性と補償が必要になってくる のではないか?
47 学習元データの透明性と補償 • OpenAI社はニュースメディアに対して ライセンス料の支払いを開始 • 他のAI事業者もこれに倣うのでは? • データセットに対して、透明性と補償の メタデータが必要になってくる • どのような属性の人から収集データのな のか? • 年齢、性別、人種、国籍、土地、時刻、 etcのメタ情報が必要 • そのデータの提供元の人にいくらの支払 いがなされたのか? • その学習データがどのようなAIに使われた のかの情報が別途必要 • AIが生み出した利益に応じて、データの提 供元に還元する仕組み
48 アノテーション業務の透明化 • 機械学習においても「フェアトレード」の概念が必要 • OpenAI社がケニアに時給2ドルで発注していたような事例は、さすが にアカンやろ感はある • NSFWコンテンツのアノテーション業務については、AIを開発 している企業の国内で行うか、その国の最低賃金と同額でアウ トソーシングされるべきではないか? • 東京都の最低賃金は1113円、ニューヨーク市は16ドル • 学習データにはアノテーションのメタ情報が必要になってくる • 誰がアノテーションしたのか、その人はどこの国の人で、どのような 属性の人で、いくらの賃金が支払われたのか
49 学習データのエシカリティのメタ情報 • データとアノテーションがエシカルであるためのメタ情報が義務化 されるのではないか? • どのような属性の人から収集データのなのか? • 年齢、性別、人種、国籍、土地、時刻、etc • どのような属性の人がアノテーションをしたのか? • 国籍、性別、人種、バックグラウンド、報酬、etc • メタ情報を監査することで、AIのエシカリティが評価できるように なる • 数億件にもなる学習データを全件監査するのは困難であるため、サンプリン グ調査や、AIによる監査、そのための技術開発が必要になってくる • AIのエシカリティを監査するための組織が必要になってくる
50 監査からESG、株式市場への接続 • 上場企業は会計監査を受けなければ、上場が維持できない • 同様に、上場企業が使うAIは、学習元データのエシカリティ監査を 受ける必要が出てくる • 現にLAION-5Bに児童ポルノが含まれていることが判明して炎上中 • 「LAION-5Bを学習データに使っているAIを使っている企業は、エシカルデータ認 定が外され、ESGの評価スコアを下がる」ということが起こりうる • 倫理的ではないAIを使っていた場合、ESG ETFから外され、株価が暴落、資 本コストが悪化し利益率低下が起こりうる • これを避けるために、上場企業はエシカルデータに気を付けることになる • 余談)監査法人は監査項目を増やしたいニーズがある • IFRSはGHGプロトコルによる温室効果ガス排出量の開示を要求 • ESGの項目の中にAI監査が含まれるようにロビイングすることが考えられる
51 エシカルなアノテーション事業者の台頭 • エシカルデータ認定が普及すると、 どのアノテーション事業者を利用し たのかで評価されるようになる • 例)バオバブ社 • https://baobab-trees.com/ • 障害者、外国人、難民等をアノテー ターとして雇用、経済的自立を支援 • 処理量ではなく、時間に応じて、最低 でも東京都の最低賃金を支払い • 精神的苦痛が大きいタスクはスキップ しても良い https://baobab-trees.com/news/143.html
52 大企業はAI規制強化にインセンティブ • AI規制に賛成するのは、既存のAI事業者 • 高い規制に対応するためには資金力勝負に なる • 監査のデータ量が膨大になるので、監査の ためのAIを作れるには、既存のAI事業者が 有利 • AIの規制強化がなされると、新規プレイ ヤーの参入が困難になる • EUのRoHS規制やGDPRによる非関税障 壁の構築を思い出せ • RoHSは環境保護の名目で様々な規制を導 入、CEマークを取得できなかった途上国の 製品が、欧州から締め出された • GDPRで欧州内の個人情報保護の規制が強 化、Yahoo! Japanは欧州から撤退 • 最近は10年間の家電修理受付の義務化で、 保守部品を持たない業者を排除 https://www.jetro.go.jp/biznews/2023/12/8a6cd52f78d376b1.html
53 文化庁はAIと著作権に関する素案を公開 • https://www.bunka.go.jp/seisaku/bu nkashingikai/chosakuken/hoseido/r0 5_05/pdf/93980701_01.pdf • 深層学習のために2018年に著作権法を 改正したが、生成AIが出てくることを予 見していなかった、そのため再調整が必 要 • 生成AIを前提とした、著作権の議論を行 う必要がある • 学習データをそのまま出力しちゃうヤツは さすがにダメじゃない? • 現在、パブコメを募集中 • https://public-comment.egov.go.jp/servlet/Public?CLASSNAME =PCMMSTDETAIL&id=185001345&M ode=0 https://www.nikkei.com/article/DGXZQOUE158X 30V10C24A1000000/
54 エシカルデータの展望 • エシカルデータの概念は、AIを開発していく上では避けては通れない • エシカルデータは今後の新たな研究領域、ビジネス分野になりうる • エシカルデータを重視したAI事業者の台頭 • 例)Adobe Firefly(今一歩だけど…) • エシカルデータを重視したアノテーション事業者の台頭 • 例)バオバブ社 • エシカルデータ認定を行うAI監査法人の登場 • デロイトトーマツあたりが仕込んでいそう • https://www2.deloitte.com/jp/ja/pages/strategy/articles/ipa/ai-ethics.html • エシカルデータ認定とESG、株式市場との結びつき • IFRSはGHGがひと段落ついたら、この辺やるんじゃねーかなと思ってる • これはあくまでも2024年1月現在の市況から予想した話
55 目次 • エシカルとは?、ESG、SDGsとの関係性 • 失敗したAI、そこから生まれたエシカルAI • 反AI活動、LAION5Bのヤバさ、OpenAIのデータソースは? • エシカルデータの潮流 • 1984年へ
56 注意! ここからは1984のネタバレが入ります 当然みんな読んでるよね?
57 エシカルデータ認定の暗黒の未来 • 国家の外郭団体や息のかかった NPO法人がエシカル認定を発行 する組織になりうる • 国の意見と一致している教師デー タは「エシカル」と認定 • そうではない教師データは「エシ カル」ではないとして修正する • 文科省は教科書検定で散々やって るので、教育用LLMはその延長 線で「検定」されると思われる 「エシカル」ではないAIの例
58 国家がエシカルデータ認定を行う世界 • 教師データには、国家が「正しい」と認めた情報だけ入る • ハルシネーションによる「誤情報の提供」をできるだけ防ぐために、 誤った情報が入り込まないようにする • データ中心のAIの技術が活用される • アノテーションデータは精査され、誤ったアノテーションデータは修 正される • 国家が「正しい」と認めた情報だけが出力されるように、AIはアライ メントされる • これは真理省(The Ministry of Truth)の仕事 • 国家にとって都合のいい情報に過去(学習データ)を修正する仕事 • 主人公がやっているのは、実はアノテーション業務だった
59 LLMと教育、ニュースピーク • 今後、LLMと教育は確実に融合していく • 近代以前は家庭教師が一般的であった • 現代の「教室」は多人数に同じ内容を一斉に伝達するという経済 効率性と、国民国家の要請から生まれている • LLMによる「教師」が普及すれば、家庭教師の時代に戻ることは 不思議ではない • LLMが話す言葉は、国家が「エシカル」だと認定した言葉 だけになる • 「2+2=5」はエシカルであり、「2+2=4」はエシカルではない と認定されたのであれば、 「2+2=4」はLLMからは出てこない • 国家がアライメントしたLLMとともに育った子供たちは、 ニュースピークを話すようになる • 「自由」という言葉を知らなければ、「自由」について考えなく なる • 我々は既に明治時代に書かれた文章が読めなくなっている https://commons.wikimedia.org/wiki/File:Yakov • 旧字体や変体仮名をすんなり読める人はなかなかいない _Guminer_-_Arithmetic_of_a_counterplan_poster_(1931).jpg
60 党が押し付けてくる噓を誰もが受け入れるのであれば── あらゆる記録が同じ内容しか伝えないのであれば── その噓が歴史となり、真実となってしまうのだ。 「過去を支配する者は未来を支配する。 今を支配する者は過去を支配する」 1984 田内志文 訳版
61 LLMと国家安全保障 • LLMを支配する者は、現在を支配する • • • • 某国製の商用LLMから「天安門事件」が出てくることはたぶん無い 某国製の商用LLMから教育を受けて育った子供は「天安門事件」を知らなくなる 「自由」という言葉が無ければ、「自由」について考えられなくなる ニュースピークはLLMが教育を支配したときに完成する • LLMの他国への提供は、超限戦による文化侵略になりうる • 現にChatGPTはアメリカのポリコレによる制限を強く受けており、 これを使っている限り、アメリカの文化侵略を受けていることになる • 日本の法や慣習でOKなことでも、アメリカの法や慣習でNGなことが出力できないの であれば、それはアメリカの法や慣習に従っているのと実質的に同じになる • 国産LLMがなぜ必要か?の答えがコレ • とはいえ「国産」もまたバイアスがかかっている • 複数の国、複数の組織のLLMを自由に差し替えて使える社会が望ましい
62 LLM is watching you.