3.1K Views
January 11, 24
スライド概要
公立小松大学の講義で使っている資料です.
⼈⼯知能研究者はどこに向 かえばよいのか 公⽴⼩松⼤学 藤⽥ ⼀寿 Ver. 20240605
⼈⼯知能技術にはまだ課題が ある
すぐ思いつく⼈⼯知能の技術的課題 • ⾼性能な⼈⼯知能を軽量,⾼速したい. • オンプレ,IoT機器,エッジで処理したい. • 7Bくらいの⼤規模⾔語モデルならばゲーミングPCで⾼速に動作する. • 学習データが不⾜した場合のどうするか? • ⼤規模⾔語モデルにおいては⾃⼰学習により解決されつつあるか? • 抽象的な命令を理解できるか? • ⼤規模⾔語モデルで解決されつつある.
すぐ思いつく⼈⼯知能の技術的課題 • 動物はデータが少なくても学習できる? • ⼈間はより少ないデータで⼤規模⾔語モデルに匹敵する⾔語能⼒,DQNのような運 動制御能⼒,AlphaZeroのようなゲームの強さを獲得していると⾔えるかもしれない. • ⼀⽅,視覚や⾳声の認識能⼒は,⽬や⽿から常に⼊ってくる⼤量のデータを使って 学習しその能⼒を獲得しているのではないか? • one-shot, few-shot promptingは⼤規模⾔語モデルの得意技であり,⼤規模⾔語モデ ルを活⽤した⼈⼯知能は少ない学習データで様々なタスクをこなせると⾔えるだろ う. • 抽象的な命令を理解できるか? • ⼤規模⾔語モデルで解決されつつある.
すぐ思いつく⼈⼯知能の技術的課題 • ゴリラ問題:Googleの⼈⼯知能が⼈をゴリラと間違えた. (https://gigazine.net/news/20230523-google-photo-ai-prevent-labeled-gorillas/) • ⼊⼒を少し変えるだけで別の物と識別されることがある. • モデルが⼤きすぎて問題が起きた時に原因を特定しにくい. • ⼈間の都合が良いように⼈⼯知能をどう制御するか(アライメント). ⼈にはパンダにし か⾒えない. ⼈ならゴリラと識 別しないのだが… ノイズを加えるとパンダをテナガザルと識別する事がある. (Goodfellow et al.,2015) https://datascienceethics.com/podcast/google-gorilla-problem-photo-tagging-algorithm-bias/
課題に⽴ち向かわなければ • ⼈⼯知能技術にはまだまだ課題がある. • 企業,研究機関,⼤学,個⼈,それぞれの⽴場で,それぞれの強みを活かし⼈ ⼯知能の技術的課題に⽴ち向かわなければならないだろう.
⼈⼯知能研究の困難さ
⼈⼯知能の技術は⾊んな意味で難しい • ⼈⼯知能に関する知識は幅広く深く,そして難しい. • 私がすぐに思いつくだけでも,線形代数,微分積分,確率,統計,情報理論,数理最適化,⼈⼯ニュ ーラルネットワーク,強化学習,画像処理,⾳声・信号処理,いわゆるアルゴリズム,プログラミン グ,⾼速計算,神経科学 ,統計⼒学 などが必要かもしれない. • アラインメントまで考慮すると,法律,倫理,政治,経済,哲学なども必要になるだろう. • 数学が難しい. • 原理は数式だらけ. • 理解している間に時代遅れになる. • ⼈⼯知能技術を理解するには時間がかかる. • しかし,⼈⼯知能技術は⽂字通り⽇進⽉歩に進化している. • 理解を捨てて⼈⼯知能の最新情報だけ追いかけても,少し気を抜くだけで置いていかれる. • 研究者よりも, 趣味で⽇々⼈⼯知能を追いかけている⼈の⽅が⼈⼯知能技術の最新情報に 詳しいかもしれない .
⼈⼯知能の技術は⾊んな意味で難しい • ⼈⼯知能を動かすのが難しい.動かすハードがない. • 最新の⼈⼯知能は⾼価な計算機でないと動かないかもしれない. • ⼈⼯知能技術に関する問題⾃体が無くなる. • ニューラルネットワークを巨⼤化すれば性能が上がるから,なにか問題があってもニュ ーラルネットワークを巨⼤化して解けば良い. • 世界中に研究者・技術者がいるので,誰かがすぐ問題を解決する. • ⼈⼯知能技術⾃体の研究は,少なくとも私の⼿に負えるものではなくなったか もしれない. 私が使うハード RTX3060 約4万円(2023年時点) https://www.kuroutoshikou.com/prod uct/detail/gg-rtx3060-e8gb-df.html 理想のハード H100 約600万円 (2023年 時点) https://www.elsajp.co.jp/nvidiah100tensorcoregpu/
すで⼈⼯知能開発は⼤学の研究者から⼿を離れた • ニューラルネットワークが巨⼤になり⼈⼯知能のために莫⼤な計算量が必要であ る. • ニューラルネットワークは⼤きければ⼤きいほど性能が⾼い. • 巨⼤なニューラルネットワークを動かせる計算機は⾼額である. • 巨⼤なニューラルネットワークの学習には莫⼤なデータが必要となる. • データが少ないと巨⼤なニューラルネットワークの性能を⼗分発揮できない. • データ不⾜に関しては,スクレイピングすれば⽂章データや画像データはある程度解決 できるかもしれない. • 学習済みのオープンソースのモデルを使えば解決できるかもしれない. • しかし,fine tuningで ⽤途に合わせた知識をうまく追加する必要が有る. • もしくは,プロンプトを活⽤して⾃分の⽤途に合った出⼒が出す必要がある.
すで⼈⼯知能開発は⼤学の研究者から⼿を離れた • 開発のための⼈的資源が必要となる. Graduate student descent: ⼤学院⽣が最適化する⼿法を 揶揄した⽤語.このジョーク的な⽤語からも⼈⼯知能研 究でもマンパワーがものを⾔うことが垣間⾒られる. • アイデア勝負なので複数の優秀な⼈が⾊々なアイデアを出したほうが良い. • トライアル・アンド・エラーの世界なので⼈⼿がある⽅が良い. • 技術の深化・進化スピードが速い. • もともと幅広い知識が必要な分野にも関わらず,技術の進歩は⽇進⽉歩で今や数ヶ⽉ 前のことすら古くなる. • そもそも⾯⽩そうなことは企業や技術者がさっさとやる. • ネット上に画像は沢⼭あるので,それを使って学習するればすごいことができそうだと誰でも 考える.このような⾯⽩そうで実現可能性が⾼そうなことは企業や個⼈が素早く実現する. • ChatGPTの出⼒をChatGPTに返すなんて誰でも思いつくことは,技術がある⼈がさっさと実 現する. • ⾦も⼈も無い⼤学で⼈⼯知能の最先端研究をするのは難しい時代になった.
重要な機械学習モデル 企業 訓練にかかるお⾦ スタンフォード⼤学AIインデックスレポート2024 アカデミア(⼤学) ⼤学ではなく企業が重要な機 械学習⼿法のほとんどを発表 している. OpenAIのGPT-4 はトレーニングに推定 7,800 万ドル相当、GoogleのGemini Ultra に1億9,100万ドルかけた.つまり⼤ 規模⾔語モデルはお⾦がかかる. (https://aiindex.stanford.edu/report/)
応⽤研究はやりやすくなった • ⼈⼯知能技術それ⾃体ではなく,その応⽤研究やサービス開発の環境は⾮常に 良くなっている. • ⾼性能な特化型⼈⼯知能はすでに存在し,技術も公開されている. • ⾼性能な⼈⼯知能のプログラムコードは無料で配布されている. • 当然オンプレミスで動かせないほど計算量が必要な⾼性能なもの(ChatGPTなどの⼤規模⾔ 語モデル)は有料で利⽤しなければならないかもしれない. • ⼈⼯知能に関する無料の教材がたくさんある. • 無料・有料の⼈⼯知能ソフトを組み合わせてれば,昔に⽐べ容易に応⽤研究や ⼈⼯知能を活⽤したサービスの開発ができる. • ⼈⼯知能の実装で分からないことがあれば,対話型⼈⼯知能と相談できる. オンプレミス:施設内 オンプレで動かせる(欲を⾔うとゲーミングPCで動かせれば)まずまずの性能の⼤規模⾔語モデルが作れれば更に⼈⼯知能の技術が普及する.2024年には,気軽に ゲーミングPCなどで動かせるところまで来ている.
⼤学の⼈⼯知能研究者はどうすれば良いのか • ⼈⼯知能研究をやめ,他の分野の研究をする. • ⼤学の研究者をやめ,資⾦⼒の有る企業で研究する. • ⼤学で最新の⼈⼯知能技術を追いかけビッグテックと戦う. • お⾦のかからず⼈がやらない研究テーマを捻り出す. • 既存の⼈⼯知能技術を儲からない分野に応⽤する. • 既存の⼈⼯知能技術を⾃分しか持っていないデータに適⽤する. • ⼈⼯知能を解析する. • なぜ⼈⼯知能は⾼性能なのかを数理的に明らかにする. • しかし,数学の知識が必要となる. • 既存技術に性能で劣る既存技術とは違うアプローチの⼈⼯知能を研究する. • 常に「既存技術で良いのでは」というツッコミに耐える必要がある. • やっても意味が無いかもしれないが,意味が有るかどうかはやってみないと分からない.しかし, やっても意味があるかどうか分からないかもしれない. • 例:NeuroAI,スパイキングニューラルネットワーク,量⼦機械学習(量⼦計算への新規参⼊は難 しいかも)
前半のまとめ
まとめ • 最先端の⼈⼯知能技術を活⽤するためには⽇々新しい技術の習得が必要である. • ⼈⼯知能技術の最新の情報を得るだけでも⽇々調査が必要となる. • ⼈⼯知能の応⽤に関する研究開発は益々盛んになるだろう. • 基礎技術と開発環境などの道具は揃っている. • 技術とハードウェア以外の開発環境は無料で⼿に⼊り,誰でも挑戦できる. • ノートパソコンが有るのであれば,GoogleColabolatoryを使えば⼈⼯知能技術を無料で試せる .⼈⼯知能技術を試すだけならハードウェアも無料と⾔える. • 研究者は企業と違う視点で研究テーマを模索することも必要だろう. • ⼈⼯知能の中⾝の理解を捨てる勇気も必要かもしれない. • ほとんどの⼈がコンピュータの原理を知ることなく(さらに気にすることもなく)使 いこなしている.⼈⼯知能技術も同じ態度で対応しても良いのではないか.
研究者として新しい技術をど う⽣み出すか
王道を外れましょう • 最新の技術を追いかける王道や応⽤研究を⽬指しても良いですが, • 現在のコンピュータや⼈⼯ニューラルネットワークとは異なるアプローチの⼈ ⼯知能を模索しても良いのでは.
⼈を参考にする
⼈は参考になるのでは • ⼈は • 簡単に覚える. • One-shot学習,few-shot学習(⼤規模⾔語モデルの得意技) • 五感の情報を使って判断する(マルチモーダル).すでに⾏われている. • 五感の情報と運動を統合している(Sensory motor interaction). すでに⾏われてい る. • 新しい発想をする.想像および創造する.ハルシネーションは創造ではないの か? • 複雑な推論,予測をする.(⼤規模⾔語モデルで可能かどうか?) • 複雑な規則性を⾒出す.(⼤規模⾔語モデルで可能かどうか?) • 感情を持つ.(⼤規模⾔語モデルは感情を持っているか?) • 意識を持つ.(⼤規模⾔語モデルは意識を持っているか?) • 性能の割に,⼩型で消費エネルギーが少ない. 対話型⼈⼯知能や画像⽣成 ⼈⼯知能は創造していると ⾔えるだろうか,⾔えない だろうか?創造とはなんだ ろう.
⼈は参考になるのでは • ⼈を参考に⼈⼯知能技術を⽬指す. • ⼈の機能(脳機能)に関わる知⾒はたくさんある. • 知⾒が沢⼭あるから脳のことが分かっているかというと分かってはいない. • ⼈は⼈⼯知能の技術的な⽬標にはなる. • だからといって,⽣理学的解剖学的知⾒に基づいて実現する必要はない.
脳を探るアプローチ
脳の情報処理メカニズムを解明するためアプローチ 0, 1, 2, 3, 4 5, 6, 7, 8, 9 • トップダウン的⼿法 • 脳を情報処理機械とみなし,そ の計算理論を明らかにすること で脳を理解する. 画像 脳 数字だとわかる 脳は情報処理をしているだけの物だか ら,脳の⼊⼒と出⼒から脳の計算⼿法 を導けば良い. • 機能から考える. • ボトムアップ的⼿法 • 脳を構成する構成要素とその相 互作⽤により,どのようにして 脳の情報処理機能が実現してい るのか明らかにする. トップダウンの⼈ 脳の出⼒は沢⼭の神経細胞の⽣化学的 ダイナミクスが積み重なった結果⽣じ るのだから,⽣理学的解剖学的知⾒を 積み重ねていけば脳の情報処理を再現 できる. • 部品から考える.要素還元主義. ボトムアップの⼈
コンピュータと脳の違いを知 り⼈⼯知能の参考にする
ハードウェアが違う • ⼈⼯知能を動かすハードウェア(コンピュータ)と⼈の知能を実現するハード ウェア(脳)は違う. 脳は省電⼒ 脳は⼩さく軽い 脳の記憶容量は,10^15以上の接続を持 つ860-1000億個のニューロンの存在か ら2,500 TB と推定されている (Reber, 2010; Herculano-Houzel,2012). (Smirnova et al., 2023)
コンピュータと脳の違い • 計算素⼦が違う • コンピュータはトランジスタ • 脳は神経細胞(ニューロン) • 数値が違う • コンピュータはデジタル(ソフトウェアでは浮動⼩数は使える) • 脳はアナログ(スパイクを使うからといってデジタルと⾔い切れないでしょう) 1 ハードから脳を⽬指す道 ニューロモーフィックコンピューティン グ 0 脳に存在する細胞の動作や神経網のアーキテク チャなどを模倣する(ヒントを得た)ハードウェ アによる計算 コンピュータは0か1 実際は,こんなきれいな矩形はではないだろう. 神経細胞の波形
脳はデジタルか • 膜電位が閾値処理によりスパイクに変換されることや,シナプス後電位はスパ イクにより誘発されるため,デジタル処理をしているように⾒える. • 実際に,⼊⼒の⼤きさはスパイクの数で表現される.これは実際のデジタル信号表 現(パルス密度変調)と合致する. • しかし,膜電位変化⾃体はアナログである.アナログの波形の積み重ねによる 情報処理も無視できないのではないだろうか. • 閾値下での膜電位変化による情報処理は無いのか? • 私の知識ではデジタルともアナログとも⾔えない. 膜電位のダイナミクスは複雑なもので,神経細胞は単純な閾値処理をしているわけではない.
⼈⼯ニューラルネットワーク と脳の違い知り⼈⼯知能の参 考にする
神経科学 ⼈⼯ニューラルネットワーク ネットワーク化 神経細胞(ニューロン) 脳 ⼈⼯ニューラル ネットワーク 数理モデル化 𝑓(𝒘! ⋅ 𝒙) ⼈⼯ニューロン ネットワーク化 ⼈⼯ニューラル ネットワーク ⼈⼯ニューロンを組み合わせ様々な機能を実現したものを⼈⼯ニューラルネットワークと呼ぶ. かつては,⼈⼯ニューロンは神経細胞を数理モデル化したもので,⼈⼯ニューラルネットワークは神経科学のと⾔えた. しかし,現在の⼈⼯ニューラルネットワークは神経細胞や脳の数理モデルから乖離しており,表⾯上は脳と関係ない. 表⾯上関係ないが,学習機械として共通する理論や性質があるのかもしれない. 解剖学的知⾒に基 づき精密に脳をモ デル化した⼈⼯ニ ューラルネットワ ークはあるだろう か.機能をモデル 化したものはたく さんあるだろう.
脳は神経細胞の集まり • 神経細胞が集まった部位. • 神経細胞がネットワークを構築している. • 神経細胞が脳における主な計算素⼦. • 脳にはグリア細胞など神経細胞以外の細胞も多く存在し,脳機能に重要な役割 を果たしている. • ⼀⽅,⼈⼯ニューラルネットワークは神経細胞とシナプスで構成されている. シナプス 実際の神経細胞は複雑に繋がっている ニューロン アストロサイト ニューロン オリゴデンドロサイト 神経細胞とグリア細胞 ⼈⼯ニューラルネットワーク
⼈⼯ニューロンと神経細胞は違う • 現在の⼈⼯知能の主流技術である⼈⼯ニューラルネットワークも⼈⼯的な神経 細胞(⼈⼯ニューロン)からなる. • しかし,神経細胞は⼈⼯知能で使われる⼈⼯ニューロンとは異なった性質を 持つ.
⼈⼯ニューラルネットワークと脳の違い • 脳の神経細胞は膜電位と呼ばれる電圧で情報処理をしており,⼊⼒が閾値を超 えるとスパイク状の電圧変化を起こす. • ⼈⼯ニューロンでは活性化関数𝑓 ⼊⼒ の値がニューロンの出⼒となる. ⼈⼯ニューロン ⼊⼒ ニュー ロン 閾値 𝑓(⋅) 出⼒ 活性化関数 ⼈⼯ニューロンの出⼒(活性化関数がステップ関数の場合) 実際のニューロンの応答 スパイク 脳の神経細胞は膜電位で情報処理 をしていると書いたが,正確には 神経細胞は細胞膜内外のイオン濃 度差を使い情報処理を⾏う. (Purves et al., Neuroscience) ⼈⼯ニューロンの出⼒(活性化関数がReLUの場合) 脳の神経細胞(ニューロン)は矩形波の⼊⼒であってもスパイク上の出⼒を発 するが,⼈⼯ニューロンは矩形波が⼊⼒されれば矩形はを出⼒するだろう.
脳は複雑だ • 脳は神経細胞だけではなくグリア細胞など様々な細胞でできている. • ⼈⼯ニューラルネットワークは均質なニューロンと値だけのシナプスで構成される. • 脳の神経細胞は複雑に繋がっている. • 神経細胞だけでも様々なものがある. 実際の神経細胞は複雑に繋がっている アストロサイト オリゴデンドロサイト 網膜の構造 ニューロンは⾊々ある (Carlson, Physiology of Behavior 11th ed) (British Neuroscience Association, Neuroscience)
多様な神経細胞の応答 1064 IEEE TRANSACTIONS ON NEURAL NETWORKS, VOL. 15, NO. 5, SEPTEMBER 20 (カンデル神経科学) 神経細胞の応答は個性豊かだ. Fig. 1. Summary of the neuro-computational properties of biological spiking neurons. Shown are simulations of the same model (1) and (2), with different choi (Izhikevich 2004) of parameters. Each horizontal bar denotes a 20-ms time interval. The MATLAB file generating the figure and containing all the parameters, as well as interact matlab tutorial program can be downloaded from the author’s website. This figure is reproduced with permission from www.izhikevich.com. (Electronic vers 注意:これはシミュレーション結果
脳のシナプスは単純ではない • ⼈⼯ニューラルネットワークでも脳でも,ニューロン同⼠の接続の間にシナプスがある. • 神経細胞の出⼒はシナプス後電位に変換され,次のニューロンに伝わる. • ⼈⼯ニューラルネットワークではニューロンの出⼒は⼊⼒×シナプスの重みを活性化関数で変化 させたものである. • 脳のシナプスは特有の動的応答を⽰す. • シナプスの重みは動的に変化しない(学習で変化するが). • 脳のシナプスには興奮抑制の区別がある. シナプスの応答 シナプス スパイクが⽣じた後, シナプス後電位が上昇 しその後減衰する. ⼈⼯ニューラルネットワー クの出⼒ 出⼒があった時間 𝑓(⼊⼒×重み) ニューロン ニューロン Figure 10-7 Synaptic transmission at chemical synapses involves several steps. An action potential arriv voltage-gated Ca2+ channels at the active zone to open. The influx of Ca2+ produces a high concentration of Ca2+ neurotransmitter to fuse with the presynaptic cell membrane and release時間 their contents into the synap (Kandel, Principals of containing Neuroscience) neurotransmitter molecules then diffuse across the synaptic cleft and bind to specific receptors on the post-synap
活性化関数は脳で使われていないかも • ⼈⼯ニューロンは⼊⼒をそのまま出⼒するのではなく,活性化関数を通して出 ⼒する. • ⼈⼯ニューラルネットワークでよく⽤いられる活性化関数はRectified linear関 数(ReLU: Rectified linear Unit)である. • ReLUは⼊⼒が0以下なら0,0より⼤きければ⼊⼒をそのまま出⼒する. • 脳の神経細胞においては,神経細胞の応答のモデルが活性化関数だと⾔えるだ ろう. • 神経細胞の閾値処理はステップ関数でモデル化できる. 活性化関数 𝑓(𝑥) ⼊⼒ ニューロン 𝑓(⋅) 活性化関数 出⼒ ⼊⼒𝑥
⼈⼯ニューラルネットワークで⽤いられる活性化関数 昔使われていた活性化関数 (神経細胞と関係がある) Sigmoid関数 1 ℎ 𝑥 = 1 + exp(−𝑥) 現在よく使われている活性化関数(神経細胞とは関係ないだろう) Rectified linear関数 (Rectified Linear Unit: ReLU) ℎ 𝑥 =. 𝑥 if 𝑥 ≥ 0 0 otherwise Leaky rectified linear関数 ステップ関数 GELU (Gaussian Error Linear Unit) ℎ 𝑥 = 𝑥Φ 𝑥 = 𝑥 𝑥 1 + erf 2 2 Φ 𝑥 :ガウス分布の累積分布関数 erf: Gaussian error function ℎ(𝑥) 𝑥 ℎ 𝑥 =. 𝑥 if 𝑥 ≥ 0 𝑎𝑥 otherwise 出⼒を0-1にしたい場合や − 1-1にしたい場合は,今で もsigmoid関数とtanhが使わ れる.
Sigmoid関数は神経細胞や脳のモデルと⾔える Sigmoid関数は次の現象をモデル化したものと⾔える. 1. 神経細胞の発⽕率は⼊⼒を⼤きくすればするほど⼤きくなる.しかし,発⽕ 率は⼀定以上には上がらない. 2. イオンチャネルの開閉確率は膜電位の⼤きさに依存する. 3. 神経細胞集団内の発⽕する神経細胞の数は⼊⼒を増やせば増やすほど⼤きく なる.しかし,神経細胞の数の上限は決まっている. ⼊⼒ 3 発⽕数 開閉確率 2 発⽕率 1 膜電位 ⼊⼒
神経細胞や脳に近づければ良いというわけではなかった • ステップ関数は神経細胞の閾値処理(all-or-none law)をモデル化したもの. • 閾値を超えたら発⽕するという現象をモデル化. • パーセプトロンで使われる. • ステップ関数は微分できないので多層化できなかった. • シグモイド関数は神経や脳の応答をモデル化したものと⾔える. • 多層パーセプトロンで使われる. • 勾配消失問題を⽣み出した.
Rectified linearはFukushimaが初めて使った? • ⼈⼯ニューラルネットワークでは,神経細胞や脳の応答とおそらく関係ない Rectified linear関数(Rectified linear Unit: ReLU)が活性化関数としてよく使わ れる. • ReLUの歴史は古く,Fukushimaが1969年の論⽂ですでに使っている. (Fukushima 1969より)
なぜこのような神経⽣理学とは異なる発想ができたのだろうか • ステップ関数やSigmoid関数の⽅が神経細胞の応答と対応がつく. • 神経細胞の発⽕率は⼊⼒が強ければ強いほど⾼くなるが,発⽕率の⾼さには限界があ りいずれ飽和する. • しかし,Fukushimaはなぜ神経細胞の応答と対応させにくいReLUを発想でき たのか? • Fukushimaは「⽣理学からはヒントをもらうが,開発時には実際の脳はいった ん忘れて研究を進めることが重要だ.ただ,それだけではいずれ限界が来る. その時はもう⼀度,⽣理学に戻って考える.これを繰り返すことで,前進して いけるだろう」(NikkeiBPnet, 2015)と語っている. • これはKanadeの「素⼈発想,⽞⼈実⾏」にも通じる.
脳の構造は複雑 • 脳のニューラルネットワークは,それぞれの処理に特化したアーキテクチャを ⽣得的および習得的に得ている. • ⽣得的にネットワーク構造を獲得している. • 網膜,蝸⽜(有⽑細胞と基底膜),Jeffress model (⾳源定位のための脳ネットワーク)は典 型的な例であろう. • ⽣物は⾃然界で効率よく情報を処理し⽣き残るために帰納バイアスを活⽤したシステムを構 築していると⾔えるだろう. • 習得的にもネットワークを獲得している. • 第⼀次視覚野やbarrel cortex(ラットの脳は,ひげ⼀本⼀本に対応した領域を持つ)は典型 例だろう. • 畳み込みニューラルネットワークは,脳の受容野を⼈⼯ニューラルネットワー クに取り⼊れることで成功したと⾔えるだろう. • 畳み込みニューラルネットワークは脳の視覚情報処理と対応が付きやすい.
⼈間の視覚処理 第⼀次視覚野:V1 ITの構造 (Tanaka, 2003) (Kandel, Neuroscience) 下側頭葉:IT (inferior temporal cortex) Figure 25-12 Possible functions mediated by the two pathways connecting visual processing centers in the cerebral cortex. The icons represent salient physiological properties of cells in these areas. On the top is the pathway extending to the posterior parietal cortex, which is thought to be particularly involved in processing motion, depth, and spatial information. On the bottom is the pathway to the inferior temporal cortex, which is more concerned with form and color. Feeding into those two cortical pathways are the P and M 腹側経路 pathways from the retina. (MT = middle temporal; LGN = lateral geniculate nucleus.) (Adapted from Van Essen and Gallant 1994.) V1の構造 (Carlson) V2 V4 網膜 V1 IT LGN 組み合わ 組み合わ センサ 基本画像 features—movement, depth, form, and color. To ⾓度 express the specific combination of properties in the visual field at any given moment, せ せ independent groups of cells with different functions must temporarily be brought into association. As a result, there must be a mechanism Instead, as we have seen in this chapter, visual images typically are built up from the inputs of parallel pathways that process different by which the brain momentarily associates the information being processed independently by different cell populations in different cortical regions. This mechanism, as yet unspecified, is called the binding mechanism.
単純型細胞と複雑型細胞 複雑型細胞 単純型細胞 CNNのプーリングに対応 メキシカンハット型フィルタ ON中⼼OFF周辺型受容野 (Kandel) CNNのフィルタに対応 ガボールフィルタ メキシカンハット型受容野を持つ細胞を束ねることで,線分をとらえる. 第1次視覚野の受容野はガボールフィルタに似ている. 深層ニューラルネットワークにおいても,下層でガボールフィルタに 似たフィルタが形成されることが確認されている. (Kandel) 線分に対し横断的に応答 する.
Neocognitron(Biolcybern1980) • HubelとWieselの視覚の研究がベースとなる • 単純型細胞に対応したS-cellsで構成されるUs層と複雑型細胞に対応したCcellsで構成されるUc層がある. • Us層は畳み込み層,Uc層はプーリング層に対応する. • 視覚野のモデルであるNeocognitronが畳み込みニューラルネットワークへつな がる. 198 S-layer f I "/i" j S-plane P "-- ~ ~ S-column ^ ネオコグニトロンの構造(福島, 2017) Fig. 4. Relation between S-planes and S-columnswithin an S-layer ネオコグニトロンの仕組み(Fukushima, UsI Ucl Us2 1980) ki=I なぜNeocognitronと⾔うのか? Cognitronのニューバージョンだから.
脳は新たな⼈⼯ニューラルネットワークの参考になるか? • 計測機器の進化により脳の構造は明らかになってきている. • 脳の構造から着想した新たなニューラルネットワークアーキテクチャが⼈⼯知 能をより発展させるかもしれない. • 畳み込みニューラルネットワークは,視覚研究の成果から着想を得て開発されたネ オコグニトロンから始まった. • とはいえ簡単ではないだろう.
深層ニューラルネットワークは深すぎる? • ⼈が⼀つの判断をするために500ms必要とする (遅めに設定) . • 1スパイクを送るために必要な時間が10msだとすると判断に使えるネットワー クの層の上限は50ということになる(だたし,スパイク1本で確実に処理で きるとする). • 100層超の深層ニューラルネットワークは⼈の脳と⽐べると深すぎるのかもし れない. • スケール則の論⽂(Kaplan et al., 2020)では,「モデルの性能は深さや幅などの構造 にはあまり依存しない.」と書かれており,ニューラルネットワークは深くしなく ても良さそうではある. • 脳は幅が広く⽐較的浅い深層ニューラルネットワークなのだろうか?
学習⽅法が違う • ⼈⼯ニューラルネットワークは学習にBackpropagationを使っている. • 神経科学の⽴場から⾒れば Backpropagationを使ったニューラルネットワーク の学習は脳モデルからの逸脱しているのではないか. • 脳でBackpropagationが起こっているかどうか分かっていない. • Back-prop netは脳が⾏っているかどうかで⾔えば,現実的なものではない (Crick, 1989).
脳の学習⽅法(シナプス可塑性) • シナプス可塑性とはシナプスの伝達効率(シナプスの結合強度,シナプス荷重)の 変化のことである. • 脳は学習の要因の⼀つがシナプス可塑性である. • シナプス可塑性に関わる⽤語 • ヘブ学習 (Hebbian learning) • ニューロンAとニューロンBが発⽕するとお互いの結合が強まる. • ⻑期増強 (Long term potentiation: LTP), ⻑期抑圧 (Long term depression) • ⻑期的なシナプスの伝達効率の増強(抑圧) • スパイクタイミングシナプス可塑性 (Spike timing dependent plasticity: STDP) • スパイクの到着時間によるシナプスの可塑性 • 短期シナプス可塑性 (Short term synaptic plasticity, Dynamic synapse) • 軸索終末の神経伝達物質が充填されたシナプス⼩胞の需給 (放出可能プールの状況)により⽣じる可 塑性
Hebbian learning(ヘブ学習)(1949年) • Hebbが提案した脳の学習の理論 • シナプス前ニューロンが繰り返し発⽕し,シナプス後ニューロンの発⽕を助け たとき,そのシナプスは成⻑する. ニューロンの応答 ニューロンの応答 time time 学習によりシナプスが成⻑する. ニューロンの応答 ニューロンの応答 time Hebbの本では,当時おばあさん細胞説とpopulation codingが議論されていて,population codingが 主流であると述べている.Hebbはおばあさん細胞説に基づき議論している.なかなか⾯⽩い. time (Hebb, 1949)
input, but no change was observed if it was not stimulated (Fig. 2b). Consistent with that found for the repetitive stimulation of single inputs, no potentiation of either input was observed when synchronous co-stimulation produced only subthreshold synaptic potential in the tectal cell (Fig. 3b). STDP学習 planted with a third eye22 and for the reÆnement of the topographic map23,24. Activity-induced long-term potentiation (LTP) and depression (LTD) in the CA1 region of the hippocampus25,26 and in the visual cortex27±29 and lateral geniculate nucleus (LGN)30,31 have also been shown to depend on the activation of NMDA receptors. Here we have added AP5 (50 mM), a selective NMDA receptor antagonist, to the perfusion medium. This treatment did not affect the spiking of the tectal neuron. However, we found that asynchronous paired stimulation similar to that described above for STDP学習とは,シナプス前後膜ニューロンのスパイクの The effect of temporal pattern of activity on synaptic interactions between converging inputs was explored further by a series of studies using repetitive asynchronous co-stimulation. In the Ærst 到着時間の関係によりシナプス荷重が変わる学習である. set of experiments, the Ærst input (A) elicited spiking in the tectal Asynchronous co-stimulation of convergent inputs Post Pre cell, whereas the second input (B), 15 ms later, resulted in only subthreshold EPSPs (Fig. 4a). After 100 paired stimuli at 1 Hz, input A became potentiated and input B became depressed; results from six experiments are summarized in Fig. 4a. In the second set of experiments, both inputs A and B were capable of initiating spiking of the tectal neuron. After the same 100 paired stimuli, input A was markedly potentiated, whereas input B exhibited only a slight potentiation (Fig. 4b). Taken together with the data shown in Fig. 4a, these results suggest that the suprathreshold input B can protect itself from depression induced by the preceding suprathreshold input A. The limited potentiation of input B may be attributed to the depressive effect of the spiking induced by input A. In the third set of experiments, in which the tectal response to input A was subthreshold and input B initiated spiking, input B showed substantial potentiation following repetitive co-stimulation, whereas the potentiation of input A was rather limited (Fig. 4c). In the latter case, the onset of the synaptic response to input A was about 20 ms before the peak of the spike induced by input B, although the interval between the stimuli applied at the retina was 15 ms. Finally, when both inputs were subthreshold, repetitive asynchronous costimulation produced no signiÆcant effect on the synaptic efÆcacy of either input (Fig. 4d). These results conÆrm that postsynaptic Figure 5 The critical window for synaptic and depression. The pre potentiation post spiking is required for the induction of synaptic potentiation. percentage change in the EPSC amplitude of synaptic inputs 10±30 min after (Zhang et. al. 1998) Furthermore, persistent synaptic depression is induced when the repetitive stimulation was plotted against the time of the input (deÆned by the subthreshold input is activated within 15±20 ms after spiking of the onset time of the EPSP relative to the peak of the action potential initiated in the postsynaptic neuron. Finally, although synaptic potentiation was tectal cell). Filled triangles show data from experiments similar to those described シナプス前ニューロンがシナプス後ニューロンより先に発⽕したとき,シナプス荷重が増強 induced at a subthreshold input when it was activated immediately in Fig. 4a, c. Two converging inputs (one suprathreshold and one subthreshold) シナプス後ニューロンがシナプス前ニューロンより先に発⽕したとき,シナプス荷重が減弱 before postsynaptic spiking (as synchronous co-activation), the were stimulated repetitively (at 1 Hz for 100 s), with varying intervals between the potentiation effect largely disappeared when the subthreshold stimuli applied to the two inputs. Only changes in the strength of the subthreshold input was activated about 20 ms before the peak of the postsynaptic input were plotted. The results for synaptic inputs were Ætted separately for action potential. positive and negative times with Ærst-order kinetics, as shown by solid curves. t=t • • t (Abbott and Nelson 2000) 学習曲線は様々ある. Open circles show data from experiments in which repetitive spiking (at 1 Hz for Timing requirements for synaptic modiÆcations 100 s) of the tectal cell was induced by injections of depolarizing currents at The precise timing of synaptic activation required for the induction different times with respect to a subthreshold synaptic input. NATURE | VOL 395 | 3 SEPTEMBER 1998 いわゆるSTDPはin vivo(⽣体内で)で起こっているのか?起こってないのか? Nature © Macmillan Publishers Ltd 1998 41
脳を参考に⼈⼯知能を進化させる • 脳と⼈⼯ニューラルネットワークには,それを構成する素⼦や構造に違いがあ る. • 脳の構造や神経細胞の性質など取り⼊れた⼈⼯ニューラルネットワークを作り, ⼈⼯知能を脳に近づけることで,新たな⼈⼯知能が出来るかもしれない. • しかし,機能や性能が脳に近づくとは限らない. • さらに,ニューラルネットワークを脳に近づけると性能が落ちるかもしれない. • 実際に,⽣物のモデル的な要素を持つSigmoid関数よりReLUを使ったほうが性能が良い.
脳を直接使えばよいのでは
脳を直接使えばよいのでは • 脳オルガノイド(培養した脳細胞)を使った⼈⼯知能の研究が進む( Organoid Intelligence: OI). • 培養脳がゲームを解く(Kagan et al., 2022). Fristonのグループ (https://www.sciencedirect.com/science/article/pii/S0896627322008066)
後半のまとめ
まとめ • ⼈⼯ニューラルエットワークと⽣物の脳はかなり違う. • ⼈⼯知能と⽣物の区別なく知能の研究対象として扱いたい. • ⽣物の知能の発現メカニズムが分かれば,それを⼈⼯知能に応⽤できるかもしれな い. • 脳研究の成果から⼈⼯知能の新たな技術を発想できるかもしれない. • 逆に⼈⼯知能で得た知⾒から⼈や脳の理解が深まるかもしれない.
これも忘れないように • Suttonは,「⼈の知識によるアプローチは⼿法を複雑にする傾向にあり,それ はコンピュータを活⽤した⼀般的⼿法には適さない.ゲーム⼈⼯知能でも初期 は⼈間の知識を利⽤し探索を避けようと努⼒したが,⼤規模に探索が適⽤さ れると,探索を避けることは無関係か,より悪いことを引き起こす」と⾔っ ている.(http://www.incompleteideas.net/IncIdeas/BitterLesson.html) • 下⼿な知恵は⼈⼯知能の性能を悪化させる.