[DL輪読会]Measuring abstract reasoning in neural networks

>100 Views

July 27, 18

#deep learning #neural networks #abstract reasoning #Raven's Progressive Matrices #WReN architecture

スライド概要

2018/07/27
Deep Learning JP:
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 87.4K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 59.9K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 58.5K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 41.4K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 37.9K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 37.5K

各ページのテキスト

DEEP LEARNING JP [DL Papers] Measuring abstract reasoning in neural networks （ICML2018） Norihisa Kobayashi http://deeplearning.jp/ 1

http://deeplearning.jp/

書誌情報タイトル： Measuring abstract reasoning in neural networks（ICML2018）（https://arxiv.org/abs/1807.04225）著者： David G.T. Barrett, Felix Hill, Adam Santoro, Ari S. Morcos, Timothy Lillicrap 概要： • ニューラルネットワークでは、大きな成果を上げているが、抽象的な推論を確立することは困難である事が証明されている • 本研究では、抽象推論を測定するアプローチを示し、一般化に関する洞察を明らかにする • 結果、新しいアーキテクチャ(WReN)を提示し、従来のアーキテクチャよりも高い精度を出した • また、補助訓練を行うことで、一般化の精度を高めることができた • 抽象推論と一般化の両方をモデルで研究するためのツールとして、PGMデータセットを導入選定理由：汎用化や抽象的な学習に興味 2

https://arxiv.org/abs/1807.04225

書誌情報 DeepMind News & Blog https://deepmind.com/blog/measuring-abstract-reasoning/ 3

https://deepmind.com/blog/measuring-abstract-reasoning/

アジェンダ 1. Introduction 2. Raven‘s Progressive Matrices（RPM） 3. Procedurally generating matrices 4. Models and Experimental Setup 5. Experiments 6. Discussion 4

1. Introduction 背景 • ニューラルネットワークベースのモデルは、大きな成果を上げているが、抽象的な推論を確立することは困難である事が証明されている • 抽象的な推論は人間の知性の特徴であり、重要である（アインシュタインのエレベータ思考実験など、抽象的な概念を関連付ける能力は知性において重要）より賢いシステムを構築するためには、ニューラルネットワークが抽象的な概念を処理できる方法を理解し、改善が必要なところがどこにあるのかを理解することが重要 5

1. Introduction 研究目的 1. 最先端のニューラルネットワークは、豊富な訓練データで訓練されれば、複雑で人間が挑戦する抽象的な推論課題に対する解決策を見つけることができるか？ 2. 見つけられるのであれば、訓練データが制御されているときにどれだけうまく推論できるのか？ 6

2. Raven‘s Progressive Matrices（RPM） Raven‘s Progressive Matrices（RPM） • アメリカの心理学者レーヴンによって1938年に考案された知能検査 • RPMは、通常不完全な3 × 3マトリックスと、8つの回答候補画像から構成 • 候補画像のどれがマトリクスを完成させるのに最適な選択肢であるかを選択する 7

2. Raven‘s Progressive Matrices（RPM）Ｑ．次の空欄に当てはまる図形を選択してください。 8

2. Raven's Progressive Matrices（RPM）Ｑ．次の空欄に当てはまる図形を選択してください。Ａ．「A」が正解です。何故か？ 9

10.

2. Raven's Progressive Matrices（RPM）同じ行において、パネルが右にいくにつれて点の数が多くなっている。そのため、右下の空欄には「４」となることが推測できる。＝ 10

11.

2. Raven's Progressive Matrices（RPM）点が4つあるのは「A」のみのため、Aが正解となる。 11

12.

2. Raven's Progressive Matrices（RPM）Ｑ．次の空欄に当てはまる図形を選択してください。 12

13.

2. Raven's Progressive Matrices（RPM）Ｑ．次の空欄に当てはまる図形を選択してください。Ａ．「A」が正解です。何故か？ 13

14.

2. Raven's Progressive Matrices（RPM）各列には、点の数が「1」、「5」、「7」のパネルがある。（このような一連を ”consistent union”と呼ぶ。）一番右の列は、点の数が「1」のパネルが無いので、空欄は「1」なることが推測できる。＝ 14

15.

2. Raven's Progressive Matrices（RPM）しかし、点が「1」のパネルはA, C, D, E, Hが該当するため、別の関係性を見つける必要がある。別の関係性とは、どのようなものか？ 15

16.

2. Raven's Progressive Matrices（RPM）各行を見ると、1列目と２列目に共通して出現してる線が3列目に現れている。（これをAND relationと呼ぶ）この関係が成り立つのは、「A」、「B」、「G」である。 16

17.

2. Raven's Progressive Matrices（RPM）２つの関連性を満たしている選択肢は、「A」のみとなる。 17

18.

3. Procedurally generating matrices PGMs データセットの生成 • RPMを学習するために、Procedurally Generated Matrices (PGM) データセットを生成 • Carpenter et al.（1990）、Wang＆Su（2015）を参考 • 抽象構造を、３つの集合要素から定義 relation types（r ∈ R）：progression, XOR, OR, AND, consistent union object types（o ∈ O）：shape, line attribute types（a ∈ A）：size, type, color, position, number 例：S = [r, o, a] ＝ [progression, shape, color] （1 ≤ |S| ≤ 4） 18

19.

3. Procedurally generating matrices PGMs データセットの生成 19

20.

3. Procedurally generating matrices 一般化レジーム訓練データとテストデータを意図的に変えて、汎化性能を試す（1）Neutral （2）Interpolation（内挿）（3）Extrapolation（外挿）（4）Held-out Attribute shape-color （5）Held-out Attribute line-type （6）Held-out Triples （7）Held-out Pairs of Triples （8）Held-out Attribute Pairs ：：：：：：：：訓練データとテストデータは、同じ基礎分布から生成偶数のデータで訓練し、奇数のデータでテスト Lowerのデータで訓練し、Upperのデータでテスト訓練データセットにo=「shape」と、a=「color」なし訓練データセットにo=「line」と、a=「type」なし 29の組み合わせのうち、7組をホールドアウト S≥2で、400の組み合わせのうち、40組をホールドアウト S≥2で、20組の (a1, a2)に対して、4組をホールドアウト 20

21.

4. Models and Experimental Setup 入力データ • 8つのContext Panel と、8つのChoice Panel（回答候補）で構成 • 各パネルは80×80ピクセルの画像モデル • • • • • • CNN-MLP ResNet LSTM Wild Relation Network（WReN） Wild ResNet Context-blind ResNet 21

22.

4. Models and Experimental Setup Wild Relation Network（WReN） • • • • Relation Networks（Santoro et al. 2017）に基づくアーキテクチャ CNNは、各Context Panelと、Choice Panelから9つの埋め込みベクトルを生成ベクトルはRNに渡され、Choice Panelのスコアを付ける各回答選択肢ごとに1つ作成された結果をsoftmax関数に渡す 22

23.

4. Models and Experimental Setup 補助情報の訓練 • relation, object, attribute タイプをバイナリ文字列としてエンコードする「メタ・ターゲット」を構築 • 12桁で、shape, line, color, number, position, size, type, progression, XOR, OR, AND, consistent union を表現し、OR演算を行い、メタ・ターゲットを生成例： OR（[101000010000], [100100010000]）= [101100010000] • 補助情報の訓練の影響を考慮する場合は、以下においてβ≠0とする L𝑡𝑜𝑡𝑎𝑙 = 𝐿𝑡𝑎𝑟𝑔𝑒𝑡 + βL𝑚𝑒𝑡𝑎−𝑡𝑎𝑟𝑔𝑒𝑡 23

24.

5. Experiments モデル別の精度の比較 • ResNet-50 > LSTM > CNN の順で精度が高い • 最も精度が高かったのがWReN 24

25.

5. Experiments 質問タイプ別の精度関係性の数 • 関係性が多いほど精度は低くなる傾向がある • しかし、関係性が３つの場合の方が、関係性が４つの場合より精度が低い結果となった 25

26.

5. Experiments 質問タイプ別の精度関係性の種類 • 図形の数や、線の有無は精度が高い • 一方で、大きさや形状は精度が低い 26

27.

5. Experiments 一般化 • 最も誤差が少ないのは、Interpolation（内挿）で、一般化誤差14：6％ • 最も誤差が大きいのは、Extrapolation（外挿）で、一般化誤差52.1% →一般化の失敗は、範囲外の入力を認識できないことに起因する可能性がある • Held-out Triplesの一般化の精度が低いということは、モデルが、構成要素の知識から未知の集合を推論することができないことを示唆している • Heldout line-type、Held-out shape-colorの結果から、新しい属性で作られた関係を理解できていない 27

28.

5. Experiments 補助訓練の効果 • 補助訓練により、一般化レジームの精度は向上した • 新しい組み合わせに再結合するモデルは、特に精度が向上（H.O. Triple Pairsは41.9%→56.3％、 H.O.Attribute Pairsは、27.2%→51.7％） • この発見は、知識表現（Andreas et al. 2016）のための離散チャネルの利点と、説明や理論的根拠の誘導の利点に関する観察と一致する（Ling et al. 2017） 28

29.

5. Experiments 補助訓練の分析 • 補助訓練は、パフォーマンスを向上させることに加えて、モデルがそのPGMに存在すると判断している shapes, attributes, relationsを測定し、モデルを把握することができる。 • WReNモデルは、メタ・ターゲットの予測が正しければ87.4％のテスト精度を達成したが、予測が正しくない場合は34.8％であった。 • メタ・ターゲット予測は、オブジェクト、属性、およびリレーション・タイプの予測に分解できる。WReNモデルの精度が、これらの特性のそれぞれについて予測値の関数としてどのように変化するかを調査 shapes attributes relation メタ・ターゲット予測が、メタ・ターゲット予測が、正しい場合のテスト精度誤っている場合のテスト精度 78.2% 62.2% 79.5% 49.0% 86.8% 32.1% ⇒relationプロパティの差が最も大きい ⇒relationプロパティを正しく予測することが、タスクの成功に最も重要である 29

30.

6. Discussion 研究目的に対する結果 1. 最先端のニューラルネットワークは、豊富な訓練データで訓練されれば、複雑で人間が挑戦する抽象的な推論課題に対する解決策を見つけることができるか？ • ニューラルネットワークは抽象推論を学ぶことができる • CNNやResNetsなどの標準的なビジュアルプロセッシングモデルでは不十分であり、 WReNによって複雑な視覚的推論の問題を解決することを学んだ。 • 補助訓練を行うことで精度を向上させる方法を見つけた。メタ・ターゲットを生成することで、モデルの汎化能力が向上した。 30

31.

6. Discussion 研究目的に対する結果２．複雑で人間が挑戦する抽象的な推論課題に対する解決策を見つけられるのであれば、訓練データが制御されているときにどれだけうまく推論できるのか？ • モデルは非常に制約されており、有限の属性と値で少数の関係から構成されている • 本研究のモデルは、日常生活における経験を、馴染みのない視覚的な推論問題設定に移す必要がある人間とは異なり、知覚的および構造的均一性の高い質問セットで訓練している。 • 既知の属性値の間を補間する必要がある場合、またよく知られていない組み合わせで既知の抽象的なコンテンツを適用する場合、モデルは一般化されている。しかしながら、この制約された領域内であっても、彼らは経験を超えてインプットに推論する必要があるとき、あるいはまったく馴染みのない属性に対処する必要があるとき、著しく精度が低くなった。 • 後者の行動では、モデルと人間とは非常に異なる。 XORなどの関係を線の色に適用できる人間は、ほぼ確実にそれを形の色に適用ができる。 31

32.

6. Discussion その他貢献 • 本研究の重要な貢献は、抽象推論と一般化の両方をモデルで研究するためのツールとして、 PGMデータセットを導入したこと課題 • メタラーニングなど一般化に向けた改善 • WReNモデルの改良 32

33.

6. Discussion 感想 • （記載されているが）限られた条件の中でのテストであるので、抽象的な推論を行うにはまだ課題がある • 一方で、質問タイプによる違いや一般化レジームごとの精度の違いを見比べると違いが出ていたり、補助的な学習で精度を高めたりと、抽象化・一般化に向けた参考となった 33

34.

Appendix 参考文献 • Andreas, J., Klein, D., and Levine, S. Modular multitask reinforcement learning with policy sketches. arXiv preprint arXiv:1611.01796, 2016. • http://proceedings.mlr.press/v80/santoro18a/santoro18a-supp.pdf • https://deepmind.com/blog/measuring-abstract-reasoning/ 34