>100 Views
July 27, 18
スライド概要
2018/07/27
Deep Learning JP:
http://deeplearning.jp/seminar-2/
DL輪読会資料
DEEP LEARNING JP [DL Papers] Measuring abstract reasoning in neural networks (ICML2018) Norihisa Kobayashi http://deeplearning.jp/ 1
書誌情報 タイトル: Measuring abstract reasoning in neural networks(ICML2018) (https://arxiv.org/abs/1807.04225) 著者: David G.T. Barrett, Felix Hill, Adam Santoro, Ari S. Morcos, Timothy Lillicrap 概要: • ニューラルネットワークでは、大きな成果を上げているが、抽象的な推論を確立することは困難で ある事が証明されている • 本研究では、抽象推論を測定するアプローチを示し、一般化に関する洞察を明らかにする • 結果、新しいアーキテクチャ(WReN)を提示し、従来のアーキテクチャよりも高い精度を出した • また、補助訓練を行うことで、一般化の精度を高めることができた • 抽象推論と一般化の両方をモデルで研究するためのツールとして、PGMデータセットを導入 選定理由: 汎用化や抽象的な学習に興味 2
書誌情報 DeepMind News & Blog https://deepmind.com/blog/measuring-abstract-reasoning/ 3
アジェンダ 1. Introduction 2. Raven‘s Progressive Matrices(RPM) 3. Procedurally generating matrices 4. Models and Experimental Setup 5. Experiments 6. Discussion 4
1. Introduction 背景 • ニューラルネットワークベースのモデルは、大きな成果を上げているが、抽象的な推論を確立することは困難で ある事が証明されている • 抽象的な推論は人間の知性の特徴であり、重要である (アインシュタインのエレベータ思考実験など、抽象的な概念を関連付ける能力は知性において重要) より賢いシステムを構築するためには、ニューラルネットワークが抽象的な概念を 処理できる方法を理解し、改善が必要なところがどこにあるのかを理解することが重要 5
1. Introduction 研究目的 1. 最先端のニューラルネットワークは、豊富な訓練データで訓練されれば、複雑で人間が挑戦する抽象的な 推論課題に対する解決策を見つけることができるか? 2. 見つけられるのであれば、訓練データが制御されているときにどれだけうまく推論できるのか? 6
2. Raven‘s Progressive Matrices(RPM) Raven‘s Progressive Matrices(RPM) • アメリカの心理学者レーヴンによって1938年に考案された知能検査 • RPMは、通常不完全な3 × 3マトリックスと、8つの回答候補画像から構成 • 候補画像のどれがマトリクスを完成させるのに最適な選択肢であるかを選択する 7
2. Raven‘s Progressive Matrices(RPM) Q.次の空欄に当てはまる図形を選択してください。 8
2. Raven's Progressive Matrices(RPM) Q.次の空欄に当てはまる図形を選択してください。 A.「A」が正解です。何故か? 9
2. Raven's Progressive Matrices(RPM) 同じ行において、パネルが右にいくにつれて点の数が多くなっている。 そのため、右下の空欄には「4」 となることが推測できる。 = 10
2. Raven's Progressive Matrices(RPM) 点が4つあるのは「A」のみのため、Aが正解となる。 11
2. Raven's Progressive Matrices(RPM) Q.次の空欄に当てはまる図形を選択してください。 12
2. Raven's Progressive Matrices(RPM) Q.次の空欄に当てはまる図形を選択してください。 A.「A」が正解です。何故か? 13
2. Raven's Progressive Matrices(RPM) 各列には、点の数が「1」、「5」、「7」 のパネルがある。(このような一連を ”consistent union”と呼ぶ。) 一番右の列は、点の数が「1」のパネルが無いので、空欄は「1」なることが推測できる。 = 14
2. Raven's Progressive Matrices(RPM) しかし、点が「1」のパネルはA, C, D, E, Hが該当するため、別の関係性を見つける必要がある。 別の関係性とは、どのようなものか? 15
2. Raven's Progressive Matrices(RPM) 各行を見ると、1列目と2列目に共通して出現してる線が3列目に現れている。(これをAND relationと呼ぶ) この関係が成り立つのは、「A」、「B」、「G」 である。 16
2. Raven's Progressive Matrices(RPM) 2つの関連性を満たしている選択肢は、「A」のみとなる。 17
3. Procedurally generating matrices PGMs データセットの生成 • RPMを学習するために、Procedurally Generated Matrices (PGM) データセット を生成 • Carpenter et al.(1990)、Wang&Su(2015)を参考 • 抽象構造を、3つの集合要素から定義 relation types(r ∈ R) :progression, XOR, OR, AND, consistent union object types(o ∈ O) :shape, line attribute types(a ∈ A):size, type, color, position, number 例:S = [r, o, a] = [progression, shape, color] (1 ≤ |S| ≤ 4) 18
3. Procedurally generating matrices PGMs データセットの生成 19
3. Procedurally generating matrices 一般化レジーム 訓練データとテストデータを意図的に変えて、汎化性能を試す (1)Neutral (2)Interpolation(内挿) (3)Extrapolation(外挿) (4)Held-out Attribute shape-color (5)Held-out Attribute line-type (6)Held-out Triples (7)Held-out Pairs of Triples (8)Held-out Attribute Pairs : : : : : : : : 訓練データとテストデータは、同じ基礎分布から生成 偶数のデータで訓練し、奇数のデータでテスト Lowerのデータで訓練し、Upperのデータでテスト 訓練データセットにo=「shape」と、a=「color」なし 訓練データセットにo=「line」と、a=「type」なし 29の組み合わせのうち、7組をホールドアウト S≥2で、400の組み合わせのうち、40組をホールドアウト S≥2で、20組の (a1, a2)に対して、4組をホールドアウト 20
4. Models and Experimental Setup 入力データ • 8つのContext Panel と、8つのChoice Panel(回答候補)で構成 • 各パネルは80×80ピクセルの画像 モデル • • • • • • CNN-MLP ResNet LSTM Wild Relation Network(WReN) Wild ResNet Context-blind ResNet 21
4. Models and Experimental Setup Wild Relation Network(WReN) • • • • Relation Networks(Santoro et al. 2017)に基づくアーキテクチャ CNNは、各Context Panelと、Choice Panelから9つの埋め込みベクトルを生成 ベクトルはRNに渡され、Choice Panelのスコアを付ける 各回答選択肢ごとに1つ作成された結果をsoftmax関数に渡す 22
4. Models and Experimental Setup 補助情報の訓練 • relation, object, attribute タイプをバイナリ文字列としてエンコードする「メタ・ターゲット」を構築 • 12桁で、shape, line, color, number, position, size, type, progression, XOR, OR, AND, consistent union を表現し、OR演算を行い、メタ・ターゲットを生成 例: OR([101000010000], [100100010000])= [101100010000] • 補助情報の訓練の影響を考慮する場合は、以下においてβ≠0とする L𝑡𝑜𝑡𝑎𝑙 = 𝐿𝑡𝑎𝑟𝑔𝑒𝑡 + βL𝑚𝑒𝑡𝑎−𝑡𝑎𝑟𝑔𝑒𝑡 23
5. Experiments モデル別の精度の比較 • ResNet-50 > LSTM > CNN の順で精度が高い • 最も精度が高かったのがWReN 24
5. Experiments 質問タイプ別の精度 関係性の数 • 関係性が多いほど精度は低くなる傾向がある • しかし、関係性が3つの場合の方が、関係性が4つ の場合より精度が低い結果となった 25
5. Experiments 質問タイプ別の精度 関係性の種類 • 図形の数や、線の有無は精度が高い • 一方で、大きさや形状は精度が低い 26
5. Experiments 一般化 • 最も誤差が少ないのは、Interpolation(内挿)で、 一般化誤差14:6% • 最も誤差が大きいのは、Extrapolation(外挿)で、 一般化誤差52.1% →一般化の失敗は、範囲外の入力を認識できないこと に起因する可能性がある • Held-out Triplesの一般化の精度が低いということは、 モデルが、構成要素の知識から未知の集合を推論するこ とができないことを示唆している • Heldout line-type、Held-out shape-colorの結果 から、新しい属性で作られた関係を理解できていない 27
5. Experiments 補助訓練の効果 • 補助訓練により、一般化レジームの精度は向上した • 新しい組み合わせに再結合するモデルは、特に精度が向上(H.O. Triple Pairsは41.9%→56.3%、 H.O.Attribute Pairsは、27.2%→51.7%) • この発見は、知識表現(Andreas et al. 2016)のための離散チャネルの利点と、説明や理論的根拠の 誘導の利点に関する観察と一致する(Ling et al. 2017) 28
5. Experiments 補助訓練の分析 • 補助訓練は、パフォーマンスを向上させることに加えて、モデルがそのPGMに存在すると判断している shapes, attributes, relationsを測定し、モデルを把握することができる。 • WReNモデルは、メタ・ターゲットの予測が正しければ87.4%のテスト精度を達成したが、予測が正しくない 場合は34.8%であった。 • メタ・ターゲット予測は、オブジェクト、属性、およびリレーション・タイプの予測に分解できる。WReNモデルの 精度が、これらの特性のそれぞれについて予測値の関数としてどのように変化するかを調査 shapes attributes relation メタ・ターゲット予測が、 メタ・ターゲット予測が、 正しい場合のテスト精度 誤っている場合のテスト精度 78.2% 62.2% 79.5% 49.0% 86.8% 32.1% ⇒relationプロパティの差が最も大きい ⇒relationプロパティを正しく予測することが、タスクの成功に最も重要である 29
6. Discussion 研究目的に対する結果 1. 最先端のニューラルネットワークは、豊富な訓練データで訓練されれば、複雑で人間が挑戦する抽象的な 推論課題に対する解決策を見つけることができるか? • ニューラルネットワークは抽象推論を学ぶことができる • CNNやResNetsなどの標準的なビジュアルプロセッシングモデルでは不十分であり、 WReNによって複雑な視覚的推論の問題を解決することを学んだ。 • 補助訓練を行うことで精度を向上させる方法を見つけた。メタ・ターゲットを生成することで、 モデルの汎化能力が向上した。 30
6. Discussion 研究目的に対する結果 2.複雑で人間が挑戦する抽象的な推論課題に対する解決策を見つけられるのであれば、訓練データが制御 されているときにどれだけうまく推論できるのか? • モデルは非常に制約されており、有限の属性と値で少数の関係から構成されている • 本研究のモデルは、日常生活における経験を、馴染みのない視覚的な推論問題設定に移す必要が ある人間とは異なり、知覚的および構造的均一性の高い質問セットで訓練している。 • 既知の属性値の間を補間する必要がある場合、またよく知られていない組み合わせで既知の抽象的 なコンテンツを適用する場合、モデルは一般化されている。しかしながら、この制約された領域内であっ ても、彼らは経験を超えてインプットに推論する必要があるとき、あるいはまったく馴染みのない属性に 対処する必要があるとき、著しく精度が低くなった。 • 後者の行動では、モデルと人間とは非常に異なる。 XORなどの関係を線の色に適用できる人間は、 ほぼ確実にそれを形の色に適用ができる。 31
6. Discussion その他貢献 • 本研究の重要な貢献は、抽象推論と一般化の両方をモデルで研究するためのツールとして、 PGMデータセットを導入したこと 課題 • メタラーニングなど一般化に向けた改善 • WReNモデルの改良 32
6. Discussion 感想 • (記載されているが)限られた条件の中でのテストであるので、抽象的な推論を行うにはまだ課題がある • 一方で、質問タイプによる違いや一般化レジームごとの精度の違いを見比べると違いが出ていたり、補助的 な学習で精度を高めたりと、抽象化・一般化に向けた参考となった 33
Appendix 参考文献 • Andreas, J., Klein, D., and Levine, S. Modular multitask reinforcement learning with policy sketches. arXiv preprint arXiv:1611.01796, 2016. • http://proceedings.mlr.press/v80/santoro18a/santoro18a-supp.pdf • https://deepmind.com/blog/measuring-abstract-reasoning/ 34
Appendix ハイパーパラメータ 35
Appendix その他例題 36
Appendix Q.次の空欄に当てはまる図形を選択してください。 37
Appendix Q.次の空欄に当てはまる図形を選択してください。 A.「A」が正解です。何故か? 38
Appendix 同じ列において、パネルが下にいくにつれて図形の数が多くなっている。 そのため、右下の空欄には、図形の数が「5」 となることが推測できる。 = 39
Appendix しかし、図形の数が「5」のパネルはA, B, C, E, F, Hが該当するため、別の関係性を見つける必要がある。 別の関係性とは、どのようなものか? 40
Appendix 各行を見ると、1列目と2列目に共通して出現してる線が3列目に現れている。(2問目と同様) この関係が成り立つのは、「A」、「D」、「E」、「H」 である。他に関係性は無いか? 41
Appendix 各列を見ると、1列目と2列目は共通して「灰色」、「濃い灰色」、「黒色」の三色が表示されている。 3列目を見ると、「黒色」 が無いため、空欄には「黒色」が該当することが推測される。 ここは「濃い灰色」では ないか?と思われる 42
Appendix 3つの関連性を満たしている選択肢は、「A」のみとなる。 43