[DL輪読会]Experience Grounds Language

816 Views

May 15, 20

#deep learning #Deep Learning #Natural Language Processing #Experience Grounds Language #World Scope #Large-scale Models

スライド概要

2020/05/15
Deep Learning JP:
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 90.7K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 67.4K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 61.1K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 49.5K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 47.2K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 46.9K

各ページのテキスト

DEEP LEARNING JP “Experience Grounds Language” [DL Papers] Presenter: Yusuke Iwasawa, Matsuo Lab http://deeplearning.jp/

http://deeplearning.jp/

書誌情報 • タイトル：Experience Grounds Language • 著者：Yonatan Bisk, Ari Holtzman, Jesse Thomason, Jacob Andreas, Yoshua Bengio, Joyce Chai, Mirella Lapata, Angeliki Lazaridou, Jonathan May, Aleksandr Nisnevich, Nicolas Pinto, Joseph Turian • サーベイ論文（arXiv），2020/4/21 • 「経験」に基づいた言語（意味）という観点から見た既存研究や議論の整理 – 全部で18ページあるが9ページが参考文献 – 古典的な話から最近のDLモデルまでよく網羅されている • Yonatan Biskらは，” Embodied Vision, Actions, & Language”というワークショップをECCV2020で開催予定 2

背景：テキストを扱う技術の急速な進展 GLUEで人間はもはや12位 3

機械は「意味」を理解しているのか • 理解しているという感じはしない • 生成は自然ではあるが，視覚的，身体的，社会的な常識とはずれた文を生成してしまう • そもそも、「意味」というのは言語に特有の概念ではない – 何が言語的なコーパスに表されていて、何が表せれていないのかを考える必要がある 4

本論文ではWorld Scopeという概念で既存研究を整理 • World Scopeは，扱っている世界の範囲 • • • • • WS1：コーパス WS2：大規模コーパス WS3：認知 WS4：身体性 WS5：社会性 • 既存の多くの研究はまだ2だが，3～5に向かっていくことが必要，というのが基本的な論旨 5

The Written World WORLD SCOPE１：コーパスと表現 WORLD SCOPE２：大規模コーパスと転移 6

WS1：コーパスの例 Penn Tree Bank (PTB) • WS1の代表的なコーパス：Penn Tree Bank – POS Tagging（品詞タグ付け） • コーパスにより，データに基づく言語学が発展 7

どのように言語をデータに基づいて表現するか • BoWベース – TFIDF – LSI (Latent Semantix Indexing) • ニューラルネット（コネクショニズム） – 簡単な文法などを表現できることは90’sから検証 – 構造を入れたモデルなども提案されている (Recursive Neural Networks) 8

分布仮説 [Firth, 1957] “You shall know a word by the company it keep” [Firth, 1957] 2010年ごろから爆発的に引用増加似ている文脈を持つ単語は同じ意味を持つという考え（単語表現の多くの基本） 9

10.

WS2：インターネット、大規模、転移 • 基本的な考え方はWS1と一緒 • 扱うデータの規模・モデルサイズが全く違う – Wikipedia(1.9B), WMT2008-2012 (3.6B) • 代表的な手法 – Word2Vec – Glove – ELMO: 94M parameters – BERT-Large: 340M parameters – GPT2: 1.5B parameters • これらの表現は，汎用に使えることが多い（転移可能） 10

11.

大規模なモデルの成功例：GPT2 [Radlford, 19] • 巨大なTransoformerを40GBのテキストで言語モデルとして訓練 • 様々なタスクにゼロショット転移 • モデルサイズを増やすと精度向上 11

12.

大規模にすれば，すべての意味が分かるのだろうか • コーパスはどこまで大規模化しても扱えるのは「記述された世界（The Written World）」 – 言い換えれば単語の共起関係でしか意味をとらえていない • こうしたアプローチだけで，意味は表せるのだろうか • 著者の主張：大規模化による効用は減少している 12

13.

大規模化だけでは解決しないことの傍証 • LAMBADAデータセット[Paperno, 16] • 広いコンテキストの理解が必要 • 人間には容易だが，機械にはほとんどできない（GPT2とかでよくなってはいるがそれでも67%くらい） 13

14.

物理的な概念を単語埋め込みは持っているか？ • 人間の評定が付いた意味属性データセットを予測できるかの検証 [Lucy, 17]Are distributional representations ready for the real world? Evaluating word vectors for grounded perceptual meaning 14

15.

言語だけでは何がダメなのか • 言語モデルの成功は，意味を「コンテキスト」に依存したものとして考えているところ – 例：Word2Vec • しかしある単語（や文）が立脚しているコンテキストは，言語だけではない – ある文が書かれた時の情景，心情など，さまざまなコンテキストが言語に影響を与えている – => WS3, WS4, WS5へ 15

16.

The World of Sights and Sounds WORLD SCOPE３：PERCEPTION（認知） 16

17.

言語理解には知覚が必要 • 話し方で意味は変わる • 触覚は「重い」「軽い」といった相対的概念を理解するのに必要 • スクリプトを理解することはWebのマニュアルだけを読んでもわからない（その状況を想起できる必要がある） – ([script]，人が通常行っている定型的な行動を、事象列という形で表現したもの。シャンク(Schank, R. C.)は、人間は知っている多くのスクリプトから状況に応じて適切なものを想起することにより、文脈を理解していると仮定している。） 17

18.

CV系の急速な発展 What happen if… [Mottaghi, 16] PHYRE [Bakhtin, 19] • もはや単なる1000クラス分類の機械ではない • 十分に成熟し，複雑な例に使われている • 教師なしもかなり進展（Mutual Information Maximization across 18

19.

CV×言語 • Image Captioning – MSCOCO, Conceptual Captions (billions of webpages) • Visual Question Answering • Language and Visual推論 – CLEVER,NVLR, VNLR2 • Visual Commonsense Reasoning • Multimodal captioning and Translation – VATEX • Video BERTのような大規模モデルを言語による事前学習なしでも学習できる規模のデータも集まっている 19

20.

CV×NLPの最近の例 • “A Corpus for Reasoning about Natural Language Grounded in Photographs” • ACL2019 • 2つの画像と言語の説明が与えられ，言語の説明が正しいか判定 • 例：「左の画像には右の画像の2倍移っている」 20

21.

CV×NLPの最近の例 • “From Recognition to Cognition: Visual Commonsense Reasoning”, CVPR2019 • Q「なぜAさんはBさんを指さしている？」 • A「Cさん（店員）にAさんがパンケーキを頼んだと伝えている．」 • 人間は90%くらいとけるがビジョンモデルには難しい（45%とか）21

22.

CV×NLPの最近の例 • “VATEX: A Large-Scale, HighQuality Multilingual Dataset for Video-and-Language Research”, ICCV2019 • 大規模なビデオと言語のペアのデータセット． • 41,250のビデオ，825,000のキャプション • 言語は同じ画像に英語と中国語の2 つがついているので， (1) 多言語ビデオキャプショニング (2) ビデオを利用した翻訳の2つのタスクに利用できる 22

23.

CV×NLPの最近の例 • "VideoBERT: A Joint Model for Video and Language Representation Learning”, ICCV2019 • 料理動画の画像と言語の双方向の生成．スクリプトのモデル化． 23

24.

Is an orange more like a baseball or a banana? • WS1：答えられない • WS2：オレンジと野球のボールがどちらも転がるということはわかるかもしれないが，物体の変形強度や質感，相対的な大きさなどはとらえられない – “How large are lions? inducing distributions over quantitative attributes” • WS3：どういう風に変形するかを理解するかもしれないが，どちらがより変形に力を必要とするかはわからない（ニュアンスは理解してない） 24

25.

Embodiment and Action WORLD SCOPE４：EMBODIMENT 25

26.

注釈：この辺から解釈がだいぶ入ります • そもそも身体性という概念も若干曖昧 – 単に身体がないとわからない概念があるという意味合い（例：痛み） – 行為を行う主体としたの身体（ある概念を理解しているかを行動を伴うタスクの成否としてみる） – 世界に影響を与えることで意味が分かるという観点での身体性（つまり，世界に影響を与えた経験を通して初めて意味が分かる） • ここで出てくる事例は1個目と2個目に近い意味で身体性を使っているが，タイトルからすると主張は3個目に近いような気がする 26

27.

人間は，環境からの情報を概念の形成に利用 • “Conceptual precursors to language”, Nature 2004 – 生後5か月の子供（英語が母国語）が，英語にはないが韓国語にはある概念（物体間のlooseとtight）を区別するのかの検証 – 結論はする – ヒトの中での概念が周囲にある音などに依存して形成されることを示唆 • Effect of Touch Screen Tablet Use on Fine Motor Development of Young Children – iPadをよく使う子供は微細な運動能力がそうでない子供より悪い 27

28.

なぜ意味理解は難しいのか • 人間が持っている知識の多くは非言語的だが，言語的知識の理解に必要である，ということ • これらを先に学ばないと，言語的な知識の獲得に支障をきたす． • またこれらは言語的な知識と結びつく前から主体の中に存在する 28

29.

言語×ロボティクス • ロボティクス技術は画像ほどは成熟してないが急速に発展 • 例：シミュレータ – Mujoco, NVIDIA Isacc, Habitat, AI2-THOUR, RLBench, SAPIEN • 例：フレームワーク – Pyrobot (ROSの高レベルインタフェース） • 例：安価なロボット • 素直には，言語指示に従って行動を生成する研究が多々ある 29

30.

シミュレータ例：SAPIEN • SAPIEN: A SimulAted Part-based Interactive Environment, CVPR2019 • 多様な環境を生成できることが強味？パートの意味がよくわかってないがよりリッチなコンタクトがシミュレートできる？ 30

31.

言語×ロボティクス例 • “Learning Interpretable Spatial Operations in a Rich 3D Blocks World”, AAAI2018 • 3D blockの世界で，言語指示を行動にマッピング 31 • 物理的な概念（mirrorなど）を扱える必要がある

32.

言語×ロボティクス例 • ALFRED: A Benchmark for Interpreting Grounded Instructions for Everyday Tasks • ECCV2020 Challenge • シミュレータ上で，ゴール，サブゴールが与えられ，エージェントはそれを解く • 似たデータセットはいくつかあるがそれらより複雑 32

33.

言語×ロボティクス例 • “Learning to map natural language instructions to physical quadcopter control using simulated flight”, CoRL2019 33

34.

WORLD SCOPE５：SOCIAL 34

35.

対話システム • 言語は，対人コミュニケーションを可能にするために生まれている • 対人コミュニケーションの実現が言語的知性の必要要件であると考えることもよくある – 例：模倣ゲーム [Turing, 1950] – 人の会話特別つかないような機械 • 対話システムは存在するが，人間レベルには到底届いてない 35

36.

Language Does Something • そもそも，なぜ社会性が意味理解にとって重要なのか？ • 機能が意味の源泉である – 内包や外縁によってあらわされるのではない – Wittgensteinの言語ゲーム • 例：“hate”という意味は他者に対してどういう心情の変化を引き起こすかによって決まる • 広い意味での「世界」にどういう影響を与えるかによって意味が決まる • 既存の対話システムは自身の経験から学んでない ≒自分の発話が与える効果を学習できない – エージェントが自ら言語的な活動に参加して学ぶ必要がある 36

37.

効果を測れる例：説得 • “Evaluating Machines by their Real-World Language Use”, • Preprint, 2020 [TuringAdvice] 人が実際に対面した状況に対して，アドバイスを生成するというタスク 37

38.

マルチエージェントなタスク例 • “Executing Instructions in Situated Collaborative Interactions”, EMNLP2019 • 全体が見えるLeaderが一部しか見えないFollowerをナビゲートしてタスクを達成するようなタスク • モデルはなんか複雑そうだけど基本は画像をなんか埋め込んでRNNで言語支持を出力している感じ 38

39.

マルチエージェントなタスク例 • [Reasoning about Pragmatics with Neural Listeners and Speakers • SpeakerとLisner（それぞれ NN）が参照ゲーム [reference game]をする • 説明文に対して正しい画像を選ぶ • “Emergence of linguistic communication from referential games with symbolic and pixel input”, ICLR2018も近い 39

40.

Theory of Mind (Premack and Woodruff, 1978) • 相手の気持ちに配慮する能力，またそれがどう機能するかについての理論 • “Speaker–listener neural coupling underlies successful communication”, PNAS2010 – 対話中の2人の人の[fMRI]は，コミュニケーションが成立している場合は時空間的に相関しているが，コミュニケーションに失敗していると相関が消える 40

41.

“Evaluating Theory of Mind in Question Answering”, ACL2018 • Sarry –Annテストを機械でやった研究 – サリーはチョコをテーブルに置いた後部屋を出た – アンはチョコを箱にしまった – サリーはチョコがどこにあると思っているか？ • 他者の信念が現実と違っても，他者の信念を予測できるか • ここでは，(1) 最初にどこにあったか（記憶），(2) 実際どこにあるか（真実），(3) サリーはどこにあると思っているか， (4) アンはサリーがどこにあると思っていると思っているかを，二人が同じ信念を持ちうる場合そうでない場合で検証 41

42.

社会的なコンテキスト • 人間の間で言語が使われるときは，言語の使われ方は社会的なコンテキストに必ず立脚している – 例：立場，ステータス，意図，など – 社会的認知 ([social cognition]) • こういった社会的なコンテキストを理解できるような状況が，言語モデルの真の評価には必要 42

43.

社会的なコンテキストを組み込む試みも進行 • “Social-IQ: A Question Answering Benchmark for Artificial Social Intelligence”, CVPR2019 – 例えば「写真の中の人は真剣に会話しているか」，など – Random 50%の指標，人間が95%で精度良いモデルで65%くらい • “Persuasion for Good: Towards a Personalized Persuasive Dialogue System for Social Good”, ACL2019 – 相手を説得する際の会話に，使われている戦略（10種類に分類）がアノテーションされたデータセット． – 発話者のパーソナリティどの戦略が有効かの関係を調査 • “Winning arguments: Interaction dynamics and persuasion strategies in good-faith online discussion”, WWW2016 – Redditのデータを分析して，説得のメカニズムを検証 43

44.

まとめ • 5つのWorld Scopeに従って既存研究を整理 – WS1, WS2: The Written World（既存研究の多く） – WS3: Perception（知覚的なコンテキストが必要） – WS4, WS5: Embodiment & Social（世界に影響を与えた経験が必要） • 主張 – 言語はラジオから学べない（WS3が必要） – 言語はテレビから学べない（WS4が必要） – 言語は自分自身では学べない（WS5が必要） • 環境や他者に影響を与えた「経験」にグラウンドすることが必要（”Experience Ground Language”） – どういうタスク、表現、帰納バイアスが必要だろうか？ 44

45.

感想 • 結論は，「意味というのは世界や他者への作用であるから，そういったものを考えることなしに意味理解は実現できない」ということだと思っている • これはわかるものの，一方ある主体にとって意味を「理解する」というのがどういう現象なのかがそもそも議論されないまま進んでいる印象がある – 意味が何なのかだけでなく，それを理解するということが何なのかを考える必要があるのでは？ • 汎用なタスクをとけること，という定義っぽいが，それは理解したということを事後に確認するすべであって，理解自体が何かを示していない（ような気がする） 45

46.

感想２ • 単語埋め込みがやっていることは、コンテキストで意味を表現するということだが、これはある単語が言語的な世界に影響を与えていると考える事もできる – つまり言語空間に限った単語の影響を考えているのが既存の単語埋め込み • 素朴にはこれを知覚や社会コンテキストに拡張できないだろうか – 意味を理解するとは，「あるシンボルが世界に与える効果が予測できること」「慣習に従って経験を生成できること」ではないだろうか 46