506 Views
May 15, 20
スライド概要
2020/05/15
Deep Learning JP:
http://deeplearning.jp/seminar-2/
DL輪読会資料
DEEP LEARNING JP “Experience Grounds Language” [DL Papers] Presenter: Yusuke Iwasawa, Matsuo Lab http://deeplearning.jp/
書誌情報 • タイトル:Experience Grounds Language • 著者:Yonatan Bisk, Ari Holtzman, Jesse Thomason, Jacob Andreas, Yoshua Bengio, Joyce Chai, Mirella Lapata, Angeliki Lazaridou, Jonathan May, Aleksandr Nisnevich, Nicolas Pinto, Joseph Turian • サーベイ論文(arXiv),2020/4/21 • 「経験」に基づいた言語(意味)という観点から見た既存 研究や議論の整理 – 全部で18ページあるが9ページが参考文献 – 古典的な話から最近のDLモデルまでよく網羅されている • Yonatan Biskらは,” Embodied Vision, Actions, & Language”という ワークショップをECCV2020で開催予定 2
背景:テキストを扱う技術の急速な進展 GLUEで人間はもはや12位 3
機械は「意味」を理解しているのか • 理解しているという感じはしない • 生成は自然ではあるが,視覚的,身体的,社会的な常識とは ずれた文を生成してしまう • そもそも、「意味」というのは言語に特有の概念ではない – 何が言語的なコーパスに表されていて、何が表せれていないのかを 考える必要がある 4
本論文ではWorld Scopeという概念で既存研究を整理 • World Scopeは,扱っている世界の範囲 • • • • • WS1:コーパス WS2:大規模コーパス WS3:認知 WS4:身体性 WS5:社会性 • 既存の多くの研究はまだ2だが,3~5に向かっていくことが 必要,というのが基本的な論旨 5
The Written World WORLD SCOPE1:コーパスと表現 WORLD SCOPE2:大規模コーパスと転移 6
WS1:コーパスの例 Penn Tree Bank (PTB) • WS1の代表的なコーパス:Penn Tree Bank – POS Tagging(品詞タグ付け) • コーパスにより,データに基づく言語学が発展 7
どのように言語をデータに基づいて表現するか • BoWベース – TFIDF – LSI (Latent Semantix Indexing) • ニューラルネット(コネクショニズム) – 簡単な文法などを表現できることは90’sから検証 – 構造を入れたモデルなども提案されている (Recursive Neural Networks) 8
分布仮説 [Firth, 1957] “You shall know a word by the company it keep” [Firth, 1957] 2010年ごろから爆発的に引用増加 似ている文脈を持つ単語は同じ意味を持つという考え (単語表現の多くの基本) 9
WS2:インターネット、大規模、転移 • 基本的な考え方はWS1と一緒 • 扱うデータの規模・モデルサイズが全く違う – Wikipedia(1.9B), WMT2008-2012 (3.6B) • 代表的な手法 – Word2Vec – Glove – ELMO: 94M parameters – BERT-Large: 340M parameters – GPT2: 1.5B parameters • これらの表現は,汎用に使えることが多い(転移可能) 10
大規模なモデルの成功例 :GPT2 [Radlford, 19] • 巨大なTransoformerを40GBのテキストで言語モデルとして訓練 • 様々なタスクにゼロショット転移 • モデルサイズを増やすと精度向上 11
大規模にすれば,すべての意味が分かるのだろうか • コーパスはどこまで大規模化しても扱えるのは 「記述された世界(The Written World)」 – 言い換えれば単語の共起関係でしか意味をとらえていない • こうしたアプローチだけで,意味は表せるのだろうか • 著者の主張:大規模化による効用は減少している 12
大規模化だけでは解決しないことの傍証 • LAMBADAデータセット[Paperno, 16] • 広いコンテキストの理解が必要 • 人間には容易だが,機械にはほとんどできない(GPT2とか でよくなってはいるがそれでも67%くらい) 13
物理的な概念を単語埋め込みは持っているか? • 人間の評定が付いた意味属性データセットを予測できるかの検証 [Lucy, 17]Are distributional representations ready for the real world? Evaluating word vectors for grounded perceptual meaning 14
言語だけでは何がダメなのか • 言語モデルの成功は,意味を「コンテキスト」に依存したも のとして考えているところ – 例:Word2Vec • しかしある単語(や文)が立脚しているコンテキストは,言 語だけではない – ある文が書かれた時の情景,心情など,さまざまなコンテキストが 言語に影響を与えている – => WS3, WS4, WS5へ 15
The World of Sights and Sounds WORLD SCOPE3:PERCEPTION(認 知) 16
言語理解には知覚が必要 • 話し方で意味は変わる • 触覚は「重い」「軽い」といった相対的概念を理解するのに 必要 • スクリプトを理解することはWebのマニュアルだけを読んで もわからない(その状況を想起できる必要がある) – ([script],人が通常行っている定型的な行動を、事象列という形で 表現したもの。シャンク(Schank, R. C.)は、人間は知っている多く のスクリプトから状況に応じて適切なものを想起することにより、 文脈を理解していると仮定している。) 17
CV系の急速な発展 What happen if… [Mottaghi, 16] PHYRE [Bakhtin, 19] • もはや単なる1000クラス分類の機械ではない • 十分に成熟し,複雑な例に使われている • 教師なしもかなり進展(Mutual Information Maximization across 18
CV×言語 • Image Captioning – MSCOCO, Conceptual Captions (billions of webpages) • Visual Question Answering • Language and Visual推論 – CLEVER,NVLR, VNLR2 • Visual Commonsense Reasoning • Multimodal captioning and Translation – VATEX • Video BERTのような大規模モデルを言語による事前学習なしで も学習できる規模のデータも集まっている 19
CV×NLPの最近の例 • “A Corpus for Reasoning about Natural Language Grounded in Photographs” • ACL2019 • 2つの画像と言語の説明が与え られ,言語の説明が正しいか 判定 • 例:「左の画像には右の画像 の2倍移っている」 20
CV×NLPの最近の例 • “From Recognition to Cognition: Visual Commonsense Reasoning”, CVPR2019 • Q「なぜAさんはBさんを指さしている?」 • A「Cさん(店員)にAさんがパンケーキを頼んだと伝えている.」 • 人間は90%くらいとけるがビジョンモデルには難しい(45%とか)21
CV×NLPの最近の例 • “VATEX: A Large-Scale, HighQuality Multilingual Dataset for Video-and-Language Research”, ICCV2019 • 大規模なビデオと言語のペアの データセット. • 41,250のビデオ,825,000の キャプション • 言語は同じ画像に英語と中国語の2 つがついているので, (1) 多言語ビデオキャプショニング (2) ビデオを利用した翻訳 の2つのタスクに利用できる 22
CV×NLPの最近の例 • "VideoBERT: A Joint Model for Video and Language Representation Learning”, ICCV2019 • 料理動画の画像と言語の双方向の生成.スクリプトのモデル化. 23
Is an orange more like a baseball or a banana? • WS1:答えられない • WS2:オレンジと野球のボールがどちらも転がるということ はわかるかもしれないが,物体の変形強度や質感,相対的な 大きさなどはとらえられない – “How large are lions? inducing distributions over quantitative attributes” • WS3:どういう風に変形するかを理解するかもしれないが, どちらがより変形に力を必要とするかはわからない (ニュアンスは理解してない) 24
Embodiment and Action WORLD SCOPE4:EMBODIMENT 25
注釈:この辺から解釈がだいぶ入ります • そもそも身体性という概念も若干曖昧 – 単に身体がないとわからない概念があるという意味合い(例:痛 み) – 行為を行う主体としたの身体(ある概念を理解しているかを行動を 伴うタスクの成否としてみる) – 世界に影響を与えることで意味が分かるという観点での身体性 (つまり,世界に影響を与えた経験を通して初めて意味が分かる) • ここで出てくる事例は1個目と2個目に近い意味で身体性を 使っているが,タイトルからすると主張は3個目に近いよう な気がする 26
人間は,環境からの情報を概念の形成に利用 • “Conceptual precursors to language”, Nature 2004 – 生後5か月の子供(英語が母国語)が,英語にはないが韓国語には ある概念(物体間のlooseとtight)を区別するのかの検証 – 結論はする – ヒトの中での概念が周囲にある音などに依存して形成されることを 示唆 • Effect of Touch Screen Tablet Use on Fine Motor Development of Young Children – iPadをよく使う子供は微細な運動能力がそうでない子供より悪い 27
なぜ意味理解は難しいのか • 人間が持っている知識の多くは非言語的だが,言語的知識の 理解に必要である,ということ • これらを先に学ばないと,言語的な知識の獲得に支障をきた す. • またこれらは言語的な知識と結びつく前から主体の中に存在 する 28
言語×ロボティクス • ロボティクス技術は画像ほどは成熟してないが急速に発展 • 例:シミュレータ – Mujoco, NVIDIA Isacc, Habitat, AI2-THOUR, RLBench, SAPIEN • 例:フレームワーク – Pyrobot (ROSの高レベルインタフェース) • 例:安価なロボット • 素直には,言語指示に従って行動を生成する研究が多々ある 29
シミュレータ例:SAPIEN • SAPIEN: A SimulAted Part-based Interactive Environment, CVPR2019 • 多様な環境を生成できることが強味?パートの意味がよくわかって ないがよりリッチなコンタクトがシミュレートできる? 30
言語×ロボティクス例 • “Learning Interpretable Spatial Operations in a Rich 3D Blocks World”, AAAI2018 • 3D blockの世界で,言語指示を行動にマッピング 31 • 物理的な概念(mirrorなど)を扱える必要がある
言語×ロボティクス例 • ALFRED: A Benchmark for Interpreting Grounded Instructions for Everyday Tasks • ECCV2020 Challenge • シミュレータ上で,ゴール, サブゴールが与えられ,エー ジェントはそれを解く • 似たデータセットはいくつか あるがそれらより複雑 32
言語×ロボティクス例 • “Learning to map natural language instructions to physical quadcopter control using simulated flight”, CoRL2019 33
WORLD SCOPE5:SOCIAL 34
対話システム • 言語は,対人コミュニケーションを可能にするために生まれ ている • 対人コミュニケーションの実現が言語的知性の必要要件であ ると考えることもよくある – 例:模倣ゲーム [Turing, 1950] – 人の会話特別つかないような機械 • 対話システムは存在するが, 人間レベルには到底届いてない 35
Language Does Something • そもそも,なぜ社会性が意味理解にとって重要なのか? • 機能が意味の源泉である – 内包や外縁によってあらわされるのではない – Wittgensteinの言語ゲーム • 例:“hate”という意味は他者に対してどういう心情の変化を引き 起こすかによって決まる • 広い意味での「世界」にどういう影響を与えるかによって意味が 決まる • 既存の対話システムは自身の経験から学んでない ≒自分の発話が与える効果を学習できない – エージェントが自ら言語的な活動に参加して学ぶ必要がある 36
効果を測れる例:説得 • “Evaluating Machines by their Real-World Language Use”, • Preprint, 2020 [TuringAdvice] 人が実際に対面し た状況に対して,アドバイスを生 成するというタスク 37
マルチエージェントなタスク例 • “Executing Instructions in Situated Collaborative Interactions”, EMNLP2019 • 全体が見えるLeaderが一部し か見えないFollowerをナビ ゲートしてタスクを達成する ようなタスク • モデルはなんか複雑そうだけ ど基本は画像をなんか埋め込 んでRNNで言語支持を出力し ている感じ 38
マルチエージェントなタスク例 • [Reasoning about Pragmatics with Neural Listeners and Speakers • SpeakerとLisner(それぞれ NN)が参照ゲーム [reference game]をする • 説明文に対して正しい画像を選 ぶ • “Emergence of linguistic communication from referential games with symbolic and pixel input”, ICLR2018も近い 39
Theory of Mind (Premack and Woodruff, 1978) • 相手の気持ちに配慮する能力,またそれがどう機能するかに ついての理論 • “Speaker–listener neural coupling underlies successful communication”, PNAS2010 – 対話中の2人の人の[fMRI]は,コミュニケーションが成立している 場合は時空間的に相関しているが,コミュニケーションに失敗して いると相関が消える 40
“Evaluating Theory of Mind in Question Answering”, ACL2018 • Sarry –Annテストを機械でやった研究 – サリーはチョコをテーブルに置いた後部屋を出た – アンはチョコを箱にしまった – サリーはチョコがどこにあると思っているか? • 他者の信念が現実と違っても,他者の信念を予測できるか • ここでは,(1) 最初にどこにあったか(記憶),(2) 実際どこ にあるか(真実),(3) サリーはどこにあると思っているか, (4) アンはサリーがどこにあると思っていると思っているか を,二人が同じ信念を持ちうる場合そうでない場合で検証 41
社会的なコンテキスト • 人間の間で言語が使われるときは,言語の使われ方は社会的 なコンテキストに必ず立脚している – 例:立場,ステータス,意図,など – 社会的認知 ([social cognition]) • こういった社会的なコンテキストを理解できるような状況が, 言語モデルの真の評価には必要 42
社会的なコンテキストを組み込む試みも進行 • “Social-IQ: A Question Answering Benchmark for Artificial Social Intelligence”, CVPR2019 – 例えば「写真の中の人は真剣に会話しているか」,など – Random 50%の指標,人間が95%で精度良いモデルで65%くらい • “Persuasion for Good: Towards a Personalized Persuasive Dialogue System for Social Good”, ACL2019 – 相手を説得する際の会話に,使われている戦略(10種類に分類)がアノ テーションされたデータセット. – 発話者のパーソナリティどの戦略が有効かの関係を調査 • “Winning arguments: Interaction dynamics and persuasion strategies in good-faith online discussion”, WWW2016 – Redditのデータを分析して,説得のメカニズムを検証 43
まとめ • 5つのWorld Scopeに従って既存研究を整理 – WS1, WS2: The Written World(既存研究の多く) – WS3: Perception(知覚的なコンテキストが必要) – WS4, WS5: Embodiment & Social(世界に影響を与えた経験が必要) • 主張 – 言語はラジオから学べない(WS3が必要) – 言語はテレビから学べない(WS4が必要) – 言語は自分自身では学べない(WS5が必要) • 環境や他者に影響を与えた「経験」にグラウンドすることが必要 (”Experience Ground Language”) – どういうタスク、表現、帰納バイアスが必要だろうか? 44
感想 • 結論は,「意味というのは世界や他者への作用であるから, そういったものを考えることなしに意味理解は実現できな い」ということだと思っている • これはわかるものの,一方ある主体にとって意味を「理解す る」というのがどういう現象なのかがそもそも議論されない まま進んでいる印象がある – 意味が何なのかだけでなく,それを理解するということが何なのか を考える必要があるのでは? • 汎用なタスクをとけること,という定義っぽいが,それは理 解したということを事後に確認するすべであって,理解自体 が何かを示していない(ような気がする) 45
感想2 • 単語埋め込みがやっていることは、コンテキストで意味を表 現するということだが、これはある単語が言語的な世界に 影響を与えていると考える事もできる – つまり言語空間に限った単語の影響を考えているのが既存の単語埋 め込み • 素朴にはこれを知覚や社会コンテキストに拡張できないだろ うか – 意味を理解するとは,「あるシンボルが世界に与える効果が予測で きること」「慣習に従って経験を生成できること」ではないだろう か 46