創発言語でもHarrisの分節原理は成り立つのか？

7.9K Views

June 14, 23

#Emergent Communication #Harris's Articulation Scheme #Conditional Entropy #Branching Entropy #Word Segmentation

スライド概要

2023年6月14日のNLPコロキウムにおいて使用したスライドです。

Ryo Ueda

@ryo-ueda

スライド一覧

PhD student at the University of Tokyo, Japan

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

[論文紹介@SNLP2024] Task Arithmetic in the Tangent Space: Improved Editing of Pre-Trained Models

Ryo Ueda 14.1K

[論文紹介@SNLP2023] Unsupervised Discontinuous Constituency Parsing with Mildly Context-Sensitive Grammars (ACL2023)

Ryo Ueda 4.6K

On the Word Boundaries of Emergent Languages

Ryo Ueda 126

学振特別研究員になるために～2025年度申請版

学振 dc1 dc2 jsps pd

大上雅史 750.5K

研究に使える便利なフリーソフト ImageJ

imagej 放射線技師

片山豊 345.8K

StampFlyで学ぶマルチコプタ制御

伊藤恒平 290.2K

各ページのテキスト

創発言語でも Harris の分節原理は成り立つのか？ On the Word Boundaries of Emergent Languages Based on Harris’s Articulation Scheme (ICLR2023) 上田亮 2023/06/14 @ NLP コロキウム東京大学 (宮尾研究室)

自己紹介

自己紹介名前所属研究分野上田亮東大宮尾研 (B4～現在 D1) Emergent Communication (言語創発) my homepage 興味言語の統計的な性質・構造が如何にして創発 (emerge) するのか近況 • JSAI’23 にて OS 実施『言語とコミュニケーションの創発』 pre-print (来年・再来年もやるのでぜひ参加してね！) • 展望論文のプレプリント公開 (ぜひ読んでみてね！) 1/20

今回紹介する論文

今回紹介する論文今回紹介させていただく論文今年 ICLR に通った論文です 2/20

論文化までの経緯『言語とフラクタル』に感銘受け思いつく (Oct 2021) NLP’22 で優秀賞に (Mar 2022) ACL-SRW’22 reject NeurIPS’22 reject ICLR’23 に accept (Jan 2023) ※ちょうどこの時期 (2021/10/29) に田中先生が NLP コロキウムでトークされていましたね。 ※当時 NLP 参加経験がなく「〆切 2 ヶ月前からこんな突飛なテーマを始めて良いのか...」と思ってました。 3/20

本研究の概要問い創発言語でも Harris の分節原理 (HAS) は成り立つのか？創発言語は有意味な単語分割をもつのか？創発言語 HAS エージェント間で生じる人工的な言語 (的な何か) 自然言語の単語分割に関する統計的な性質実験結果から得られた示唆創発言語では HAS が :成り立たない :::::::::::::::: 創発言語は有意味な単語分割を :欠く ::::: 4/20

本研究の概要問い創発言語でも Harris の分節原理 (HAS) は成り立つのか？創発言語は有意味な単語分割をもつのか？ HAS を使えばなんとなく単語っぽいものが得られるがそれが意味のあるものであるかは全く自明でない 5/20

背景：Emergent Communication

10.

Emergent Communication 創発コミュニケーション (Emergent Communication) エージェント同士のコミュニケーション ::::::::::::::::::::::::: から生じるプロトコル (創発言語) ::::::::::: を対象とする分野 ::::::::::::::::: 典型的なモチベーション 1. インタラクティブな AI [e.g., Lazaridou et al., 2018] 2. 言語進化のシミュレーション 3. 自然言語との差異 [e.g., Kirby, 2001] [e.g., Chaabouni et al., 2020] 6/20

11.

シグナリングゲーム典型的な環境設定シグナリングゲーム [Lewis, 1969] パラメータ属性の数 a ∈ N, 各属性の取り得る値の数 v ∈ N 7/20

12.

背景：Harris の分節原理 (HAS)

13.

次に来る文字の不確かさと単語境界 Example: 英単語 “natural” n... nat... natura... natural... 次の文字は何だろう... 次は “u” か “i” だな... 次は “l” に違いない！ Harris の仮説 [Harris, 1955] 一度下がった「次の文字の不確実性」が再び上昇そこに単語境界がある傾向 Harris の分節原理 (HAS) [Tanaka-Ishii, 2021] Harris の仮説の情報理論的な再定式化不確実性 as エントロピー 8/20

14.

条件付きエントロピーと分岐エントロピー i 文字列集合 Σ∗ 文字列 x1:n = x1 · · · xn ∈ Σ∗ Σ∗ 上の確率変数 X1:n = X1 · · · Xn 条件付きエントロピー H(n) H (Xn+1 |X1:n ) の直感平均的な :::::::: 次の文字の不確実さ分岐エントロピー h(x1:n ) H(Xn+1 |X1:n = x1:n ) の直感個別文脈での ::::::::::: 次の文字の不確実さ条件付きエントロピーは分岐エントロピーの平均 P ∵ H(n) = x1:n ∈Σ∗ p(x1:n )h(x1:n ) 9/20

15.

条件付きエントロピーと分岐エントロピー ii 条件付きエントロピー分岐エントロピー自然言語における両者の性質条件付きエントロピー H(n) は単調減少する vs 分岐エントロピー h(x1:n ) は増減を繰り返す自然言語において不確実性は平均的には減少するが 10/20 個別の文脈においては増減する

16.

Harris の分節原理 (HAS) Harris の分節原理 (HAS) [Tanaka-Ishii, 2021] ある (自然言語の) 文字列 x1:n+1 ∈ Σ∗ について h(x1:n ) < h(x1:n+1 ) のとき (i.e., 分岐エントロピーが上昇するとき) xn+1 は単語境界に位置する傾向にあるの直感分岐エントロピー h は平均的には減少するが (∵ 条件付きエントロピーの単調減少性) ところどころ増大するそこに単語境界がある可能性が高い 11/20

17.

問題設定

18.

問題設定 Re: 問い創発言語でも HAS は成り立つのか？ 12/20

19.

問題設定 Re: 問い創発言語でも HAS は成り立つのか？以下の 3 つ問いに答える必要あり：創発言語において... 問 1 条件付きエントロピー H は単調減少するのか？問 2 分岐エントロピー h は増減するのか？問 3 なんとなく得られた “分割” に意味はあるのか？エントロピーの振舞いは自然言語と同じ？なんとなく得た分割は本当に単語？問 1, 問 2 問3 13/20

20.

問題設定なんとなく得られた “分割” に意味はあるのか？問 3 の難しさ創発言語に単語分割の教師データは無いそもそも創発言語に単語なんてあるの？そこで... 問 3 を以下の 3 つの問いに置き換えます問 3 の代わりに設ける新たな問い問 3-1 “属性の数” が増えると “境界の数” も増えるか？問 3-2 “値の数” が増えると “単語の種類” も増えるか？問 3-3 “単語レベルの構成性” ＞ “文字レベルの構成性”？ 14/20

21.

問題設定問 3-1 の直感 “属性の数” が増えると “境界の数” も増えるか？ 15/20

22.

実験結果

23.

実験結果の概要答えるべき 3 つの問いに対して：問 1 条件付きエントロピー H は単調減少するか？ YES 問 2 分岐エントロピー h は増減するか？ YES 問 3 なんとなく得られた “分割” に意味はあるのか？多分NO 問 3 の代わりに設けた新たな問いに対して：問 3-1 “属性の数” が増えると “境界の数” も増えるか？問 3-2 “値の数” が増えると “単語の種類” も増えるか？問 3-3 “単語レベルの構成性” ＞ “文字レベルの構成性”？全てNO 16/20

24.

まとめ

25.

まとめ問い創発言語でも Harris の分節原理 (HAS) は成り立つのか？創発言語は有意味な単語分割をもつのか？創発言語 HAS エージェント間で生じる人工的な言語 (的な何か) 自然言語の単語分割に関する統計的な性質実験結果から得られた示唆創発言語では HAS が :成り立たない :::::::::::::::: 創発言語は有意味な単語分割を :欠く ::::: 17/20

26.

雑感

27.

じゃあどうすれば創発言語でも HAS が成り立つのかエージェントに「秩序だった分岐エントロピーの増減」を実現しなきゃいけない理由が特にない多分「意味の伝達」と「文字 (単語) の予測可能性」の trade-off がモデル化されていないのが良くない (シグナリングゲームには「予測可能性」の pressure が無い) 予測可能性意味の伝達コミュニケーション成立の pressure 分岐エントロピー大きい小さいサプライザル最小化の pressure 文字の予測可能性意味の伝達 18/20

28.

References i Rahma Chaabouni, Eugene Kharitonov, Diane Bouchacourt, Emmanuel Dupoux, and Marco Baroni. Compositionality and generalization in emergent languages. In Dan Jurafsky, Joyce Chai, Natalie Schluter, and Joel R. Tetreault, editors, Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, ACL 2020, Online, July 5-10, 2020, pages 4427–4442. Association for Computational Linguistics, 2020. doi: 10.18653/v1/2020.acl-main.407. Zellig S. Harris. From phoneme to morpheme. Language, 31(2):190–222, 1955. ISSN 00978507, 15350665. Simon Kirby. Spontaneous evolution of linguistic structure-an iterated learning model of the emergence of regularity and irregularity. IEEE Trans. Evol. Comput., 5 (2):102–110, 2001. doi: 10.1109/4235.918430. 19/20

29.

References ii Angeliki Lazaridou, Karl Moritz Hermann, Karl Tuyls, and Stephen Clark. Emergence of linguistic communication from referential games with symbolic and pixel input. In 6th International Conference on Learning Representations, ICLR 2018, Vancouver, BC, Canada, April 30 - May 3, 2018, Conference Track Proceedings. OpenReview.net, 2018. David K. Lewis. Convention: A Philosophical Study. Wiley-Blackwell, 1969. Kumiko Tanaka-Ishii. Articulation of Elements, pages 115–124. Springer International Publishing, Cham, 2021. 20/20