56.5K Views
July 23, 24
スライド概要
I'll be writing programs, papers, and ramblings.
一人称AIに向けた 人間―機械間コミュニケーション 伊藤彰則 東北大学大学院工学研究科 通信工学専攻 音声テスト
自己紹介 Akinori Ito 伊藤彰則 工学研究科通信工学専攻教授 学部時代に人工知能を志して夢破れる 気を取り直して音声認識の研究に従事 現在の専門分野 音声認識・音声合成 音声・マルチモーダル対話システム 音声・オーディオ符号化 音声による言語学習 音楽情報処理 2024/7/24 日本音響学会東北支部講演会 2024/2/2 at Shenzhen, China 2
はじめに ◦ J. C. R. Licklider, “Man-Computer Symbiosis,” IRE Trans., Human Factors in Electronics, 1:4-11, 1960 ◦ “The hope is that, in not too many years, human brains and computing machines will be coupled together very tightly, and that, the resuilting partnership will think as no human brain has ever thought and process data in a way not approached by the information-handling machines we know today.” ◦ そう遠くない将来、人間の脳とコンピュータが緊密に結合し、人間の脳がこれまで 考えたことのないような思考をし、現在のような情報処理マシンが近づけないよう な方法でデータを処理するようになることが期待されている。 ◦ Licklider は初めて音声認識技術を作った人としても有名 (1952) ◦ ちなみに世界最初の電子計算機ENIAC稼働が1946年 2024/7/24 日本音響学会東北支部講演会 3
はじめに 大規模言語モデル(LLM)の発展によるAIの進化 →マルチモーダル(視覚、聴覚)基盤モデルへ ◦極めて優れた情報処理性能 ◦ 文章理解、機械翻訳、情報検索、応答生成 ◦ 画像認識、画像理解、画像生成 ◦ 音声認識、音声理解、音声対話、音声合成 ◦今後は動画像の認識・理解・生成へ これ以上することがあるのか? 2024/7/24 日本音響学会東北支部講演会 4
今日の内容 「最新のAIでこんなことができている」という話ではなく 「人間と自然に対話をするAIを作るためには何が足り ていないか」という話です 2024/7/24 日本音響学会東北支部講演会 5
最初に「できる」話 大規模言語モデル(Large Language Model, LLM)の発 達によって、AIとの自然言語 による対話は格段に進歩し た 2024/7/24 日本音響学会東北支部講演会 6
音声対話デモ 今作っている対話ロボット用の音声対話です ◦Google Cloud Speech / Text-to-Speech ◦OpenAI (GPT3.5-turbo) ◦Azure Weather API / Map API 2024/7/24 日本音響学会東北支部講演会 7
現在のAIは3人称的 これは何ですか? これはリンゴです 2024/7/24 日本音響学会東北支部講演会 8
現在のAIは3人称的 リンゴだね。 リンゴは好き? 2024/7/24 日本音響学会東北支部講演会 私はロボットですから リンゴは食べません 9
現在のAIは3人称的 • AIには「それ自身の目的」がないので、自分につ いて語ることができない • 人間は知的に見える対象をしばしば人間と混同 するので、そういう反応を期待する • これは人間の問題 2024/7/24 日本音響学会東北支部講演会 10
人間は関係性の生物 “Relationships with others lie at the very core of human existence. Humans are conceived within relationships, born into relationships, and live their lives within relationships with others.” 他者との関係は、人間存在の核心にある。人間は人間関 係の中で受胎し、人間関係の中で生まれ、人間関係の中 で人生を送る。 Bersheid, E. & Peplau, L. (1983). The emerging science of relationships. In H. H. Kelly et al. (eds.) Close relationships, pp.1-9, New York: Freeman. 2024/7/24 日本音響学会東北支部講演会 11
メディアの等式 Reeves, B., & Nass, C. I. (1996). The media equation: How people treat computers, television, and new media like real people and places. Center for the Study of Language and Information; Cambridge University Press. バイロン リーブス, クリフォード ナス (著), 細馬 宏通 (訳) 「人はなぜコンピューターを人間とし て扱うか: メディアの等式の心理学」 翔泳社 (2001) ◦ 「メディアの等式」とは、クリフォード・ナスとバイロン・リーブスによって提唱されたコミュニケーション理 論 ◦ 人々がコンピュータやテレビなどのメディアを、まるで実際の人間や社会的な存在であるかのように 扱う傾向があることを示している ◦ 個人はメディアに対して、実際の人間とのやり取りと同様の反応を示すことが多い ◦ コンピュータに対して礼儀正しく接したり、性格を付与したり、さらには感情を抱いたりすることがある ◦ 人間の脳が社会的な手がかりに反応するように作られているため 2024/7/24 日本音響学会東北支部講演会 12
ここで昔話を。 介護支援ロボットIRIS (2003) インテリジェント介護機器研究開発プロジェクト(2000~2002年度) 中野研(機械系)・牧野研(電気系)・大見研(電気系)合同プロジェクト 開発者の思惑にかかわらず、利用者はロボットに人間的な振る舞いを期待した Hiroi, Y., Nakano, E., Takahashi, T., Ito, A., Kotani, K., & Takatsu, N. (2006, May). A new design concept of robotic interface for the improvement of user familiarity. In ICMIT 2005: Control Systems and Robotics (Vol. 6042, pp. 637-640). SPIE. 2024/7/24 日本音響学会東北支部講演会 13
わがままCDプレーヤー (2003) 音声で対話するCDプレーヤーのインスタレーション • 小学生の声(録音)で発話、マイクで集音 • CDの再生やイジェクトをする 2003年にせんだいメディアテークで開催されたsmt サマーミュージアムで展示された どう見ても知的な物体には見えないが、参加者の中にはこの機 器に知性(あるいは、呼びかけると人間と同様に振る舞う何か) を期待している人が見られた 伊藤彰則、「人間は音声で対話する機械を何だと思うのか」、 第326回音響工学研究会、2003 2024/7/24 日本音響学会東北支部講演会 14
現在のAIは3人称的 リンゴだね。 リンゴは好き? 2024/7/24 • ロボットなのは見ればわかる • リンゴが好きかどうかを知りたいのではない • こういう質問は、相手が知っていて自分が知ら ない内容の表明(自己開示)を促す • 相互に自己開示することで社会的な関係を強化 する(社会的浸透理論) 日本音響学会東北支部講演会 15
1人称AIに向けて リンゴだね。 リンゴは好き? 2024/7/24 日本音響学会東北支部講演会 リンゴは食べられませんが、 色がきれいですね。私の胸の ディスプレイと同じ色です 16
1人称のAI 人間の知能は「自己」を中心にできている ◦ 自分が自己中心であるだけでなく、対話相手も自己中心であるこ とを前提にコミュニケーションが行われる ◦ 話者は、「対話相手も『相手が自己を中心として行動している』こ とを前提に行動する」ことを期待する 自己中心 対話 向こうも 自己中心 向こうも「向こ うも自己中心」 と思ってる 2024/7/24 日本音響学会東北支部講演会 17
1人称のAI 1人称のAIとは ◦ 「自我を持つAI」みたいな話ではない ◦ 対話において、対話主体に期待されるふるまいをシミュレートする ことで、人間とのコミュニケーションを容易にする 自己中心 対話 向こうも 自己中心 向こうも「向こ うも自己中心」 と思ってる 2024/7/24 向こうも 自己中心 向こうも「向こ うも自己中心」 と思ってる 日本音響学会東北支部講演会 18
現在のAIと1人称AI 現在のAIの問題点 1人称AIに望まれる性質 ◦ ユーザとの社会的関係が想定され ていない ◦ 社会的な関係を規定・強化するよう な振る舞いをしない ◦ コミュニケーションに関連する非言 語情報を扱わない ◦ リアルタイム性がない ◦ ユーザと社会的な関係を結ぶ ◦ 社会関係の規範に沿ったインタラク ション ◦ 信頼関係(ラポール)を醸成 ◦ 非言語的行動によるコミュニケー ションの強化(メタコミュニケーショ ン) ◦ リアルタイムなインタラクション 2024/7/24 日本音響学会東北支部講演会 19
対話とメタコミュニケーション メタコミュニケーション [Ito 2020] ◦コミュニケーションチャネルを調整するためのコミュニケー ション ◦ Cf. Social Signal Processing ◦話者間の関係性 ◦コミュニケーションチャネルのためのシグナリング ◦ 会話の開始、発話交代、会話終了 ◦発話内容の理解の表出 ◦対話への興味、「話したさ」の表出 2024/7/24 日本音響学会東北支部講演会 20
メタコミュニケーション コミュニケーションチャネルについての情報 話を聞こうとしているか 音が聞こえているか 発話内容を正しく聞き取ったか うまく返答ができるか 話に興味があるか タスクを実行する能力があるか 話しやすい相手だと思っているか 2024/7/24 日本音響学会東北支部講演会 21
メタコミュニケーション G. Bateson (1956, 1979) ◦“Communication that refers to communication” ある行動が「本気」なの「ごっ こ」なのかをしめすシグナル 2024/7/24 日本音響学会東北支部講演会 22
電気通信でのメタコミュニケーション ◦無線通信のパイロット信号 ◦ 送受信アンテナ間の利得と位相を計測 ◦TCP/IP ◦ コネクション開始時のSYN/ACKなど ◦ ヘッダ情報(ペイロード以外) ◦HTTPヘッダ情報 ◦ コンテンツの種類,サイズなど 通信路の状態,送信・受信側の状態などを交換する → 人間のコミュニケーションでも同様? 2024/7/24 日本音響学会東北支部講演会 23
さきほどのデモの問題点 ◦メタコミュニケーションの問題(人間から見て) ◦ 何の話題を話してよいのかわかりにくい ◦ いつ話してよいのかわかりにくい ◦ 相手がいつまで話し続けるのかわかりにくい ◦ 自分の発話を相手がどう理解したかわかりにくい ◦内容やタイミングについて練習すると使えるようになるが、 非常にストレスフル 2024/7/24 日本音響学会東北支部講演会 24
人間のコミュニケーションにおける 階層モデル(伊藤2021) 層 アプリケーション 話者 聴取者 コミュニケーションタスク プレゼンテーション セッション 言語表現 会話の開始と終了 トランスポート ネットワーク データリンク 物理 あいづち、傾聴態度、言い直し ターンテイキング パラ言語、情報 発声器官の物理モデル 聴覚器官、音声知覚 感情と発声 神経モデル 2024/7/24 日本音響学会東北支部講演会 25
コミュニケーション階層と メタコミュニケーション 階層 内容のコミュニケーション メタコミュニケーション コミュニケーションタスク 会話内容 話者間の関係性の強化 自己開示による親密化 言語表現 敬語表現 親しさの制御 会話の開始、終了 あいさつ 近接学(パーソナルスペース) あいづち、傾聴態度 相手の話を聞いていることの確認 ターンテイキング いつ話してよいか いつ相手の話を聞くか パラ言語、表情 2024/7/24 発話内容のニュアンス 発話行動の「その場でのふさわしさ」 日本音響学会東北支部講演会 26
人間―ロボット対話での階層モデル (Reimann+ 2024) Reimann, M. M., Kunneman, F. A., Oertel, C., & Hindriks, K. V. (2024). A survey on dialogue management in human-robot interaction. ACM Transactions on Human-Robot Interaction. 2024/7/24 日本音響学会東北支部講演会 27
コミュニケーションタスク ◦世の中的に「コミュニケーション」といえばこれを指す ◦ 「コミュ障」「コミュ強」など ◦医療におけるコミュニケーションスキル ◦ 患者の状態や病識、その影響などをうまく引き出す[Maguire+ 2002] ◦コミュニケーションスキルの教育 ◦ Problem-based learning などを通じた教育 [Awang+ 2015] ◦話者同士(あるいはユーザとシステム)の社会的な関係 性を前提とする ◦ 対話をする以上「無関係」はありえない 2024/7/24 日本音響学会東北支部講演会 28
自己開示と親密化 個人的な情報を他者に知らせる行為[Jourard, 1971] 相互に自己開示することで社会的な関係を強化する(社会的浸透理論) [Altman&Taylor,1973] e.g.) 人同士の対話における相互的な自己開示 最近どこかに旅行した? 最近北海道に行ったけど凄く良かったよ! 北海道楽しそうだね! 私は最近旅行してないんだよねー どこか行きたい場所とかないの? 人同士の対話では互いに自己開示することで相手に親しみを感じる 2024/7/24 日本音響学会東北支部講演会 29
自己開示のある対話の実験 システム自己開示 ※ 4発話交換 ユーザ自己開示 相互自己開示 4発話交換 3発話交換 3発話交換 4発話交換 4発話交換 3発話交換 4発話交換 4発話交換 サブトピック 3発話交換 システム自己開示のセクション ユーザ自己開示のセクション ※ ユーザ発話とシステム応答のペアを1発話交換とする 2024/7/24 Tada, S., Chiba, Y., Nose, T., & Ito, A. (2018, November). Effect of mutual selfdisclosure in spoken dialog system on user impression. In 2018 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC) (pp. 806-810) 日本音響学会東北支部講演会 30
実験結果 * ** ** 満足度 親しみ Score 5 Error bar : 95%Cl * : p<0.05 ** : p<0.01 4 3 2 1 システム自己開示 2024/7/24 被験者の 対話参加意欲 システムの 対話参加意欲 ユーザ自己開示 日本音響学会東北支部講演会 対話の流れ 相互自己開示 31
言語表現 ◦同じ意味内容でも言語表現によって社会的に差が出る ◦ 敬語、語彙の選定、役割語 ◦ 敬語がない言語でも、話者間の力関係によって言語表現が変わる [Morand 2000] ◦ “May I borrow a doller?” ⇵ “I'm really sorry to bother you like this, but I seem to have forgotten my wallet. I was wondering if I might borrow a dollar from you, just until tomorrow that it.” 2024/7/24 日本音響学会東北支部講演会 32
段階的口調制御(蔭山2018) 疎遠 口調変化による対話シス テムへの印象の影響を調 査 ◦ システムと利用者の対話実 験を3日間連続で実施 ◦ システムの口調を段階的に 変化 ◦ ユーザのシステムに対する 印象の変化を分析 親しい 1日目 2日目 3日目 初めまして。 よろしくお願いします。 こんにちは。 昨日は何をしていましたか? こんにちは。 昨日は何していたの? 昨日は□□をしていましたよ。 とても楽しかったよ。 昨日は○○したよ。 すごく面白かったんだ。 初めまして。 よろしくお願いします。 2024/7/24 日本音響学会東北支部講演会 33
段階的口調制御の概要(蔭山2018) ◦ 3日目において,口調変化有,デスマス体間において5%有意 ◦ 段階的に口調の親密度を上げることで,エージェントの話し方に対する印 象を向上させた 口調変化有 デスマス体のみ * 5 Score 非デスマス体のみ Error bar : 95%Cl * : p<0.05 4 3 2 1 day 1 2024/7/24 day 2 day 3 日本音響学会東北支部講演会 34
会話の開始と終了 ◦どのように会話を始めて、終わるか ◦ Conversation opener / closer と呼ばれる ◦ 人工システムでは、特定の単語(マジックワード、ウェイクワード)を言うこと で会話を始めることが多い (OK Google, Hey, Siri など) ◦ あいさつには会話の開始の機能があるが、特定の言語やL2の分析が多い ◦ 状況を決めないと議論ができない ◦ 会議などで集まった場合、電話、店での呼び込み、窓口への訪問、などな ど ◦ ロボットの場合、どのように人に近づいて話しかけるかが研究されている (Satake+ 2009) ◦ 近接学(Proxemics)による分析、人間の移動方向や速度による推定など 2024/7/24 日本音響学会東北支部講演会 35
近接学(Proxemics)とパーソナルスペース ◦ 人同士の社会的な関係によって「どこ まで近づいてよいか」が変化する (Hall, 1966) ◦ 密接距離 (Intimate distance)~45cm ◦ 個体距離 (Personal distance)~1.2m ◦ 社会距離 (Social distance)~3.6m ◦ 公共距離 (Public distance)~7m From Wikimedia Commons 2024/7/24 日本音響学会東北支部講演会 36
ロボットはどこまで近づいてもいいのか ◦四角いロボットを近づけて適切な位置で止める実験を 行った[Hiroi+ 2009] • ロボットが大きいほど適 切な「間合い」は大きい • およそ1m~1.4m • ロボットの高さが1.2mを 超えると頭打ち Hiroi, Y., & Ito, A. (2011). Influence of the size factor of a mobile robot moving toward a human on subjective acceptable distance. Mobile robots-current trends, 177-190. 2024/7/24 日本音響学会東北支部講演会 37
あいづち,傾聴態度,言い直し ◦あいづち (backchannel) ◦ 聞き手が相手の話を聞いているというシグナル [Ward+ 2000] ◦ 文化依存、誤解のもとになることも [Li 2006] ◦傾聴態度 ◦ 聞き手が話し手や会話内容に対して示す態度 ◦ 傾聴タイプとしていくつかの類型がありうる [Tyagi 2013] ◦ Active/Appreciative/Attentive/Biased/Casual/Comprehension/Critical/ Deep/Discriminative/Empathic/Evaluative/Inactive/Judgmental/Partial/ Reflective/Relationship/Sympathic/Therapeutic/Total ◦ ビジネス、教育、医療などで重要なスキル [Shipley 2010] 2024/7/24 日本音響学会東北支部講演会 38
あいづち,傾聴態度,言い直し ◦言い直し ◦ 話者が言いたいことを間違いなく伝えるための行動 ◦ 自分で言い間違いに気づいて言い直す (self-repair) [Levelt 1983] ◦ 自分の言っている内容をモニタリングする(メタ認知)ことが必要 ◦ 聞き手が反応することで訂正が促される (other-initiated repair) [Dingemanse+ 2015] 2024/7/24 日本音響学会東北支部講演会 39
ターンテイキング 対話において次の発話権を取ること ◦ きわめて多くの研究がある[Skanze 2021] ◦ 対話において「いつ自分が話してよいか」の判断 ◦ ターンテイキングのキューになる音声の物理量や言語表現など ◦ 言語:終止形 ◦ 韻律:声の高さが上昇または下降、パワーが減少 ◦ 視線:相手を見る ◦ 3者会話でのターンテイキング[Bohus+ 2011] • あいづちやターンテイキングはタイミングがすべてなので、現在のLLMのように非リアルタイムな モデルでは扱えない • リアルタイムプロセス用とそれ以外用のモデルを別に持つ必要があるのかもしれない 2024/7/24 日本音響学会東北支部講演会 40
発話交代の「間」(交代潜時) 人間と人間,人間と機械の英会話 How are you? 2024/7/24 Great. And you? How are you? 日本音響学会東北支部講演会 … fine. 41
機械との対話における交代潜時 音声対話による英会話学習 対人間の場合と同じようなタ システム イミングで答えてほしい ◦ 日本人のための英会話学習 ◦ 音声対話システムによる会話 練習 ◦ CGキャラクタ利用 2024/7/24 ◦ 人間の場合は微妙な表情など で間合いを測っている(?) ◦ CGキャラクタやロボットでそれ と同じ制御をするのは簡単で はない 日本音響学会東北支部講演会 42
人間同士の対話タイミングに近づける 試み 発話促進のための人工的な表現 (タイムプレッシャー表現)の導入 [Suzuki+ 14] タイムプレッシャーの効果 交替潜時が減少 「練習をしている感じ」、「緊張感」が向上 朗読だけの練習より交替潜時減少が大きい 効果が2週間後も持続 だんだん 赤くなる 2024/7/24 日本音響学会東北支部講演会 43
パラ言語情報と表情 ◦発話者と聴取者が固定された状況での発話 ◦音声に含まれる様々な情報の解釈 [森+ 2014] ◦ イントネーション、声質と心理状態(感情など) ◦ イントネーションと意味の変化など ◦言語・パラ言語・非言語 ◦ パラ言語:音声に含まれる、言語内容以外でかつ個人性ではない情報 ◦ 非言語:個人性など ◦表情、ジェスチャ 2024/7/24 日本音響学会東北支部講演会 44
言語と韻律を同時に考慮した応答生成 音声の韻律を考慮 話の流れに合った音声 ピッチ制御信号 試合 に 勝っ た よ さすが だ ね テキスト ニューラル応答生成 音声合成 ユーザの言語・韻律情報からシステムの言語・韻律情報を 生成するニューラル応答生成の実現 Yamazaki, Y., Chiba, Y., Nose, T., & Ito, A. (2021, September). Neural Spoken-Response Generation Using Prosodic and Linguistic Context for Conversational Systems. In Interspeech (pp. 246-250). 2024/7/24 日本音響学会東北支部講演会 45
合成音声の対比較実験 1. ピッチ制御なし 2. 提案モデル 3. 提案モデル ユーザ発話なし • 一対の手法の比較では対話形式の音声A・Bを提示 音声B 音声A 人間の先行発話 システムの応答 人間の先行発話 システムの応答 Bの方が先行発 提案モデル ピッチ制御なし 提案モデル ユーザ発話なし ピッチ制御なし 提案モデル ユーザ発話なし 提案モデル • 評価者は5段階で比較 Aの方が先行発 +2: 話に対する応答 として適している ~ -2: 話に対する応答 として適している • 評価者数は17名、音声は20サンプル を使用 2024/7/24 日本音響学会東北支部講演会 46
合成音声の比較 ユーザ発話を考慮する手法においては先行発話に対する同調がみられた ➢ 人間の対話では相手との韻律の同調が生じる [Levitan and Hirschberg, ’11] 例) 先行発話: ってかなんかもうKポップとか歌詞の意味分かんないし。 応答: そうですよね。 ピッチ制御なし 連結モデル 連結モデル ユーザ発話なし 例) 先行発話: いやあ、さすがにしんどかった。 応答: いやー、それは、かなりきついですね。 ピッチ制御なし 連結モデル 連結モデル ユーザ発話なし 特にユーザ発話の韻律情報を基に同調のようなピッチ変化がなされたと考えられる 2024/7/24 日本音響学会東北支部講演会 47
表情を表出するエージェントとの対話 ◦顔や体を持つ対話エージェント (Embodied Conversational Agent, ECA) • 仮想的なロボットとも言える • 実ロボットよりも写実的(photo-realistic) な表現が可能 • 音声に合わせた口パク、表情の変 化 • ジェスチャー 対話システムRemdis (NTT, rinna, 名大, 名工大) 2024/7/24 日本音響学会東北支部講演会 48
表情を表出するエージェントとの対話 ◦感情認識・感情表出を行うECAが対話にどのような影響を 与えるかの調査を行った 試作した対話システム • 芸術作品についての対話を 行う • 対話制御はQAベース • ユーザの顔画像からの感情 認識 • エージェントの感情表出 Jolibois, S., Ito, A., & Nose, T. (2023, July). Multimodal Expressive Embodied Conversational Agent Design. In International Conference on Human-Computer Interaction (pp. 244-249). 2024/7/24 日本音響学会東北支部講演会 49
システム構成 2024/7/24 日本音響学会東北支部講演会 50
デモ 2024/7/24 日本音響学会東北支部講演会 51
回答の遅れ(交代潜時)がシステムの 印象に与える影響 (N = 20) Satisfaction • Constant score • Response delay was not the main factor influencing the satisfaction Responsiveness • Lower response delay have higher score • 500ms and 1000ms are almost the same Other criteria • Visual aspect, Animation and Interface positively affected for lowest R.D. • Information accuracy, Conversation skill, Naturaless have the lowest scores 2024/7/24 日本音響学会東北支部講演会 52
エージェントの感情表現がシステムへ の印象に与える影響 Score distribution for Satisfaction (left) and Responsiveness (right) 2024/7/24 日本音響学会東北支部講演会 53
感情表現と交代潜時の相互作用 2024/7/24 日本音響学会東北支部講演会 54
人間を模するAIへの批判 “Blue-pill robots are engineered to deceive (perhaps in an attempt to secure desirable ends). Red-pill robots, on the other hand, are built to do no violence to truth. While “taking the blue pill” is an option some select, this path, in the context of present and future robotics, is an exceedingly bad one by our lights, and we herein defend this position by attempting to show that the production of bluepill robots via engineering as we know it should be avoided.” 青い薬のロボットは、(おそらく望ましい目的を達成するために)人を欺くように設計されている。一方、 赤い薬のロボットは、真実を偽らないように作られている。青い薬を飲むという選択肢を選ぶ人もい るが、現在と未来のロボット工学の文脈からすれば、この道は極めて悪い道である。私たちはこの 立場を守るために、私たちが知っているようなエンジニアリングによる「ブルーピル・ロボット」の製造 は避けるべきであることを示そうと試みている。 Bringsjord, S., & Clark, M. H. (2011). Red-pill robots only, please. IEEE Transactions on Affective Computing, 3(4), 394-397. 2024/7/24 日本音響学会東北支部講演会 55
まとめ 「1人称のAI」の実現に向けて ◦ 人間は、他の自律的存在に対して、人間に対するやり方で接しようとする ◦ 現在のAIは、対人コミュニケーション(特にメタコミュニケーション)の点から不 備がある ◦ 人間に似た方法によるコミュニケーションを受け付けるためには、AIが「1人 称」を持つ必要がある 2024/7/24 日本音響学会東北支部講演会 56