一人称AIに向けた人間―機械間コミュニケーション

一人称AIに向けた人間―機械間コミュニケーション伊藤彰則東北大学大学院工学研究科通信工学専攻音声テスト

自己紹介 Akinori Ito 伊藤彰則工学研究科通信工学専攻教授学部時代に人工知能を志して夢破れる気を取り直して音声認識の研究に従事現在の専門分野音声認識・音声合成音声・マルチモーダル対話システム音声・オーディオ符号化音声による言語学習音楽情報処理 2024/7/24 日本音響学会東北支部講演会 2024/2/2 at Shenzhen, China 2

3.

はじめに ◦ J. C. R. Licklider, “Man-Computer Symbiosis,” IRE Trans., Human Factors in Electronics, 1:4-11, 1960 ◦ “The hope is that, in not too many years, human brains and computing machines will be coupled together very tightly, and that, the resuilting partnership will think as no human brain has ever thought and process data in a way not approached by the information-handling machines we know today.” ◦ そう遠くない将来、人間の脳とコンピュータが緊密に結合し、人間の脳がこれまで考えたことのないような思考をし、現在のような情報処理マシンが近づけないような方法でデータを処理するようになることが期待されている。 ◦ Licklider は初めて音声認識技術を作った人としても有名 (1952) ◦ ちなみに世界最初の電子計算機ENIAC稼働が1946年 2024/7/24 日本音響学会東北支部講演会 3

4.

はじめに大規模言語モデル(LLM)の発展によるAIの進化 →マルチモーダル（視覚、聴覚）基盤モデルへ ◦極めて優れた情報処理性能 ◦ 文章理解、機械翻訳、情報検索、応答生成 ◦ 画像認識、画像理解、画像生成 ◦ 音声認識、音声理解、音声対話、音声合成 ◦今後は動画像の認識・理解・生成へこれ以上することがあるのか？ 2024/7/24 日本音響学会東北支部講演会 4

5.

今日の内容「最新のAIでこんなことができている」という話ではなく「人間と自然に対話をするAIを作るためには何が足りていないか」という話です 2024/7/24 日本音響学会東北支部講演会 5

6.

最初に「できる」話大規模言語モデル(Large Language Model, LLM)の発達によって、AIとの自然言語による対話は格段に進歩した 2024/7/24 日本音響学会東北支部講演会 6

7.

音声対話デモ今作っている対話ロボット用の音声対話です ◦Google Cloud Speech / Text-to-Speech ◦OpenAI (GPT3.5-turbo) ◦Azure Weather API / Map API 2024/7/24 日本音響学会東北支部講演会 7

8.

現在のAIは3人称的これは何ですか？これはリンゴです 2024/7/24 日本音響学会東北支部講演会 8

9.

現在のAIは3人称的リンゴだね。リンゴは好き？ 2024/7/24 日本音響学会東北支部講演会私はロボットですからリンゴは食べません 9

10.

現在のAIは3人称的 • AIには「それ自身の目的」がないので、自分について語ることができない • 人間は知的に見える対象をしばしば人間と混同するので、そういう反応を期待する • これは人間の問題 2024/7/24 日本音響学会東北支部講演会 10

11.

人間は関係性の生物 “Relationships with others lie at the very core of human existence. Humans are conceived within relationships, born into relationships, and live their lives within relationships with others.” 他者との関係は、人間存在の核心にある。人間は人間関係の中で受胎し、人間関係の中で生まれ、人間関係の中で人生を送る。 Bersheid, E. & Peplau, L. (1983). The emerging science of relationships. In H. H. Kelly et al. (eds.) Close relationships, pp.1-9, New York: Freeman. 2024/7/24 日本音響学会東北支部講演会 11

12.

メディアの等式 Reeves, B., & Nass, C. I. (1996). The media equation: How people treat computers, television, and new media like real people and places. Center for the Study of Language and Information; Cambridge University Press. バイロンリーブス, クリフォードナス (著), 細馬宏通 (訳) 「人はなぜコンピューターを人間として扱うか: メディアの等式の心理学」翔泳社 (2001) ◦ 「メディアの等式」とは、クリフォード・ナスとバイロン・リーブスによって提唱されたコミュニケーション理論 ◦ 人々がコンピュータやテレビなどのメディアを、まるで実際の人間や社会的な存在であるかのように扱う傾向があることを示している ◦ 個人はメディアに対して、実際の人間とのやり取りと同様の反応を示すことが多い ◦ コンピュータに対して礼儀正しく接したり、性格を付与したり、さらには感情を抱いたりすることがある ◦ 人間の脳が社会的な手がかりに反応するように作られているため 2024/7/24 日本音響学会東北支部講演会 12

13.

ここで昔話を。介護支援ロボットIRIS (2003) インテリジェント介護機器研究開発プロジェクト(2000～2002年度）中野研（機械系）・牧野研（電気系）・大見研（電気系）合同プロジェクト開発者の思惑にかかわらず、利用者はロボットに人間的な振る舞いを期待した Hiroi, Y., Nakano, E., Takahashi, T., Ito, A., Kotani, K., & Takatsu, N. (2006, May). A new design concept of robotic interface for the improvement of user familiarity. In ICMIT 2005: Control Systems and Robotics (Vol. 6042, pp. 637-640). SPIE. 2024/7/24 日本音響学会東北支部講演会 13

14.

わがままCDプレーヤー (2003) 音声で対話するCDプレーヤーのインスタレーション • 小学生の声（録音）で発話、マイクで集音 • CDの再生やイジェクトをする 2003年にせんだいメディアテークで開催されたsmt サマーミュージアムで展示されたどう見ても知的な物体には見えないが、参加者の中にはこの機器に知性（あるいは、呼びかけると人間と同様に振る舞う何か）を期待している人が見られた伊藤彰則、「人間は音声で対話する機械を何だと思うのか」、第326回音響工学研究会、2003 2024/7/24 日本音響学会東北支部講演会 14

15.

現在のAIは3人称的リンゴだね。リンゴは好き？ 2024/7/24 • ロボットなのは見ればわかる • リンゴが好きかどうかを知りたいのではない • こういう質問は、相手が知っていて自分が知らない内容の表明（自己開示）を促す • 相互に自己開示することで社会的な関係を強化する（社会的浸透理論）日本音響学会東北支部講演会 15

16.

１人称AIに向けてリンゴだね。リンゴは好き？ 2024/7/24 日本音響学会東北支部講演会リンゴは食べられませんが、色がきれいですね。私の胸のディスプレイと同じ色です 16

17.

１人称のAI 人間の知能は「自己」を中心にできている ◦ 自分が自己中心であるだけでなく、対話相手も自己中心であることを前提にコミュニケーションが行われる ◦ 話者は、「対話相手も『相手が自己を中心として行動している』ことを前提に行動する」ことを期待する自己中心対話向こうも自己中心向こうも「向こうも自己中心」と思ってる 2024/7/24 日本音響学会東北支部講演会 17

18.

１人称のAI １人称のAIとは ◦ 「自我を持つAI」みたいな話ではない ◦ 対話において、対話主体に期待されるふるまいをシミュレートすることで、人間とのコミュニケーションを容易にする自己中心対話向こうも自己中心向こうも「向こうも自己中心」と思ってる 2024/7/24 向こうも自己中心向こうも「向こうも自己中心」と思ってる日本音響学会東北支部講演会 18

19.

現在のAIと１人称AI 現在のAIの問題点１人称AIに望まれる性質 ◦ ユーザとの社会的関係が想定されていない ◦ 社会的な関係を規定・強化するような振る舞いをしない ◦ コミュニケーションに関連する非言語情報を扱わない ◦ リアルタイム性がない ◦ ユーザと社会的な関係を結ぶ ◦ 社会関係の規範に沿ったインタラクション ◦ 信頼関係（ラポール）を醸成 ◦ 非言語的行動によるコミュニケーションの強化（メタコミュニケーション） ◦ リアルタイムなインタラクション 2024/7/24 日本音響学会東北支部講演会 19

20.

対話とメタコミュニケーションメタコミュニケーション [Ito 2020] ◦コミュニケーションチャネルを調整するためのコミュニケーション ◦ Cf. Social Signal Processing ◦話者間の関係性 ◦コミュニケーションチャネルのためのシグナリング ◦ 会話の開始、発話交代、会話終了 ◦発話内容の理解の表出 ◦対話への興味、「話したさ」の表出 2024/7/24 日本音響学会東北支部講演会 20

21.

メタコミュニケーションコミュニケーションチャネルについての情報話を聞こうとしているか音が聞こえているか発話内容を正しく聞き取ったかうまく返答ができるか話に興味があるかタスクを実行する能力があるか話しやすい相手だと思っているか 2024/7/24 日本音響学会東北支部講演会 21

22.

メタコミュニケーション G. Bateson (1956, 1979) ◦“Communication that refers to communication” ある行動が「本気」なの「ごっこ」なのかをしめすシグナル 2024/7/24 日本音響学会東北支部講演会 22

23.

電気通信でのメタコミュニケーション ◦無線通信のパイロット信号 ◦ 送受信アンテナ間の利得と位相を計測 ◦TCP/IP ◦ コネクション開始時のSYN/ACKなど ◦ ヘッダ情報（ペイロード以外） ◦HTTPヘッダ情報 ◦ コンテンツの種類，サイズなど通信路の状態，送信・受信側の状態などを交換する → 人間のコミュニケーションでも同様？ 2024/7/24 日本音響学会東北支部講演会 23

24.

さきほどのデモの問題点 ◦メタコミュニケーションの問題（人間から見て） ◦ 何の話題を話してよいのかわかりにくい ◦ いつ話してよいのかわかりにくい ◦ 相手がいつまで話し続けるのかわかりにくい ◦ 自分の発話を相手がどう理解したかわかりにくい ◦内容やタイミングについて練習すると使えるようになるが、非常にストレスフル 2024/7/24 日本音響学会東北支部講演会 24

25.

人間のコミュニケーションにおける階層モデル（伊藤2021）層アプリケーション話者聴取者コミュニケーションタスクプレゼンテーションセッション言語表現会話の開始と終了トランスポートネットワークデータリンク物理あいづち、傾聴態度、言い直しターンテイキングパラ言語、情報発声器官の物理モデル聴覚器官、音声知覚感情と発声神経モデル 2024/7/24 日本音響学会東北支部講演会 25

26.

コミュニケーション階層とメタコミュニケーション階層内容のコミュニケーションメタコミュニケーションコミュニケーションタスク会話内容話者間の関係性の強化自己開示による親密化言語表現敬語表現親しさの制御会話の開始、終了あいさつ近接学（パーソナルスペース）あいづち、傾聴態度相手の話を聞いていることの確認ターンテイキングいつ話してよいかいつ相手の話を聞くかパラ言語、表情 2024/7/24 発話内容のニュアンス発話行動の「その場でのふさわしさ」日本音響学会東北支部講演会 26

27.

人間―ロボット対話での階層モデル (Reimann+ 2024) Reimann, M. M., Kunneman, F. A., Oertel, C., & Hindriks, K. V. (2024). A survey on dialogue management in human-robot interaction. ACM Transactions on Human-Robot Interaction. 2024/7/24 日本音響学会東北支部講演会 27

28.

コミュニケーションタスク ◦世の中的に「コミュニケーション」といえばこれを指す ◦ 「コミュ障」「コミュ強」など ◦医療におけるコミュニケーションスキル ◦ 患者の状態や病識、その影響などをうまく引き出す[Maguire+ 2002] ◦コミュニケーションスキルの教育 ◦ Problem-based learning などを通じた教育 [Awang+ 2015] ◦話者同士（あるいはユーザとシステム）の社会的な関係性を前提とする ◦ 対話をする以上「無関係」はありえない 2024/7/24 日本音響学会東北支部講演会 28

29.

自己開示と親密化個人的な情報を他者に知らせる行為[Jourard, 1971] 相互に自己開示することで社会的な関係を強化する（社会的浸透理論） [Altman&Taylor,1973] e.g.) 人同士の対話における相互的な自己開示最近どこかに旅行した？最近北海道に行ったけど凄く良かったよ！北海道楽しそうだね！私は最近旅行してないんだよねーどこか行きたい場所とかないの？人同士の対話では互いに自己開示することで相手に親しみを感じる 2024/7/24 日本音響学会東北支部講演会 29

30.

自己開示のある対話の実験システム自己開示 ※ 4発話交換ユーザ自己開示相互自己開示 4発話交換 3発話交換 3発話交換 4発話交換 4発話交換 3発話交換 4発話交換 4発話交換サブトピック 3発話交換システム自己開示のセクションユーザ自己開示のセクション ※ ユーザ発話とシステム応答のペアを1発話交換とする 2024/7/24 Tada, S., Chiba, Y., Nose, T., & Ito, A. (2018, November). Effect of mutual selfdisclosure in spoken dialog system on user impression. In 2018 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC) (pp. 806-810) 日本音響学会東北支部講演会 30

31.

実験結果 * ** ** 満足度親しみ Score 5 Error bar ： 95%Cl * ： p<0.05 ** : p<0.01 4 3 2 1 システム自己開示 2024/7/24 被験者の対話参加意欲システムの対話参加意欲ユーザ自己開示日本音響学会東北支部講演会対話の流れ相互自己開示 31

32.

言語表現 ◦同じ意味内容でも言語表現によって社会的に差が出る ◦ 敬語、語彙の選定、役割語 ◦ 敬語がない言語でも、話者間の力関係によって言語表現が変わる [Morand 2000] ◦ “May I borrow a doller?” ⇵ “I'm really sorry to bother you like this, but I seem to have forgotten my wallet. I was wondering if I might borrow a dollar from you, just until tomorrow that it.” 2024/7/24 日本音響学会東北支部講演会 32

33.

段階的口調制御（蔭山2018）疎遠口調変化による対話システムへの印象の影響を調査 ◦ システムと利用者の対話実験を3日間連続で実施 ◦ システムの口調を段階的に変化 ◦ ユーザのシステムに対する印象の変化を分析親しい 1日目 2日目 3日目初めまして。よろしくお願いします。こんにちは。昨日は何をしていましたか？こんにちは。昨日は何していたの？昨日は□□をしていましたよ。とても楽しかったよ。昨日は○○したよ。すごく面白かったんだ。初めまして。よろしくお願いします。 2024/7/24 日本音響学会東北支部講演会 33

34.

段階的口調制御の概要（蔭山2018） ◦ 3日目において，口調変化有，デスマス体間において5%有意 ◦ 段階的に口調の親密度を上げることで，エージェントの話し方に対する印象を向上させた口調変化有デスマス体のみ * 5 Score 非デスマス体のみ Error bar ： 95%Cl * ： p<0.05 4 3 2 1 day 1 2024/7/24 day 2 day 3 日本音響学会東北支部講演会 34

35.

会話の開始と終了 ◦どのように会話を始めて、終わるか ◦ Conversation opener / closer と呼ばれる ◦ 人工システムでは、特定の単語（マジックワード、ウェイクワード）を言うことで会話を始めることが多い (OK Google, Hey, Siri など) ◦ あいさつには会話の開始の機能があるが、特定の言語やL2の分析が多い ◦ 状況を決めないと議論ができない ◦ 会議などで集まった場合、電話、店での呼び込み、窓口への訪問、などなど ◦ ロボットの場合、どのように人に近づいて話しかけるかが研究されている (Satake+ 2009) ◦ 近接学(Proxemics)による分析、人間の移動方向や速度による推定など 2024/7/24 日本音響学会東北支部講演会 35

36.

近接学(Proxemics)とパーソナルスペース ◦ 人同士の社会的な関係によって「どこまで近づいてよいか」が変化する (Hall, 1966) ◦ 密接距離 (Intimate distance)～45cm ◦ 個体距離 (Personal distance)～1.2m ◦ 社会距離 (Social distance)～3.6m ◦ 公共距離 (Public distance)～7m From Wikimedia Commons 2024/7/24 日本音響学会東北支部講演会 36

37.

ロボットはどこまで近づいてもいいのか ◦四角いロボットを近づけて適切な位置で止める実験を行った[Hiroi+ 2009] • ロボットが大きいほど適切な「間合い」は大きい • およそ1m～1.4m • ロボットの高さが1.2mを超えると頭打ち Hiroi, Y., & Ito, A. (2011). Influence of the size factor of a mobile robot moving toward a human on subjective acceptable distance. Mobile robots-current trends, 177-190. 2024/7/24 日本音響学会東北支部講演会 37

38.

あいづち，傾聴態度，言い直し ◦あいづち (backchannel) ◦ 聞き手が相手の話を聞いているというシグナル [Ward+ 2000] ◦ 文化依存、誤解のもとになることも [Li 2006] ◦傾聴態度 ◦ 聞き手が話し手や会話内容に対して示す態度 ◦ 傾聴タイプとしていくつかの類型がありうる [Tyagi 2013] ◦ Active/Appreciative/Attentive/Biased/Casual/Comprehension/Critical/ Deep/Discriminative/Empathic/Evaluative/Inactive/Judgmental/Partial/ Reflective/Relationship/Sympathic/Therapeutic/Total ◦ ビジネス、教育、医療などで重要なスキル [Shipley 2010] 2024/7/24 日本音響学会東北支部講演会 38

39.

あいづち，傾聴態度，言い直し ◦言い直し ◦ 話者が言いたいことを間違いなく伝えるための行動 ◦ 自分で言い間違いに気づいて言い直す (self-repair) [Levelt 1983] ◦ 自分の言っている内容をモニタリングする（メタ認知）ことが必要 ◦ 聞き手が反応することで訂正が促される (other-initiated repair) [Dingemanse+ 2015] 2024/7/24 日本音響学会東北支部講演会 39

40.

ターンテイキング対話において次の発話権を取ること ◦ きわめて多くの研究がある[Skanze 2021] ◦ 対話において「いつ自分が話してよいか」の判断 ◦ ターンテイキングのキューになる音声の物理量や言語表現など ◦ 言語：終止形 ◦ 韻律：声の高さが上昇または下降、パワーが減少 ◦ 視線：相手を見る ◦ ３者会話でのターンテイキング[Bohus+ 2011] • あいづちやターンテイキングはタイミングがすべてなので、現在のLLMのように非リアルタイムなモデルでは扱えない • リアルタイムプロセス用とそれ以外用のモデルを別に持つ必要があるのかもしれない 2024/7/24 日本音響学会東北支部講演会 40

41.

発話交代の「間」（交代潜時）人間と人間，人間と機械の英会話 How are you? 2024/7/24 Great. And you? How are you? 日本音響学会東北支部講演会 … fine. 41

42.

機械との対話における交代潜時音声対話による英会話学習対人間の場合と同じようなタシステムイミングで答えてほしい ◦ 日本人のための英会話学習 ◦ 音声対話システムによる会話練習 ◦ CGキャラクタ利用 2024/7/24 ◦ 人間の場合は微妙な表情などで間合いを測っている（？） ◦ CGキャラクタやロボットでそれと同じ制御をするのは簡単ではない日本音響学会東北支部講演会 42

43.

人間同士の対話タイミングに近づける試み発話促進のための人工的な表現（タイムプレッシャー表現）の導入 [Suzuki+ 14] タイムプレッシャーの効果交替潜時が減少「練習をしている感じ」、「緊張感」が向上朗読だけの練習より交替潜時減少が大きい効果が2週間後も持続だんだん赤くなる 2024/7/24 日本音響学会東北支部講演会 43

44.

パラ言語情報と表情 ◦発話者と聴取者が固定された状況での発話 ◦音声に含まれる様々な情報の解釈 [森+ 2014] ◦ イントネーション、声質と心理状態（感情など） ◦ イントネーションと意味の変化など ◦言語・パラ言語・非言語 ◦ パラ言語：音声に含まれる、言語内容以外でかつ個人性ではない情報 ◦ 非言語：個人性など ◦表情、ジェスチャ 2024/7/24 日本音響学会東北支部講演会 44

45.

言語と韻律を同時に考慮した応答生成音声の韻律を考慮話の流れに合った音声ピッチ制御信号試合に勝ったよさすがだねテキストニューラル応答生成音声合成ユーザの言語・韻律情報からシステムの言語・韻律情報を生成するニューラル応答生成の実現 Yamazaki, Y., Chiba, Y., Nose, T., & Ito, A. (2021, September). Neural Spoken-Response Generation Using Prosodic and Linguistic Context for Conversational Systems. In Interspeech (pp. 246-250). 2024/7/24 日本音響学会東北支部講演会 45

46.

合成音声の対比較実験 1. ピッチ制御なし 2. 提案モデル 3. 提案モデルユーザ発話なし • 一対の手法の比較では対話形式の音声A・Bを提示音声B 音声A 人間の先行発話システムの応答人間の先行発話システムの応答 Bの方が先行発提案モデルピッチ制御なし提案モデルユーザ発話なしピッチ制御なし提案モデルユーザ発話なし提案モデル • 評価者は5段階で比較 Aの方が先行発 +2: 話に対する応答として適している～ -2: 話に対する応答として適している • 評価者数は17名、音声は20サンプルを使用 2024/7/24 日本音響学会東北支部講演会 46

47.

合成音声の比較ユーザ発話を考慮する手法においては先行発話に対する同調がみられた ➢ 人間の対話では相手との韻律の同調が生じる [Levitan and Hirschberg, ’11] 例) 先行発話: ってかなんかもうKポップとか歌詞の意味分かんないし。応答: そうですよね。ピッチ制御なし連結モデル連結モデルユーザ発話なし例) 先行発話: いやあ、さすがにしんどかった。応答: いやー、それは、かなりきついですね。ピッチ制御なし連結モデル連結モデルユーザ発話なし特にユーザ発話の韻律情報を基に同調のようなピッチ変化がなされたと考えられる 2024/7/24 日本音響学会東北支部講演会 47

48.

表情を表出するエージェントとの対話 ◦顔や体を持つ対話エージェント (Embodied Conversational Agent, ECA) • 仮想的なロボットとも言える • 実ロボットよりも写実的(photo-realistic) な表現が可能 • 音声に合わせた口パク、表情の変化 • ジェスチャー対話システムRemdis (NTT, rinna, 名大, 名工大) 2024/7/24 日本音響学会東北支部講演会 48

49.

表情を表出するエージェントとの対話 ◦感情認識・感情表出を行うECAが対話にどのような影響を与えるかの調査を行った試作した対話システム • 芸術作品についての対話を行う • 対話制御はQAベース • ユーザの顔画像からの感情認識 • エージェントの感情表出 Jolibois, S., Ito, A., & Nose, T. (2023, July). Multimodal Expressive Embodied Conversational Agent Design. In International Conference on Human-Computer Interaction (pp. 244-249). 2024/7/24 日本音響学会東北支部講演会 49

50.

システム構成 2024/7/24 日本音響学会東北支部講演会 50

51.

デモ 2024/7/24 日本音響学会東北支部講演会 51

52.

回答の遅れ（交代潜時）がシステムの印象に与える影響 (N = 20) Satisfaction • Constant score • Response delay was not the main factor influencing the satisfaction Responsiveness • Lower response delay have higher score • 500ms and 1000ms are almost the same Other criteria • Visual aspect, Animation and Interface positively affected for lowest R.D. • Information accuracy, Conversation skill, Naturaless have the lowest scores 2024/7/24 日本音響学会東北支部講演会 52

53.

エージェントの感情表現がシステムへの印象に与える影響 Score distribution for Satisfaction (left) and Responsiveness (right) 2024/7/24 日本音響学会東北支部講演会 53

54.

感情表現と交代潜時の相互作用 2024/7/24 日本音響学会東北支部講演会 54

55.

人間を模するAIへの批判 “Blue-pill robots are engineered to deceive (perhaps in an attempt to secure desirable ends). Red-pill robots, on the other hand, are built to do no violence to truth. While “taking the blue pill” is an option some select, this path, in the context of present and future robotics, is an exceedingly bad one by our lights, and we herein defend this position by attempting to show that the production of bluepill robots via engineering as we know it should be avoided.” 青い薬のロボットは、（おそらく望ましい目的を達成するために）人を欺くように設計されている。一方、赤い薬のロボットは、真実を偽らないように作られている。青い薬を飲むという選択肢を選ぶ人もいるが、現在と未来のロボット工学の文脈からすれば、この道は極めて悪い道である。私たちはこの立場を守るために、私たちが知っているようなエンジニアリングによる「ブルーピル・ロボット」の製造は避けるべきであることを示そうと試みている。 Bringsjord, S., & Clark, M. H. (2011). Red-pill robots only, please. IEEE Transactions on Affective Computing, 3(4), 394-397. 2024/7/24 日本音響学会東北支部講演会 55

56.

まとめ「１人称のAI」の実現に向けて ◦ 人間は、他の自律的存在に対して、人間に対するやり方で接しようとする ◦ 現在のAIは、対人コミュニケーション（特にメタコミュニケーション）の点から不備がある ◦ 人間に似た方法によるコミュニケーションを受け付けるためには、AIが「１人称」を持つ必要がある 2024/7/24 日本音響学会東北支部講演会 56

一人称AIに向けた人間―機械間コミュニケーション

Akinori Ito

関連スライド

深層学習による音声処理～物理なき音声のモデル化～

学振特別研究員になるために～2025年度申請版

研究に使える便利なフリーソフト ImageJ

StampFlyで学ぶマルチコプタ制御

大規模言語モデルに追加学習で専門知識を教える試み (2023, arXiv:2312.03360)

ZAZA株式会社_会社紹介

各ページのテキスト