RealtimeAPIを使って、 どんなことができるかを検証してみる

588 Views

March 08, 25

スライド概要

登壇動画
https://www.youtube.com/watch?v=hzDhbJhoULc

profile-image

Solvio ,Inc. Founder. 生成AIを利用した企業の課題解決を行っています。コードも書きます。実験とステーキが好きです。 執筆記事 https://zenn.dev/najo 執筆書籍 https://amzn.asia/d/b78OKgk

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

⾃⼰紹介 (登壇者変更) 岩⼿テナージョン (テナー) Solvio株式会社 代表取締役 (ex:クラスメソッド 新規事業部) 清⽔健⼀郎 Solvio株式会社 アドバイザー (ex:EYストラテジー&コンサルティング パートナー) NPO法⼈ハチドリーズ 理事 (SDGs) ハチドリベンチャーズ設⽴予定(AI x Global x SDGs Edu.) © solvio, inc. 1

2.

Agenticな⽣成AIのアプリとワークフロー的な ⽣成AIアプリを構築して、動作を⽐較してみ る(仮)

3.

だったのですが‧‧‧

4.

変更!

5.

RealtimeAPIを使って、 どんなことができるかを検証してみる

6.

今⽇話したいこと © solvio, inc. 6

7.

OpenAIが提供を開始したRealtime APIを Realtime Agentsの仕組みを参考に、 どのような体験が実現可能かを探ってみる。 © solvio, inc. 7

8.

Realtime API🤔🤔🤔🤔🤔 © solvio, inc. 8

9.

RealtimeAPIとは? ● OpenAIが提供するAPIであり、⾳声を⼊⼒ / 出⼒として利⽤できる ○ ⾳声 → ⽂字起こし→⾳声ではなく、⾳声→⾳声としてやりとりする ○ そのため、感情が⽋落しないことやニュアンス的な会話もできる ○ レスポンスも⽂字を経由するより早い © solvio, inc. 9

10.

RealtimeAPIとは? ● OpenAIが提供するAPIであり、⾳声を⼊⼒ / 出⼒として利⽤できる ○ ⾳声 → ⽂字起こし→⾳声ではなく、⾳声→⾳声としてやりとりする ○ そのため、感情が⽋落しないことやニュアンス的な会話もできる ○ レスポンスも⽂字を経由するより早い ⾒たほうが早いと思うので、簡単にデモします。 © solvio, inc. 10

11.

© solvio, inc. 11

12.

感想 - え、めっちゃ⼈間っぽい。すごすぎん? - Realtime APIは今たしかPreview公開ぐらいのフェーズ。 - ってことは、今のRealtime APIはGPT-3.5ぐらいってこと? - あと、1~2年ぐらい経てば、GPT-3.5→O1-PROぐらいまで進化するってこと? - いろんなFieldで活⽤できそう!とりあえず試してみるか! © solvio, inc. 12

13.

感想 - え、めっちゃ⼈間っぽい。すごすぎん? - Realtime APIは今たしかPreview公開ぐらいのフェーズ。 - ってことは、今のRealtime APIはGPT-3.5ぐらいってこと? - あと、1~2年ぐらい経てば、GPT-3.5→O1-PROぐらいまで進化するってこと? - いろんなFieldで活⽤できそう!とりあえず試してみるか! →今⽇の検証内容!! © solvio, inc. 13

14.

RealtimeAPIの検証⽅法 ● ● ● OpenAIが提供するRealtime AgentsのRepoを使って検証する。 コマンド3つぐらいでBuildが完了して事前に準備されたシナリオの実施が可能。 サンプルコードが⽤意されているため、機能追加も簡単 © solvio, inc. 14

15.

さっそくやってみよう © solvio, inc. 15

16.

ユースケース①: 英会話の先⽣

17.

ユースケース①: 英会話の先⽣ - 仮説 - GPTのモデルは基本的に多⾔語に対応している。 - Realtime APIを使えばいい感じに英会話の先⽣ として振る舞ってくれるのでは? © solvio, inc. 17

18.

ユースケース①: 英会話の先⽣ - DEMO © solvio, inc. 18

19.

ユースケース①: 英会話の先⽣ - 結果 - めっちゃできた。 - もはや⼈間の先⽣に教えてもらうより、良いかも ○ ○ © solvio, inc. ⼼理的な障壁が低い - ミスっても恥ずかしくない ⾦銭的なコストが安い - 先⽣にお願いするより、段違いに安い 19

20.

ユースケース①: 英会話の先⽣ - 課題 - まだ少し⽇本語の読みを間違えるときがある - 本番環境で利⽤できるほど安定しているか?って 聞かれるとまだちょっと⾟いかも © solvio, inc. 20

21.

ユースケース①: 英会話の先⽣ - 感じたこと - ⽣成AI x 教育Teacher のコンセプトはこれから盛んになる - 語学学習向けのAPIをWrapしたようなサービスが乱⽴しそう。 - APIをWrapするだけだと、競合優位性が出しにくそう - 体験や付加価値の設計が重要になる (そもそもChatGPTで良くない?ってなる) © solvio, inc. 21

22.

ユースケース② MTGのファシリテーター

23.

ユースケース② MTGのファシリテーター - やりたいこと - MTGを⾏う際に、”⾔いづらいこと”を伝えてくれるファシリテーターがほしい - 感情や利害関係ガン無視で、伝えるべきことを⾔ってもらう - ユースケース: - 「◯◯さんのタスク終わってないんだ。。やってほしいな。。。」 - 「 XXのタスクの期⽇、決まってないけど、どうするんだろ。。」 © solvio, inc. 23

24.

ユースケース② MTGのファシリテーター - 検証⽅法 検証⽅法: - 検証として、30分のMTGで検証(対⾯で2名 + ⽣成AIで実施) 以下のような発⾔をMTG後半に⼊れる。最後に⽣成AIに打ち合わせのWrap-upして! と伝えて指摘してもらえるかを検証する - 「新規事業の進め⽅を検討しましょう〜」 - 「GPT株式会社の協業が可能かも聞いてみたいですね〜」 →誰がいつまでにどうやってやる?完了条件は? © solvio, inc. 24

25.

ユースケース② MTGのファシリテーター - 設定を教えこむ © solvio, inc. 25

26.

ユースケース② MTGのファシリテーター - 設定を教えこむ 理解はしてくれていそう! さて、どうなるか‧‧‧ © solvio, inc. 26

27.

ユースケース② MTGのファシリテーター - 結果 - 全然うまくいかなかった 理由: - トリガーワードを指定したうえでMTGしても、勝⼿に会話に⼊ってくる - ⽣成AIが急に話し出したりするので、打ち合わせが妨げられる - © solvio, inc. 27

28.

ユースケース③:役所の 問い合わせ受付として利⽤する

29.

ユースケース③:役所の問い合わせ受付として利⽤する - 解決したい課題 - 現状、コールセンターに電話すると、「XXな⽅は1番, OOな⽅は2番‧‧‧」みたいなガイダンスが流れるが 体験が微妙 - RealtimeAPIを使って電話でやりたいことさえ⾔えば、 該当部⾨への割り振りができるのではないか? © solvio, inc. 29

30.

ユースケース③:役所の問い合わせ受付として利⽤する - 検証の前提条件 - 改善するスコープはあくまで、”問い合わせの割り振り” まで - 他の検証の過程で⽇本語の読み上げに不安定さがあることから、 全てのやりとりを任せるのは現時点では難しいと判断 - 役所の代表電話を前提として検証する。 - 問い合わせごとに担当部署を分ける。 © solvio, inc. 30

31.

ユースケース③:役所の問い合わせ受付として利⽤する © solvio, inc. 31

32.

ユースケース③:役所の問い合わせ受付として利⽤する - 感じたこと - めっちゃできた。 - ハルシネーション防⽌やガードレール設計が必要になりそう ○ ○ © solvio, inc. ⽣成AIに変なことを⾔わせないための努⼒ システム的にはFunctionCallingのような仕組みを利⽤して、返答させ るのではなく”割り振り”に特化することでSmall Startできそう 32

33.

まとめ © solvio, inc. 33

34.

まとめ 検証を通じて感じたこと: ● ● ● RealtimeAPI(⾳声のIF)が⽣成AIの世界に追加されたことで、より⼈間に近づいた。 ○ LLMは脳みそ。Visionは⽬。RealtimeAPIは⽿と⼝。 ○ ロボティクスと組み合わせれば、どんどん世界が進化していきそう。 RealtimeAPIはまだPreviewなので、若⼲の不安定さはある。ただ、現状⽴ち位置の イメージはGPT3.5 ~ GPT4.0 ○ ここからGPT-O1 PROのレベルまで進化するはず。 1~2年後には様々な業界に影響を与えることになりそう。特に学習格差を埋められるの は素晴らしい。 © solvio, inc. 34

35.

おまけ © solvio, inc. 35

36.

Multi-Agents的な体験の仕組みのはなし © solvio, inc. 36