6.8K Views
May 23, 24
スライド概要
Generative Ai Study Group Master
生成AIボイスボット コールセンターからAIキャラまで 生成AIの社会実装に向けたレポート 2024年4月 | 株式会社LangCore
会社概要 会社名 株式会社LangCore 本社所在地 〒135-0061 東京都江東区豊洲3-4-2-N2214 代表氏名 北原麦郎 / 高木陽介 事業内容 システム受託開発, 生成AI活用・技術コンサルティング 従業員数 30名(業務委託含む)
事業紹介 伴走型システム開発 活用・技術コンサルティング Big4や大手コンサルファーム出身のコンサ 元CTO経験者、大手企業テックリード、 ルタントが、自社の業界での国内外の活用 AI領域のR&D経験者などフルスタックエ 事例が知りたい、生成AIについてスポット ンジニアが新規プロダクトの開発に伴走 で技術的な相談をしたい、生成AIを使って し、チームの一員のような動きで開発を 業務効率化をしたい等のニーズをお持ちの リードします。 クライアント様に対して課題解決に伴奏し ます。
経営陣紹介 北原 麦郎 Co-CEO/ CTO 年東京大学大学院工学系研究科を卒業後、フリーランスとして複数のス タートアップでエンジニアとして開発を担当。2020年2月デロイトトーマツコ ンサルティングにてDXを推進する部隊にてシニアソフトウェアエンジニアと して従事。その後株式会社LangCoreを創業。 2019 高木 陽介 Co-CEO/ COO 同志社大学理工学部を卒業後新卒で楽天に入社し、楽天モバイル部門RFエン ジニアとして無線基地局エンジニアリング部隊の立ち上げに従事。その後、 HRBrainにソフトウェアエンジニアとして移籍。 インフルエンサーエージェンシー事業の合同会社EverLiveを創業し、2022年5 月にM&Aでイグジット。2023年に株式会社LangCoreを共同創業。
目次 ① はじめに ② 目的と機能の明確化 ③ テクノロジー選定 ④ 低レイテンシーの音声エンジンの構築 ⑤ RAGによる独自データ対応と回答精度の改善 ⑥ マルチファンクションのエージェント構築 ⑦ テストと改善
目次: はじめに ① はじめに ② 目的と機能の明確化 ③ テクノロジー選定 ④ 低レイテンシーの音声エンジンの構築 ⑤ RAGによる独自データ対応と回答精度の改善 ⑥ マルチファンクションのエージェント構築 ⑦ テストと改善
OpenAIからGPT-4oが発表 高性能なボイスボットが発表され、リアルタイム翻訳や感情的な表現、カメラを 見ながら操作をアシスタントするデモが公開されました リアルタイムで自然な会話 高速かつ中断可能な対話 感情認識 ユーザの感情を認識 感情出力 喋り方に感情がある ゆっくり喋ったり、歌うこともできる 映像認識 映像と音声を同時に認識
1から10の数字をかぞえる。スピードも変えられる 「もっとゆっくり数えて」
面接の練習。感情豊かに笑い出す 面接に帽子を被ったらどうかとジョークを言うと、AIが笑い出す
リアルタイム翻訳 二人が外国語を喋っていても、AIがリアルタイムに翻訳をする
生成AIを使ったボイスボットが注目されている理由 生成AIを活用したボイスボットが様々な業界で課題解決ができる可能性を秘めて おり、注目されています。 活用シーン例 サポートセンター エンターテイメント 自動予約受付 AIを自動応対に用いるメリット 自然な会話体験: 生成AIを活用することで、ユーザーとより自然で人間らしい会話が可能に なります。これにより、ユーザーの満足度が向上し、エンゲージメントが高まります。 幅広い質問への対応: 生成AIは、事前に定義された回答だけでなく、文脈を理解して適切な 応答を生成できます。これにより、ユーザーからの多様な質問にも柔軟に対応できます。
実用的な生成AIボイスボットの構築が難しい理由 生成AIを活用したボイスボットの構築、および実導入には様々なハードルがあ り、これらを解決するハードルが高いのが現状です。 高いレイテンシー: ドメイン固有の知識の欠如: ユーザーとのリアルタイムな会話に遅延が生じ、会 特定のドメインや企業固有の情報に対応するた 話に待ちが発生することでユーザーエクスペリエン めには、DBとの接続や追加のトレーニングやデ スが損なわれます。 ータ統合が必要です。 技術選定の難易度が高い: ボイスボットを構築するにはLLMだけでなく複数の 技術を組み合わせる必要があります。全ての構成要 素をリサーチ・比較検討するコストが高いことも一 つの要因です。 ボイスボットに要求される即時性と正確性の両立: リアルタイムな応答と高い正確性を両立すること は技術的に難しく、応答速度と情報の正確さのト レードオフが課題となります。
本書の概要 本書では、生成AIを用いたボイスボット構築におけるアーキテクチャの解説を行 っています。 ボイスボットの構築は、目的と機能の明確化(要件定義)→各テクノロジーの選定→音声エンジンの 構築→RAGを用いた回答生成方法の検討→エージェントの構築→動作テスト・改善の流れで実装を 進めていきます。 本書では特に、生成AIを活用した応答の高速化手法に焦点を当てています。 生成AIを用いた応答文生成では、ユーザー発話の意図理解結果をプロンプトとして生成AIに入力 し、文脈に即した自然な応答文を生成しますが、処理時間が長くなる課題があります。 これを推論処理の並列化 などのアプローチで初期応答までの時間を短縮した、LangCoreが独自に 開発した手法を紹介します。 これらの手法を適用することで、生成AIを用いたボイスボットの応答速度を実用レベルまで高速化 することが可能になります。本書が、企業の皆様のボイスボット開発の一助となれば幸いです。
目次: 目的と機能の明確化 ① はじめに ② 目的と機能の明確化 ③ テクノロジー選定 ④ 低レイテンシーの音声エンジンの構築 ⑤ RAGによる独自データ対応と回答精度の改善 ⑥ マルチファンクションのエージェント構築 ⑦ テストと改善
目的と機能の明確化 ボイスボットは様々なシーンで導入が可能ですが、何を目的にしているのかによっ て重要視するポイントや目標、必要機能が変わります。 目的(例) 目標 基本機能 顧客サポート(CS) 応答時間の短縮、顧客満足度の向上 FAQの自動回答、問題のトラブルシューティ ング、サポートチケットの作成 予約・予定の受付 予約手続きの簡素化、利用者の時間管理のサ ポート 予約の受付と管理、予約変更とキャンセル、 リマインダーの設定 エンターテインメント ユーザーエンゲージメントの強化、コンテン ツへのアクセス促進 楽しい会話、ゲーム、コンテンツへの案内 知識の提供、学習体験の向上 言語学習、一般知識のクイズ、学習コンテン ツへの案内 個人の生活や業務の効率化 スケジュール管理、リマインダー設定、天気 予報、ニュースの提供 教育・学習 パーソナルアシスタント
目次: テクノロジー選定 ① はじめに ② 目的と機能の明確化 ③ テクノロジー選定 ④ 低レイテンシーの音声エンジンの構築 ⑤ RAGによる独自データ対応と回答精度の改善 ⑥ マルチファンクションのエージェント構築 ⑦ テストと改善 ⑧ 活用事例
テクノロジー選定 ボイスボット構築の検討段階で以下の各技術要素を検討・決定していきます ① 音声認識(Speech To Text) ② 合成音声(Text To Speech) ③ 対話エンジン(LLM) ④ クラウドサービス ⑤ インターフェイス(IVR, Web, アプリ, ロボット) ※ 本書では合成音声の技術調査を表にまとめて記載しております。
テクノロジー選定 合成音声(LangCore調査) 料金 Coefont 問い合わせ 話者 (日本語) 多数 品質 外国語対応 辞書機 AP 導入コ 能 I スト 感情 音声パラメータ調整 X 速度. ピッチ, イントネーショ O ン, ポーズ O 低 中上 O X X O 低 備考 カスタム音声機能有り(few-show model)APIを利用すると数百万レ ベルの課金Few-shot modelの場合音質は微妙。Response速度が遅 い Coestation 77000円/10万req/月 13話者から2話者選択 中中 米、英、独、仏、西、米西、 加仏、北京、広東、韓1話者追 X 加毎に55000円 ReadSpeaker 問い合わせ 30~?話者 中中 44ヵ国語対応 X 速度. ピッチ. ボリューム X? O 低 Voicepeak 30000円 (買い切り) 6話者 高中 X 幸せ、悲しみ、怒り、楽しみ 速度, ピッチ, ポーズ. 音量 ◯ X 高 AI.Voice biz 60000円/5万req/月 21話者 低上 X 怒り、悲しみ、喜び (連続値) 速度, ピッチ, イントネーショ ◯ ン O 低 openai $0.015 / 1K characters 6話者 中下 O X X X O 低 multilingual fundation modelを利用している可能性があり、日本語 の声質(アクセント、イントネーション)が悪い Voicebox 無料 40話者 中中 X O (キャラによって異なる) 速度, ピッチ, イントネーショ O ン O 中 Package配布のためサービング環境を構築/運用する必要あり無料 で商用利用できるのは大きい CLOVA voice 90000ウォン(1,00万文字以下) 12話者 中上 韓国語、英語、中国語、台湾 語、スペイン語 X 速度, ピッチ, イントネーショ X ン O 低 openAIと比較すると5倍くらいの値段、高い音質はそこそこ良い Google Text-tospeech Wavenet: 毎月100万文字無料その wavenet: 4話者Neural2: 他(Neural2, Basic): 毎月400万文 中上 3話者Basic: 4話者 字無料 40言語以上 X 速度, ピッチ, ボリューム, SSML対応 X O 低 grpcAPI提供されているNeural2モデルの音質そこそこいい Azure AI speech 毎月500万文字まで無料(東日本 region) 7話者 上下 40言語以上 △ 話者による SSML対応 O O 低 Amazon Polly 毎月500万文字まで無料 5話者 上下 40言語以上 △ 話者による SSML対応 O O 低 ElevenLabs 毎月1万文字まで無料(5$で3万文 28話者 字,22$で10万文字) 上下 29言語 X X X O 低 IBM watson 毎月1万文字まで無料(以後1000 文字あたり0.02ドル) 1話者 中中 日本語他9言語 X X X O 低 Web Speech API Speech Synthesis 無料 1話者 下中 10言語~? X 速度, ピッチ, ボリューム X O 低 API提供無しCLI clientが提供されているのでAPI作成/運用する必要 あり商用利用可能 multilingual modelを使っているため、音質良くてもところどころ 日本語アクセントなどがきになる。カスタムTTSあり HMM音声合成なので品質はかなり悪い。 Client sideで動くため高速/軽量であるが自由度もかなり低い
目次: 低レイテンシーの音声エンジンの構築 ① はじめに ② 目的と機能の明確化 ③ テクノロジー選定 ④ 低レイテンシーの音声エンジンの構築 ⑤ RAGによる独自データ対応と回答精度の改善 ⑥ マルチファンクションのエージェント構築 ⑦ テストと改善
低レイテンシーの音声エンジンの構築 並列に処理を走らせることで応答速度を向上し、自然な会話スピードを実現します。 よくある遅いボイスボット = 直線的に処理を行っている ユーザの発話 音声認識 RAG + LLM TTS 3秒 8秒 3秒 ストレスのない速度のボイスボット = 複層的に処理を行っている ユーザの発話 LLM 8秒 音声認識 TTS 3秒 関連知識検索 1秒 0.3秒 返答 返答
RAG+ボイスボットのソフトウェアアーキテクチャ 無音になったことを通知して処理を開始 VAD処理 or ベクトル化 常時取得 関連知識 音声認識処理 発話 → 回答音声 ← 音声再生 LLM処理 検索処理(RAG) 音の有無の認識 関連知識の取得 T T 音声認識結果 text text 音声→文字への変換 会話エンジン ↙︎ 回答作成 ← 音声作成 合成音声処理 T→ text 文字→音声への変換
低レイテンシーの音声エンジンの構築 低レイテンシーの音声エンジンを構築するためには、下記の評価指標に着目し改善 する必要があります。 技術要素 Key Performance Indicator (KPI) 説明 音声認識 発話完了から最終結果までの時間 VADで発話完了を検出してから、最終の音声認識結果が返って くるまでの時間 リアルタイム性 途中結果と最終結果の類似度(高いほど良い) 検索の速さ 音声認識が完了するまでに検索が完了しているかどうか 最初のチャンクの生成速度 LLMへのリクエストを送信してから、発声可能な最初のチャン クが返ってくるまでの時間 音声合成の速さ テキストを音声合成エンジンに送信してから、合成音声が返っ てくるまでの時間(ネットワーク遅延を含む)Initial Latency + RTF 検索(RAG) LLM 合成音声
音声認識の検証方法 おはようございます VAD(音の有無を測定) から 結果が返ってくるまでの時間を測定する 発話 → 発話終了(VAD判定) start → 音声認識結果 end 開始と終了で何秒だったかを測定 発話 発話終了 VAD判定 音声認識処理 音声認識結果 おはようございます 音の有無の判定 Speaking or Silence 時間を計測
合成音声の検証方法 合成音声処理 音声ファイル 10文字程度の文章 時間を計測 一般的に「RTF」でモデルの速度指標を利用することが多いが、実利用では 「ネットワークレイテンシー」や「モデルの起動時間」も重要であるた め、再生するための音声ファイルが作成されるまでの時間を測定 ※ RTF = 1秒の音声を生成するのにかかる時間
検索(RAG)の検証方法 テキストを送ってから結果が返ってくるまでの時間を測定します テキストの ベクトル化 ベクトル検索 LLMへテキスト送付 結果返却 この時間を計測
LLMの検証方法 こんにちは、よろしくお願いします テキスト送付 こ んにちは、こちらこそお願いします LLM処理 会話エンジン 最初の文字が何秒で返ってくるかを計測 最終的に「こんにちは、こちらこそお願いします」という文章が返ってくる時に「こんにちは」を 先に発話させます。よって「こんにちは」という最初のフレーズが来るまでの時間が重要です。 ※ 「最初のフレーズ」を測定対象とするとLLMの確率的な振る舞いから毎回フレーズが変わるた め測定が難しいため「最初の1文字目」を測定します。
LLMの検証方法(補足) 各LLMモデルごとの最初のチャンクが返ってくるまでの時間は比較できるサイト があるので、こちらを参考にモデルを選択します。 https://artificialanalysis.ai/models
低レンテンシーの音声エンジンの構築 💡ボイスボットの動作を高速化する要点 ① 高速かつ日本語に特化したTTSモデルの採用 ② TTSで生成した音声ファイルのネットワークレイテンシの最小化 ③ 対話システムの最適化 ④ LLM APIとの間にキャッシュ層を追加
低レンテンシーの音声エンジンの構築 (対話システムの 最適化) 音声認識から合成音声の出力まで、低遅延かつ自然な会話が実行されるよう、各技 術要素を最適化します。 音声認識 Speech To Text リアルタイムの 音声認識 会話エンジン LLM フィラー作成 返答文章作成 タスク分類 合成音声 Text To Speech ストリーミング 音声合成
低レンテンシーの音声エンジンの構築 (対話システムの 最適化) ユーザの対話とボイスボットを構成する各システムの挙動のイメージになります。 御社のサービスに登録をしたいのですが、どうすればいいですか? 音声認識 Speech To Text 会話エンジン LLM 合成音声 Text To Speech ボイスボットの発話 御社のサービスに登録をしたいのですが、どうすればいいですか? フィラー選定 第一声返答作成 メイン返答作成 音声 取得 音声 作成 ありがとうございます 時間 音声 作成 音声 作成 登録についてのお問い合わせで すね。 音声 作成 登録方法については、
低レンテンシーの音声エンジンの構築 (対話システムの 最適化) ユーザの対話とボイスボットを構成する各システムの挙動のイメージになります。 Point1 リアルタイムでの音声認識を実施 御社のサービスに登録をしたいのですが、どうすればいいですか? 音声認識 Speech To Text 会話エンジン LLM 合成音声 Text To Speech ボイスボットの発話 御社のサービスに登録をしたいのですが、どうすればいいですか? フィラー選定 第一声返答作成 メイン返答作成 音声 取得 音声 作成 ありがとうございます 時間 音声 作成 音声 作成 登録についてのお問い合わせで すね。 音声 作成 登録方法については、
低レンテンシーの音声エンジンの構築 (対話システムの 最適化) ユーザの対話とボイスボットを構成する各システムの挙動のイメージになります。 御社のサービスに登録をしたいのですが、どうすればいいですか? 音声認識 Speech To Text 会話エンジン LLM 合成音声 Text To Speech ボイスボットの発話 Point2 発話の初期段階でフィラー(相槌)を 選定 御社のサービスに登録をしたいのですが、どうすればいいですか? フィラー選定 第一声返答作成 メイン返答作成 音声 取得 音声 作成 ありがとうございます 時間 音声 作成 音声 作成 登録についてのお問い合わせで すね。 音声 作成 登録方法については、
低レンテンシーの音声エンジンの構築 (対話システムの 最適化) ユーザの対話とボイスボットを構成する各システムの挙動のイメージになります。 御社のサービスに登録をしたいのですが、どうすればいいですか? 音声認識 Speech To Text 会話エンジン LLM 合成音声 Text To Speech ボイスボットの発話 御社のサービスに登録をしたいのですが、どうすればいいですか? フィラー選定 Point3 録音済みのフィラーを取得し、 ユーザの発話が終わり次第即座に返答 第一声返答作成 メイン返答作成 音声 取得 音声 作成 ありがとうございます 時間 音声 作成 音声 作成 登録についてのお問い合わせで すね。 音声 作成 登録方法については、
低レンテンシーの音声エンジンの構築 (対話システムの 最適化) ユーザの対話とボイスボットを構成する各システムの挙動のイメージになります。 御社のサービスに登録をしたいのですが、どうすればいいですか? 音声認識 Speech To Text 会話エンジン LLM 合成音声 Text To Speech ボイスボットの発話 Point4 句読点が発生したら途中段階で返答文章を 御社のサービスに登録をしたいのですが、どうすればいいですか? 作成する。 フィラー選定 第一声返答作成 メイン返答作成 音声 取得 音声 作成 ありがとうございます 時間 音声 作成 音声 作成 登録についてのお問い合わせで すね。 音声 作成 登録方法については、
低レンテンシーの音声エンジンの構築 (対話システムの 最適化) ユーザの対話とボイスボットを構成する各システムの挙動のイメージになります。 御社のサービスに登録をしたいのですが、どうすればいいですか? 音声認識 Speech To Text 会話エンジン LLM 合成音声 Text To Speech ボイスボットの発話 御社のサービスに登録をしたいのですが、どうすればいいですか? フィラー選定 Point5 フィラーや相手の発話中に返答文の音 声を作成する メイン返答作成 第一声返答作成 音声 取得 音声 作成 ありがとうございます 時間 音声 作成 音声 作成 登録についてのお問い合わせで すね。 音声 作成 登録方法については、
低レンテンシーの音声エンジンの構築 (対話システムの 最適化) ユーザの対話とボイスボットを構成する各システムの挙動のイメージになります。 御社のサービスに登録をしたいのですが、どうすればいいですか? 音声認識 Speech To Text 会話エンジン LLM 合成音声 Text To Speech ボイスボットの発話 Point6 相手の発話が終わってからメインの返 答文章を構築する 御社のサービスに登録をしたいのですが、どうすればいいですか? フィラー選定 第一声返答作成 メイン返答作成 音声 取得 音声 作成 ありがとうございます 時間 音声 作成 音声 作成 登録についてのお問い合わせで すね。 音声 作成 登録方法については、
低レンテンシーの音声エンジンの構築 (対話システムの 最適化) ユーザの対話とボイスボットを構成する各システムの挙動のイメージになります。 御社のサービスに登録をしたいのですが、どうすればいいですか? 音声認識 Speech To Text 会話エンジン LLM 合成音声 Text To Speech ボイスボットの発話 御社のサービスに登録をしたいのですが、どうすればいいですか? フィラー選定 第一声返答作成 メイン返答作成 音声 取得 音声 作成 ありがとうございます 時間 音声 作成 Point7 ストリーミングから 音声を作成 音声 作成 登録についてのお問い合わせで すね。 音声 作成 登録方法については、
システム開発時のアーキテクチャ(例) クラウド上にシステムを構築することで、スケールするシステムを構築し ます IP Azure Inbound Media Stream websocket Realtime STT Cache Gateway Server VectorDB User Outbound Media Stream websocket TTS Server on GPU
目次: RAGによる独自データ対応と回答精度の改善 ① はじめに ② 目的と機能の明確化 ③ テクノロジー選定 ④ 低レイテンシーの音声エンジンの構築 ⑤ RAGによる独自データ対応と回答精度の改善 ⑥ マルチファンクションのエージェント構築 ⑦ テストと改善
RAGによる独自データ対応と回答精度の改善 生成AIで作られた回答は自社データを持っていませんが、RAGにより自社DBと LLMを接続し、独自データを持った回答を生成させます。
RAGによる独自データ対応と回答精度の改善 RAGの各要素を多角的に改善することで、ユーザーの期待に応える高品質な回 答を生成できるようにします。 チャンク作成 OCR データ加工 クレンジング メタデータ 分割方法 ナレッジグラフ チャンク評価 自動生成 全文検索 ベクトル検索 ハイブリッド SQL検索 ワード生成 HyDE 同時検索 検索手段の自動切替 英語での指示 ハルシネーション対策 Few Shot フォローアップ 回答選択 LLM比較 メタデータ参照 Fine-tune Hit Rate MRR Recall LLM評価 ragas Prompt Flow ログ収集 フィードバック 検索 回答生成 性能評価
目次: マルチファンクションのエージェント構築 ① はじめに ② 目的と機能の明確化 ③ テクノロジー選定 ④ 低レンテンシーの音声エンジンの構築 ⑤ RAGによる独自データ対応 ⑥ マルチファンクションのエージェント構築 ⑦ テストと改善
マルチファンクションのエージェント構築 ユーザのリクエストに対する対応を高速に行うために、処理をエージェントに よって振り分け、並列に処理します。 タスクを分類し 適切な分岐を行う役割 エージェント データ登録 登録 Q&A回答 取得 オペレータへ転送
目次: テストと改善 ① はじめに ② 目的と機能の明確化 ③ テクノロジー選定 ④ 低レイテンシーの音声エンジンの構築 ⑤ RAGによる独自データ対応 ⑥ マルチファンクションのエージェント構築 ⑦ テストと改善
テストと改善 ユーザ体験を向上させるためPDCAを回してシステムを改善させます。 具体的には、下記のような施策を行います。 会話ログの分析 ユーザ評価に基づく自動学習 ハルシネーション対策 プロンプトのリグレッションテスト キャッシュによる高速化 対話フローの最適化
最後に 株式会社LangCoreでは生成AIの導入支援、技術コンサルティング、および開発支援 を提供しております。 ボイスボットの構築やその他導入支援・技術支援についてはお問い合わせください。 AI 活用の前準備 AI 活用の戦略・中期目標策定 環境の構築 設計 現状分析、課題発見 社内アンケート調査設計 過去のプロジェクトの知見の 共有 AI Azure OpenAI KPI 活用支援 生成AI活用研修の実施 プロンプト作成 国内外の活用事例リサーチ 社内用チャットボットの構築 AI導入後の業務フローの設計 実証実験の実施 開発・技術支援 プロダクトのアーキテクチャ 設計 技術アドバイザリー システム開発 業務改善・DXコンサル 上記を月額20万円からご支援しております
URL: https://corp.langcore.org MAIL: [email protected]