326 Views
January 10, 26
スライド概要
2026-1-10に BuriKaigi で登壇したときの資料となります。
高橋克己(たかはしかつみ) 株式会社KDDIウェブコミュニケーションズ CPaaSエバンジェリスト グローバル・インターネット・ジャパン株式会社 代表取締役 フルスタックエンジニア
AI時代に「電話API」が⾯⽩い理由 〜Webエンジニアが体験するリアルな⾳声の世界〜 2026-01-10 @BuriKaigi 2026
⾃⼰紹介
{
"jobs": [
{
"company_name": "
株式会社KDDI ウェブコミュニケーションズ",
"division": "
コミュニケーションDX 本部",
"title": "
エバンジェリスト",
},
"company_name": "
グローバル・インターネット・ジャパン株式会社",
"title": "CEO",
}
],
"name": "
高橋克己(Katsumi Takahashi
)",
"nickname": "□
い芸人",
"hobbies": ["
料理", " 江戸前鮨"],
"interest": ["VibeCoding", "MCP
サーバー", "AI エージェント"],
"social": {
"x": "@_katsumi",
"facebook": "katsumi.takahashi",
}
}
2026-01-10 @BuriKaigi 2026
私は電話が⼤嫌い 2026-01-10 @BuriKaigi 2026
今⽇の内容は、こんな電話嫌いな私がどうやったら電話に出 なくてもいい世界を作れるかというお話です。 2026-01-10 @BuriKaigi 2026
2026-01-10 @BuriKaigi 2026
TRANSREC の仕組み 2026-01-10 @BuriKaigi 2026
本⽇のアジェンダ 「電話API」ってなに? 電話APIの構成要素 電話APIとAI連携 2026-01-10 @BuriKaigi 2026
「電話API」ってなに? 2026-01-10 @BuriKaigi 2026
たとえば、今までは・・・ 2026-01-10 @BuriKaigi 2026
APIで制御ができると・・・ 2026-01-10 @BuriKaigi 2026
たとえばこんな使い⽅ 2026-01-10 @BuriKaigi 2026
2026-01-10 @BuriKaigi 2026
電話APIとは ⼀般的に「CPaaS(Communications Platform as a Service)」と呼ばれ るプラットフォームの⼀部で、主に「電話番号をレンタルして、電話 を制御する」という⽬的で利⽤されます。 CPaaSには、電話だけでなく、SMSやビデオなど、さまざまなコミュ ニケーション⼿段を提供するAPIが存在します。 とくに、顧客接点における利⽤にCPaaSを利⽤するケースが増えてい ます。 2026-01-10 @BuriKaigi 2026
CPaaSのアーキテクチャ 2026-01-10 @BuriKaigi 2026
CPaaS採⽤の利点 従量制課⾦により、スモールスタートでグロースが可能 オムニチャネルを活⽤し、顧客接点の多様化に対応 マネージドでグローバルなクラウドサービス 2026-01-10 @BuriKaigi 2026
CPaaSベンダー グローバル市場における代表的なCPaaSベンダーには、Twilio、 Vonage、Infobip、Sinchなどがあります。 ⽇本での展開 Twilio 2013年〜 Vonage 2017年〜 Infobip 2021年〜 2026-01-10 @BuriKaigi 2026
電話APIの構成要素 2026-01-10 @BuriKaigi 2026
電話APIのチャネルの種類 2026-01-10 @BuriKaigi 2026
Web 系エンジニア向け 2026-01-10 @BuriKaigi 2026
ブラウザ通話なら WebRTC WebRTCは、ブラウザの標準機能として提供され、⾳声・ビデオ・データ の伝搬以外にも以下のような機能があります。 マイク切り替え・ミュート スピーカー切り替え エコーキャンセラー ノイズサプレッション ⾃動ゲイン制御 ⾳声レベルの可視化 2026-01-10 @BuriKaigi 2026
2026-01-10 @BuriKaigi 2026
WebRTC の⽋点 端末の呼び出し 複数端末同⼠での通話 NAT越え マルチトラック録⾳ 接続時にはサーバーが必要 CPaaSが、これらの⽋点を補完する役割を果たす 2026-01-10 @BuriKaigi 2026
WebSocket の特徴 クライアント・サーバー⽅式のため、HTTPとの相性が良い 1:N の同期通信が可能 シグナリングサーバーは不要 双⽅向で信頼性の⾼い全⼆重通信 ⾳声を含む、どんなデータでも転送可能 制御信号のやり取りは独⾃に構築する必要あり ⾳声認識や⽣成AIエンジンとの連携が可能 2026-01-10 @BuriKaigi 2026
2026-01-10 @BuriKaigi 2026
電話APIとAI連携 2026-01-10 @BuriKaigi 2026
OpenAI Realtime API × 電話 OpenAI Realtime API(2024年10⽉にリリース) 低遅延⾳声⼊⼒ / 出⼒ WebRTC / WebSocket通信 マルチモーダル対応 2026年1⽉現在 gpt-realtime-2025-08-28 gpt-realtime-mini-2025-12-15 Vonageなどの CPaaS と組み合わせることが可能 ⼈間と話してるようなボイスボットが実現可能! 2026-01-10 @BuriKaigi 2026
Realtime APIの料⾦(2026年1⽉時点) gpt-realtime-2025-08-28 gpt-realtime-mini-2025-12-15 2026-01-10 @BuriKaigi 2026
Realtime API デモ WebRTCを使ったOpenAI Realtime APIのデモです。 https://github.com/mobilebiz/ realtime-webrtc 2026-01-10 @BuriKaigi 2026
Realtime API の設計ポイント コンテキストサイズがコストに直結 セッション管理の設計が重要 Function Calling(ツール) + RAG の効果的な利⽤ 割り込み処理の実装 切断タイミングの調整 2026-01-10 @BuriKaigi 2026
2026-01-10 @BuriKaigi 2026
電話とRealtime API OpenAI Realtime APIや、Gemini Live APIが利⽤可能 PSTN経由で着信した通話を、CPaaSのWebSocketチャネル経由で⽣成 AIエンジンに送信 Function Calling(ツール) + RAG を活⽤して、⽣成AIエンジンを補佐 して回答を作成 ⽣成AIエンジンのコストに加えて、CPaaSの利⽤料(通話料⾦など) が別途必要 2026-01-10 @BuriKaigi 2026
電話エージェントデモ OpenAI Realtime API(チャッピー電話) https://github.com/mobilebiz/websocket-openai Gemini Live API(ジェミちゃん電話) https://github.com/mobilebiz/websocket-gemini 2026-01-10 @BuriKaigi 2026
本⽇のまとめ CPaaS(電話API)の基礎 通信キャリアの機能をAPIとして利⽤し、⾃在にアプリに組み込む PSTN、WebRTC、WebSocketなど、要件に応じたチャネル選定が 鍵 AI × 電話のインパクト WebSocket経由でOpenAI Realtime APIと直結 これまでになく低遅延で⾃然な「⼈間のような」対話体験を実現 150年の歴史がある「電話」を、現代の技術で再構築する 2026-01-10 @BuriKaigi 2026
ご清聴ありがとうございました 2026-01-10 @BuriKaigi 2026