20251206_kochiweb90_beajouneyman

-- Views

December 06, 25

スライド概要

ウェブクリエイターズ高知 年忘れ!LT祭の登壇資料です。
Polly と Amazon Nova 2 Sonic のデモもしました。

profile-image

システム維持PjM&SE #AWS/コミュニティ #営餃 #DevReljp #JBUG #BacklogWorld #JAWSUG #PRLT #開発PM勉強会/趣味 #バイク乗り #桃が好きなんです #富士山好き🗻51回登頂 #つれづれジャニ #ジャニタビ #ジャニソラ/著書📘http://amzn.to/3IUyM87

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

各ページのテキスト
1.

AI 音声ジェネレーター Amazon Polly の 現状と生成エンジン登場に見た大きな可能性 Journeyman | @beajourneyman Dec 2025

2.

WCK年忘れ!LT祭開催、おめでとうございます!

3.

簡単なデモをお聞きください

4.

AWSの生成AI Bedrock と深く関わる Polly、音声の話しをします

5.

Takeki Oizumi(Journeyman ジャニ) 所属:東京の中堅SIer JAWS-UG栃木運営(発起人) 仕事:Amazon Connect を基盤とした IVRシステムの開発保守LD,CCoE 推しサービス:Amazon Connect / Polly 最近は Bedrock SNS:@beajourneyman 認定他: CLF/SAA/AIF/MLA/DEA/MLS,UGL,CB(AI Engineering)

6.

AWSのコミュニケーションサービス https://youtu.be/oI8h4KDpIL0?si=PyhAPvXIvBrosdNi&t=1329

7.

Amazon Polly とは?

8.

業務では自動音声応答(IVR)で使用 旧公式 サイトより

9.

2024/05/08 Amazon Polly の 3 つの合 成音声 (英語) に対応した新生成エンジン登場 https://aws.amazon.com/jp/about-aws/whatsnew/2024/05/generative-engine-three-english-polly-voices/

10.

GA(一般利 用)後

11.

この生成エンジンは Amazon Polly の最も高度なテキスト読み上げ (TTS) モデルです。さまざまな音声、言語、スタイルでトレーニングされて います。文脈に応じた韻律や、間の取り方、スペル、方言特性、外来語の 発音などを高い精度で表現します。生成型の合成音声は、感情表現に 富み、明快で口語的であるため、人間の声に驚くほど似ています。この新 しい音声は強力な機能を備えていながら低レイテンシーであるため、オン ライン会話のユースケースにも適しています。お客様は、人間に近い合成 音声を使用する、知識豊富なカスタマーアシスタント、バーチャルトレー ナー、広報として生成音声のペルソナをご利用いただけます。

12.

何故、心躍ったのか? 音声チューニングがいらなくなる世界が来るから 3年弱前に戻ります

13.

2023/02/08 日本語ニューラル女性音声GA Kazuha&Tomoko

14.

歓喜して、早速お客様提案したものの、 音声合成してみると拭えない違和感が orz...

15.

Kazuha と Tomoko が活躍するために 必要なのは、 音声合成マークアップ言語(SSML) によるチューニング

17.

音声合成マークアップ言語(SSML)とは? Speech Synthesis Markup Language ピッチ、発音、読み上げ速度、音量などのテキス ト読み上げの出力属性を微調整するために使用 できる XML ベースのマークアップ言語

18.

お聞きいただいたデモで与えているテキスト ウェブクリエイターズ高知 年忘れ!LT祭 開催、おめでとうございます!

19.

チューニング前後のデモ音声をお聞きください

20.

SSMLによるチューニング(kochiweb ver.) <speak> <prosody rate="90%"> <phoneme alphabet="x-amazon-pron-kana" ph="'ウェブクリエイター ズ">ウェブク'リエイターズ</phoneme> 高知</prosody> <break time="0.05s"/><p>年忘れ!LT祭 </p> <p>開催、おめでとうございます!</p> </speak>

21.
[beta]
プロダクションレベルで頻出のタグ
タグ

用途

ユースケース

<break time="0.1s"/>

ブレイク(間)を入れる。

連続で話すコトで不自然に感じ
てしまうケースで非常に有効。
0.05秒などコンマ2単位で調整。

<p></p>

明確に文章の区切りを入れ 区切りを入れないと、人間だと
る。
息継ぎをしているようなケース
でも一気に発話してしまい違和
感になる。

<phoneme alphabet="x-amazonpron-kana" ph="オヘ'ンロ">お遍路
</phoneme>

読み上げを制御する。アク
セントを入れられる。

漢字読み上げ、イントネーショ
ンを制御できる。尚、標準語・関
西弁などの指定はできない

<prosody rate="80%"></prosody>

発話スピードを変える。

要メモな読み上げ(口座番号等)。

https://docs.aws.amazon.com/polly/latest/dg/supportedtags.html

22.

日本語バージョンのGA、お待ちしてます! (チューニングがいらない世界が来て欲しい)

23.

さらなる進化の大きなうねりを感じた そして、心が躍った

24.

2024/12/03 Amazon Nova 注:1年前 2024年

25.

生成AIは方言を理解している

26.

生成AIに関西弁でお好み焼き屋を聞いた ほんまええで!大阪のたこ焼きといえば外せへんとこ、3つ教えたる わ。関西弁で説明したるさかい、よう聞いてや。 1. くくる 曽根崎店 ここのたこ焼きはめっちゃジューシーでふわふわしてんねん。外はカ リッとしてて中はトロトロ。タコもデカいし、ソースもええ感じやで。駅 近やから便利やし、行ったらアカンで! 2. たこ家 道頓堀くくる 本店~中略~ 3. たこ焼き やまちゃん 天王寺店 ~中略~ これらのお店、どこ行っても間違いあらへんで!大阪来たらぜひ食 べてみてや!うまいこと楽しんでってな!

27.

この生成エンジンは Amazon Polly の最も高度なテキスト読み上げ (TTS) モデルです。さまざまな音声、言語、スタイルでトレーニングされて います。文脈に応じた韻律や、間の取り方、スペル、方言特性、外来語の 発音などを高い精度で表現します。生成型の合成音声は、感情表現に 富み、明快で口語的であるため、人間の声に驚くほど似ています。この新 しい音声は強力な機能を備えていながら低レイテンシーであるため、オン ライン会話のユースケースにも適しています。お客様は、人間に近い合成 音声を使用する、知識豊富なカスタマーアシスタント、バーチャルトレー ナー、広報として生成音声のペルソナをご利用いただけます。

28.

学術研究やサビース利用が始まっている

29.

生成AIによる方言継承の動きは始まっている

30.

Amazon Nove Speech-to-Speech 登場の次に来るのは Polly と Bedrock が完全に統合した世界

31.

その統合がもたらすのは… 各地の方言を理解し、不気味の谷を越えて流暢 に話し、人口減少社会の中で方言継承の力を 秘めている「AI音声エンジン」の誕生

32.

そして…

33.

2025/04/08 Amazon Nova Sonic 登場!

34.

がしかし、日本語未対応…

35.

日本語バージョンのGA、お待ちしてます! 以前、ニューラルエンジンが日本語化されたのは英語登場の2年半でした…

36.

その予想を裏切り…

37.

2025/12/02 Amazon Nova 2 Sonic 登場 東京でも 使える!!

38.

早速、Amazon Nova 2 Sonic 触ってみた 日本語がある のにない!?

39.

日本語サポートは未対応だが日本語会話可能 US指定で JP話せる

40.

状況を整理すると… • • • Bedrock モデルカタログの言語には“Japanese (JP)”の記載あり ←おそらくココが誤り プレイグラウンドの言語では“Japanese (JP)”選 択不可。 ※Blog にも日本語サポート記載はなし。 "English (US)"で日本語で話しかけると流暢な 日本語の会話はできる。添付の会話だと漢字の読 み上げで"大手企業"を"ダイテキギョウ"と発話して いてやはり日本語の読み上げは難しそう。

41.

リアルタイムデモをお聞きください

42.

日本語バージョンのGA、お待ちしてます! 今回は今までと違って、日本語サポートが早いかも!?

43.

Share your lessons.

44.

AWS 推しサービスを中心にQiitaに 書いているので、良かったらご覧ください https://qiita.com/beajourneyman

45.

ご清聴いただき、ありがとうございます! ジャニ (Journeyman) | @beajourneyman

46.

Appendix... Amazon Polly 数十の言語で高品質で自然な人間の声を展開 Amazon Polly ポータル Amazon Polly が 2 つの新しい日本語 NTTS 音声の提供を開始 2023/02/08 日本語ニューラ ル女性音声GA Supported SSML tags サポートされているSSMLタグのドキュメント AWS が 3 人の表現力豊かなアメリカ英語の声を備えた長文形式エンジンの提供を開始 2023/11/16 長文形式のエンジン追加 Amazon Polly の 3 つの合成音声 (英語) に対応した新生成エンジン 2024/05/08 今回ご紹介 3つの新しい長編ボイス 2024/11/14 英語・スペイン語音声追加

47.

Appendix Amazon Bedrockにリアルタイムの音声会話をもたらす新しい音声合成モデル、Amazon Nova Sonicの発表 2025/04/08 Nova Sonic 登場 Amazon Nova Sonic で利用可能な音声 Nova Sonic ドキュメント Amazon Polly と SSML(音声合成マークアップ言語)に関する備忘録 弊Qiita関連ブログ Amazon Polly の最近のアップデートをふりかえり、生成AI時代の音声合成を考える 同関連ブログ リアルタイム会話型AIを実現するAmazon Nova 2 Sonicを発表 2025/12/02 Nova 2 Sonic 登場 音声読み上げ(Amazon Nova 2 Sonic) Amazon Nova 2 Sonic 開発者ガイド

48.

Appendix... 生成AI x 方言 記事 九州・沖縄方言の継承支援に資する音声対話型生成系AIの開発 生成AIで飲食店検索 「ぐるなび」が新アプリ 方言で特徴紹介も NHK WEB特集 最近、方言使ってますか? 素のChatGPTが使う大阪弁は何かヘンだが鹿児島弁は学習次第でほぼ完璧、“方言AI”が秘める可 能性とリスク

49.

connpassグループ登録、ご参加お待ちしてます https://jawsug-tochigi.connpass.com/