2.1K Views
September 07, 24
スライド概要
JAWS-UG・SORACOMUG 共催クラウドお遍路のLT登壇資料です。
更新:Amazon Polly デモ音声の再生リンクを追加しました。
システム維持PjM&SE #AWS/コミュニティ #営餃 #DevReljp #JBUG #BacklogWorld #JAWSUG #PRLT #開発PM勉強会/趣味 #バイク乗り #桃が好きなんです #富士山好き🗻51回登頂 #つれづれジャニ #ジャニタビ #ジャニソラ/著書📘http://amzn.to/3IUyM87
お遍路高知 #jawsug_ohenro Amazon Polly を触ってみよう!! 〜概要と音声合成マークアップ言語(SSML)によるチューニング〜 Journeyman | @beajourneyman Sep 2024
音声合成してますか?
本日、お伝えしたいコト(結論) Amazon Polly の特徴をつかむ 実案件での勘所をつかむ 最新のトレンドをつかむ
Journeyman ジャニ (Takeki Oizumi) 所属:セゾンテクノロジー(4月に社名変更) 仕事:Amazon Connect を基盤とした IVRシステムの開発保守リーダー 推しサービス:Amazon Connect / Polly SNS:@beajourneyman 認定: CLF / SAA / SOA勉強中(2度失敗)
Amazon Polly とは?
自動音声応答(IVR)のコールフローで使用
Amazon Polly は進化している
2023/02/08 日本語ニューラル女性音声提供 Kazuha&Tomoko
小躍りして、早速お客様提案したものの、 音声合成してみると少し違和感が orz...
Kazuha と Tomoko が活躍するために 必要なのは、 音声合成マークアップ言語(SSML) によるチューニング
音声合成マークアップ言語(SSML)とは? Speech Synthesis Markup Language ピッチ、発音、読み上げ速度、音量などのテキス ト読み上げの出力属性を微調整するために使用 できる XML ベースのマークアップ言語
スタンダード音声 demo (非ニューラル,Mizuki) ※demoのリンク先に音声をアップしてありお聴きいただけます。
与えているテキスト JAWS-UG、SORACOMUG 共催クラウドお遍路、開催おめでとうござい ます!
チューニングしない音声 demo (ニューラル,Tomoko)
チューニングした音声 demo (ニューラル,Kazuha)
プロダクションレベルで頻出のタグ
タグ
用途
ユースケース
<break time="0.1s"/>
ブレイク(間)を入れる。
連続で話すコトで不自然に
感じてしまうケースで非常に
有効。0.05秒などコンマ2単
位でチューニングする。
<p></p>
明確に文章の区切りを入れ
る。
区切りを入れないと、人間だ
と息継ぎをしているような
ケースも一気に発話してしま
い。違和感になる。
<phoneme alphabet="xamazon-pron-kana" ph="オ
ヘ'ンロ">お遍路
</phoneme>
読み上げを制御する。アクセ 漢字読み上げ、イントネー
ントを入れられる。
ションを制御できる。尚、標
準語・関西弁などの指定は
できない
https://docs.aws.amazon.com/polly/latest/dg/supportedtags.html
SSMLによるチューニング(お偏路本番仕様) <speak> <phoneme alphabet="x-amazon-pron-kana" ph="ジョーズ '">JAWS</phoneme> <phoneme alphabet="x-amazon-pron-kana" ph="ユージ'ー">UG</phoneme>、<break time="0.05s"/> <phoneme alphabet="x-amazon-pron-kana" ph="ソラコムユージ'ー ">SORACOMUG</phoneme>、共催、 <p><phoneme alphabet="x-amazon-pron-kana" ph="クラウドオヘ'ン ロ">クラウドお遍路</phoneme>、開催おめでとうございます!</p> </speak>
One more thing...
Amazon Polly は進化している(再)
2023/11/16 生成AIを取り込み
ニューラル音声 demo (Neural,Ruth)
与えているテキスト Congratulations on the co-hosted Cloud-Ohenro by JAWS-UG and SORACOM-UG!
ロングフォーム音声 demo (Long-Form,Ruth)
生成音声 demo (Generative,Ruth)
生成音声チューニング demo (Generative,Ruth)
与えているテキスト Congratulations on the co-hosted Cloud-Ohenro by JAWS-U-G and SORACOM-U-G!
日本語バージョンのGAお待ちしてます!! (チューニングがいらない世界が来て欲しい)
本日、お伝えしたいコト(結論) Amazon Polly の特徴をつかむ 実案件での勘所をつかむ 最新のトレンドをつかむ 使ってみる!!
クラウドお遍路、開催おめでとうございます!! 聞いていただき、ありがとうございます! みなさん、アンケートお忘れなく!! ジャニ (Journeyman) | @beajourneyman
Appendix... Amazon Polly 数十の言語で高品質で自然な人間の声を展開 Amazon Polly ポータル Amazon Polly が 2 つの新しい日本語 NTTS 音声の提供を開始 2023/02/08 日本語ニューラル女性音声提供 AWS が 3 人の表現力豊かなアメリカ英語の声を備えた長文形式エンジンの提供 を開始 2023/11/16 生成AIを取り込み Amazon Polly と SSML(音声合成マークアップ言語)に関する備忘録 弊Qiita 関連ブログ