1.5K Views
February 29, 24
スライド概要
昨今リアルタイム音声変換 AI の開発が盛り上がりを見せており、その事業応用も注目を浴びています。
DeNAでもリアルタイム音声変換 AI の研究開発を進めており、2023年、その成果をもとにプレスリリース(https://dena.com/jp/press/5053/)を公開いたしました。しかし、その過程は決して平坦ではなく、研究開発や実装面など、解決しなければならないさまざまな課題がありました。
本登壇では、リアルタイム音声変換AI開発の道のりや、創意工夫した点を紹介します。
DeNA が社会の技術向上に貢献するため、業務で得た知見を積極的に外部に発信する、DeNA 公式のアカウントです。DeNA エンジニアの登壇資料をお届けします。
リアルタイム⾳声変換AI開発の道のり #AI #⾳声変換 #リアルタイム⾳声変換 ソリューション事業本部データ統括部AI技術開発部⾳声グループ 園部良介‧⻑沢⼀⽣‧⼤⻄弘太郎 © DeNA Co., Ltd.
⽬次 1. プロローグ 2. ⾳声AIチーム vs. 研究開発 3. ⾳声AIチーム vs. 技術推進 4. ⾳声AIチーム vs. 技術検証 5. ⾳声AIチーム vs. 外部発信 6. まとめ © DeNA Co., Ltd. 2
プロローグ © DeNA Co., Ltd.
ついに出た成果 🎉 2023年末にプレスリリースを公開 ○ リアルタイム⾳声変換AIを開発した ○ それに伴って協業先の募集を始めた 👹 ここに⾄るまで数々の困難があった... ○ 研究開発とその後の様々な観点で © DeNA Co., Ltd. 4
そもそも⾳声変換って? ● ● 発話内容(話している内容)を維持したまま、⾳声の話者性成分(声⾊な ど)を別の⼈のものに変換する技術 ゲーム‧エンタメ領域での応⽤を想定 こんにちは ソース話者 (元々の声) © DeNA Co., Ltd. こんにちは ターゲット話者 (なりたい声) 5
DeNAの⾳声変換研究開発 ● ● © DeNA Co., Ltd. 2019年ごろからゲーム‧エンタメの事業部と研究開発をしてきた 七声ニーナの公開‧サービス終了(2021年〜2022年) 6
七声ニーナが残した課題 ● ● © DeNA Co., Ltd. ⾳声全体をサーバに送り、全体を変換して返す ○ 冒頭のデモのようにリアルタイムではなかった リアルタイム変換ができれば、 ○ ゲーム領域、エンタメ領域で使える! ■ VTuber、ボイスチャット ○ 社会課題領域で使える! ■ 防犯、遠隔医療でのカウンセリング
これから⽴ちはだかる壁の⼀覧 研究開発の壁 © DeNA Co., Ltd. 技術検証の壁 外部公開の壁 リアルタイム ⾳声変換の難しさ ビジネスインパクト 伝わらなさ 現実の制約 実機検証 動画制作
1. 研究開発 © DeNA Co., Ltd.
研究開発に⽴ちはだかる壁 実⽤的な⾳声変換に する上での課題 録⾳環境が多様 計算効率が悪い モバイルCPU 動作 モデルが未来を 参照できない リアルタイム変換 特有の問題 © DeNA Co., Ltd. 歌声
研究開発に⽴ちはだかるボス1 リアルタイム⾳声変換は、 👿 👿 未来の情報を参照できない 計算量が⼤きい ○ © DeNA Co., Ltd. ⾳声を少しずつ変換するのでメモリ効率が悪い
研究開発に⽴ちはだかるボス2 実⽤(ビジネス)上の⾳声変換は、 ● ● © DeNA Co., Ltd. 求められる⼊⼒が多様 ○ 声質、録⾳環境、歌など 動作環境に制約 ○ モバイルCPUなど
どうしよう? © DeNA Co., Ltd.
Answer: DeNAのAI組織だからの強みを活かそう! ● 多様なメンバーのバックグラウンド ○ ○ ○ ⾳声研究者 Kaggler ■ 業務時間でコンペに参加できる制度 競プロer �� 👉 © DeNA Co., Ltd. さて事業応⽤へ
2. 技術推進 © DeNA Co., Ltd.
ビジネス化‧サービス化に⽴ちはだかる壁とは ● ● © DeNA Co., Ltd. ⾼度な変換技術があっても、それだけではお⾦にならない ○ サービスに組み込まれて初めて価値が⽣まれる ⾳声変換をより魅⼒的にしなければならない ○ ユーザに「使ってみたい」と思わせるような技術にする ○ 事業部に「サービスへの導⼊を進めるべきだ」と思わせる技術にする
どうしよう? © DeNA Co., Ltd.
Answer 1/3: 組織の強み ● ● © DeNA Co., Ltd. DeNAのAI研究チームは事業部との距離が近い ○ AI技術開発部のビジョンのひとつは、 “事業が⽣み出す価値を⾒極め、事業の成⻑戦略をAIで⽀える” PoC作成→事業部からのFB→再度研究開発 を2年以上繰り返した💪
Answer 2/3: 社内デモ会の開催 (2023年6⽉‧10⽉) ● © DeNA Co., Ltd. 社内の様々な⽅に試してもらい、 フィードバックを集めた
Answer 3/3: 全社会でのデモ (2023年12⽉) ● ● © DeNA Co., Ltd. DeNA全社員に、⾳声変換で会⻑の南場さんになりきる様⼦を⽣配信した 南場さんや全社会配信を担当する部署など多くの⼈の協⼒があった
⾒えてきた新たな壁 ● ● �� 施策を実施してFBを集めた ○ 求められるプラットフォームは多種多様 ■ 少なくともスマホでできるように……など🤨 ビジネス化‧サービス化までに越えなければならない壁が明らかになった! 👍 © DeNA Co., Ltd. FBに応えるべく開発を進めていく
3. 技術検証 © DeNA Co., Ltd.
技術検証の⽬的 ⾳声変換AIのサービス導⼊の確度を⾼める 実際の体験の解像度を上げる © DeNA Co., Ltd. 実現可能性‧技術的課題の把握
技術検証に⽴ちはだかる壁 ● サービスが展開するプラットフォームは多種多様 ● 様々なプラットフォーム‧デバイスで効率的に技術検証を⾏いたい ⇒ クロスプラットフォーム開発 © DeNA Co., Ltd.
技術検証に⽴ちはだかる壁 🥺 クロスプラットフォームのための抽象化で隠蔽するような詳細を 把握‧検証したい 検証を進める中で、プラットフォーム固有の対応‧調査をしたくなる モデルやその仕様の変更がある 😭技術検証は不確定性が⾼い © DeNA Co., Ltd.
どうしよう? © DeNA Co., Ltd.
Answer: 変化に強い設計‧コードで柔軟に技術検証! 変更の可能性がある箇所‧責任分界点を考えて、変化に強い設計‧コードを意識 🦀 Rustの強⼒なビルドシステムやリッチな⾔語機能によって、変化に強い システムが作りやすく 👇 💪 プラットフォームごとに対応すべき部分を柔軟に変化させられるような 不確定性の⾼い取り組みに耐えうるシステムに 🙌 © DeNA Co., Ltd. 様々なサービスを想定した技術検証を進められた
4. 外部発信 © DeNA Co., Ltd.
外部発信 ● ● 魅⼒的な⾳声変換ができたので、社外含めて適⽤先を探していく運びに 外部発信の⼿段としてはメディア展開、プレスリリースなど 👊 伝えたいこと 1. DeNAは⾼品質なリアルタイム⾳声変換AI技術を持っていること 2. DeNAにはビジネスインパクトのあるAI技術をソリューションとしての 価値に変換する⼒があること © DeNA Co., Ltd.
外部発信に⽴ちはだかる壁 😔 😡 © DeNA Co., Ltd. ⾳声変換の価値を上⼿く伝えるのは超難しい ⽂章では絶対無理! ❓ 遅延100ms以下ってどれくらい? ❓ ターゲット話者に似てるってどんなもん?
どうしよう? © DeNA Co., Ltd.
Answer: 動画を作ろう! © DeNA Co., Ltd.
動画制作にあたっての整理 ● ❗ © DeNA Co., Ltd. 速度重視のものと凝ったもので2つ作る ○ 社内に動画作りに詳しいチームがあるので、協⼒してもらう 誰に何を伝えるのか明確にする ○ 誰に: 協業相⼿となりそうな企業 ○ 何を1: DeNAは⾼品質なリアルタイム⾳声変換技術を持っている ○ 何を2: リアルタイム⾳声変換はビジネスインパクトがある技術である
動画はYouTubeでも公開しています �� © DeNA Co., Ltd.
まとめ DeNAならではのAI⼈材 DeNAならではのAI組織 事業部とのPDCA 研究⾯に強みを持つ⾳声研 究者やkaggle, 競技プログラ ミングでのアルゴリズムに 強みを持つDSなど多様 さまざまな事業を持つDeNA のAI組織として、事業との 近さを活かした研究開発‧ 技術検証 リアルタイム⾳声変換AIの開発に成功した! 研究開発以後のサービス展開も推進していく © DeNA Co., Ltd. 35
ブースやってます & 協業パートナー募集してます! DeNA x AI問い合わせ窓⼝ ブース イマココ © DeNA Co., Ltd.