[DL輪読会]Wav2CLIP: Learning Robust Audio Representations From CLIP

1.3K Views

November 05, 21

#deep learning #Machine Learning #Audio Processing #Deep Learning #Multimodal Learning #Wav2CLIP

スライド概要

2021/11/05
Deep Learning JP:
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 92.4K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 71.5K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 61.6K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 55.2K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 52.1K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 50.2K

各ページのテキスト

Wav2CLIP: Learning Robust Audio Representations From CLIP 岡田領 / Ryo Okada 1

書誌情報 Wav2CLIP: Learning Robust Audio Representations From CLIP ● Ho-Hsiang Wu, Prem Seetharaman, Kundan Kumar, Juan Pablo Bello ● Music and Audio Research Laboratory, New York University, USA, Descript, Inc. ● Arxiv投稿：2021/10/21 ● https://descriptinc.github.io/lyrebird-wav2clip/ ● ICASSP 2022投稿 ● Tweets, Reddit postで少し話題 ● CLIPの表現を音声に拡張．音楽から動画生成ができる（右Twitterでの例） https://twitter.com/pseetharaman/status/1453452915843108864?s= 20 2

先行研究 ● 複数モーダルを扱った自己教師あり学習が発展 ● 音声の分野 ▸ Youtubeなどの大量データから音声と画像の関係を自己教師あり学習（OpenL3など） ● 画像とテキストの学習 ▸ CLIP ✓ Webから収集した画像と文章がペアの4億組の訓練データで学習 ✓ 画像と言語のマルチモーダルな潜在表現を獲得 ● 提案手法（Wav2CLIP） ▸ CLIPを蒸留するような形で音声と画像の関係を学習したモデルの提案 3

先行研究：CLIP(Contrastive Language-Image Pre-training) ● Webから収集した「画像+テキスト」4億組の訓練データ ● 画像からその画像に対応する真の記述文を、ランダムに選ばれた他の 32,768個の記述文の中から見つけだす対照学習でマルチモーダルな埋め込み空間を学習 ● 与えられたテキストと画像の間の意味的な類似性の推定をゼロショット学習で可能 4

類似研究：AudioCLIP AudioCLIP: Extending CLIP to Image, Text and Audio ● Andrey Guzhov, Federico Raue, Jörn Hees, Andreas Dengel ● DFKI GmbH, TU Kaiserslautern ● Arxiv投稿：2021/7/24 ● これもCLIPを音声に拡張した研究（Wav2CLIPの論文内にあまり言及がなかったが） 5

類似研究：AudioCLIP ● 音声分類モデルESResNeXtをCLIPに組み合わせる．CLIPのlossと同様の仕組みで，文章と音声，画像と音声のlossを追加 ● ①ImageNetで学習済みのESResNeXtを AudioSetデータセットでAudio Headを事前学習 ● ②AudioSetの音声，テキスト（ラベル），ビデオの画像で３つHeadをfine tune. ● ③音声分類タスクのデータでAudio Headを調整 ● 音声分類タスクの２つの環境音データセット（UrbanSound8K, ESC-50）でSOTA 6

提案手法：Wav2CLIP ● CLIPの学習済みモデルの重みを固定．動画（VGGSoundデータセット）のimageと audioの対応関係からAudio Encoderを学習．（蒸留のような形式） ● CLIPと同様の対照学習のlossを使用 ● 上記事前訓練後，重みを固定してタスクごと特徴抽出器として利用可能．（評価タスクではタスクごと追加の層を加えて学習） 7

AudioCLIPとWav2CLIPの違い ● 学習方法の違い ▸ AudioCLIPは画像，文章，音声の関係をファインチューニングして調整 ▸ Wav2CLIPはCLIPモデル（画像，文章）の重みは固定し，音声の表現をCLIPに合わせるように学習 ● 音声表現を獲得するデータセットが違い ▸ AudioCLIP: AudioSet（~1.8M, ~20k eva set 10second clips, 527classes, youtube） ▸ Wav2CLIP: VGGSound（~200k 10second clips, 309classes, youtube） ● その他 ▸ AudioCLIPは評価タスクに合わせて強めに調整（Audioエンコーダを更新） 8

実験概要 ● 評価タスク ▸ 分類（MC, ML） ✓ ▸ オーディオ検索（AR） ▸ クロスモーダル検索（CMR） ✓ ▸ 潜在空間で音声表現と近いテキストを抽出音声キャプショニング（AC） ✓ ● 2層のMLP分類器を訓練１層のtransformerデコーダを訓練し，文章生成音声表現モデルと比較 ▸ OpenL3 ✓ ▸ AudioSetデータセットで自己教師あり訓練 YamNet ✓ AudioSetで教師あり学習 9

10.

実験結果 ● SOTAには及ばず，他の音声表現モデルOpenL3, YamNetと同等か，上回る性能（分類） ● ゼロショット分類はランダムよりは良い結果とのこと ● 音声検索タスクでもOpenL3より良い結果 10

11.

実験結果 ● 音声キャプショニングの結果 ● ベースラインをわずかに上回る結果 11

12.

実験結果 ● VGGSoundデータの分類タスクでデータ量の比較 ● YamNetとWav2CLIPは少ないデータ量で高い性能が出ている 12

13.

実験結果 ● VQGAN-CLIP（VQGANの生成画像をCLIPの潜在空間でテキストに近づける）の仕組みを音声入力に置き換えて音声からの画像生成を実施 ● UrbanSound8Kデータセット（環境音）で試した結果 ● テキスト（上段） ● 音声（下段） 13

14.

実験結果 ● musdb18（楽曲のデータセット）を使った結果 ● ボーカル，ベース，ドラム，その他，合算した音声からそれぞれ生成 ● 上段，下段で別の曲 14

15.

まとめ ● CLIPの表現を音声にも拡張し，画像，文章，音声のマルチモーダルな関係を獲得 ● 学習済みのCLIPから蒸留するような形で音声エンコーダを学習した ● 音声から画像（動画）生成の実例を示した ● 音声は画像，文章に続き，Webのアーカイブから大量データが得られやすい情報なのでこう言った拡張は比較的やりやすい領域 ● 既存の学習モデルに別のモーダルを追加するときの１つのパターン感 15