262 Views
November 09, 15
スライド概要
音楽動画の印象評価がどのメディアに影響されるのかを明らかにすべく、音楽動画を3つのメディアタイプに分割したものに対する印象評価データセットを作成し、それに対する分析を行った。
明治大学 総合数理学部 先端メディアサイエンス学科 中村聡史研究室
音楽動画への印象評価 データセット構築と その特性の調査 大野 直紀 (明治大学 総合数理学部B3,JST CREST) 中村 聡史(明治大学 総合数理学部,JST CREST) 山本 岳洋(京都大学,JST CREST) 後藤 真孝(産業技術総合研究所,JST CREST)
今回の研究での貢献 • 500件×8軸×3メディア(音楽のみ,映像のみ, 音楽動画)の印象評価データセットを構築 • 「音楽のみ」での印象と「映像のみ」での印 象を組み合わせることで「音楽動画」の印象 評価に近づく • メディアごと,部分ごとに伝わりやすい印象 や伝わりにくい印象がある • Valence-Arousalは部分と全体で大きく異なる • かわいいはメディアによらず伝わる
音楽動画とは • 音楽と時間的に同期した映像が流れるもの 例「千本桜」http://www.nicovideo.jp/watch/sm15630734
背景 • 動画共有サイトで音楽動画の増加率が上昇 • Youtube • ニコニコ動画
背景 • 音楽動画の検索 • キーワード検索 • タイトル,曲名 「千本桜」「弱虫モンブラン」 • 使用ソフト • 作曲者名の検索 「VOCALOID」「初音ミク」 「自然の敵P」「supercell」 • タグ検索 キーワード,タグは思いつきづらい
背景 • 音楽動画からユーザが受ける主観的な印象 に基づく検索 • 「人気のある切ない音楽動画」 • 「元気の出る印象を受ける音楽動画」 • 印象での検索は難しい • キーワード検索 • テキスト情報に印象はあまり書かれていない • タグによる検索 • 印象を含むタグが少ない • ニコニコ動画では5%[山本09] • Last.fmでは14%[Hu07]
関連研究 • コメントと音響特徴量から音楽動画の印象 を推定[山本13] • 音楽動画全体からの印象推定 • 音楽聴取で受ける感動の評価要因[大出09] • 音楽のみしか考慮がされていない • 音と映像の組み合わせによる主観的印象の 変化[佐藤01] • 同一音楽動画ではない
問題点 • 音楽動画全体と音楽動画の部分による印象 の違いは検証されていない • 同一音楽動画内での各メディアの組み合わ せによる印象の違いは検証されていない
目的 音楽動画の印象評価は どのメディア,どの部分から 影響を受けるかを解明!! • 音楽,映像の印象評価と音楽動画の印象評価 の関係性を明らかにする • 音楽動画に対する印象に基づく検索の基盤に
アプローチ • 音楽動画のサビ部分をメディアごとに分けた ものに対する大規模印象評価データセットを 構築 • メディア間,部分での類似度の比較 • 作成したデータセットのメディア間での比較 • 過去の研究で作成した,音楽動画全体に対する 大規模印象評価データセットを使用
データセット構築 • 評価対象:ニコニコ動画に投稿された動画のう ち,「VOCALOID」タグが付与されたもの • 2012年8月時点で再生回数の多い動画上位500件 のサビ部分の30秒(ReflaiD[後藤03]を使用) • [山本13]と同じ500件の音楽動画集合を使用 • 評価者(21人)は,音楽動画のサビ部分を3タ イプにメディア分離したデータに対し8つの印 象軸に関して評価を行う • 「サビ音楽動画」 • 「サビ映像のみ」 • 「サビ音楽のみ」
印象軸[山本13] C1(堂々とした) C2(元気が出る) C3(切ない) C4(激しい) C5(滑稽) MIREX C6(かわいい) Valence(快,不快) Arousal(覚醒,鎮静) Russel[Russel80]
評価用Webインタフェース • C1~C6は1~5まで Valence-Arousalは -2から+2のそれぞれ 5段階で評価 • 500件×3メディアタ イプの8軸に対する 評価データを収集 • 各動画,各メディアを 最低3人が評価
印象ベクトル • 得られたデータの平均を8次元の印象ベク トルとして表す C1 C2 C3 C4 C5 C6 V A 評価者A 1 2 4 5 1 5 2 -2 評価者B 3 4 5 2 3 5 0 -1 評価者C 1 5 3 1 3 4 1 -2 ベクトル 1.7 3.7 4.0 2.7 2.3 4.7 1 -1.7
印象ベクトルの補正 • C1~C6と.Valence,Arousalの最小値, 最大値をそろえる C1 C2 C3 C4 C5 C6 V A 1.7 音楽動画 -1.3 -2 1 -0.3 2.7 30 4.7 1.7 -2 1 -0.7 -0.7 1.3 音楽のみ -1.7 -2 1 30 -1.7 1.3 -2 1 0.3 -1.7 映像のみ 52 3.3 0.3 4.3 1.3 -0.3 2.7 -0.7 2.3 -0.7 2.3 4.7 1.7 -0.3 1.7
比較実験 ① 各メディアの印象の類似度の比較 • どのメディア間での印象評価が類似している のかを解明 ② 2軸の組み合わせの類似度の算出 • 各メディア,部分と全体で一貫して伝わる印 象を解明 ③ 印象評価値の分布の表示 • どのメディアが大きい印象を与えるのかを 解明
① 各メディアの印象の類似度 どのメディア間での印象評価が類似して いるのかを解明 • 音楽動画に対する8軸の印象ベクトルがどの メディアタイプに類似しているのかを調査 • 「音楽のみ」「映像のみ」のベクトルの平均を とった「音楽映像平均」というベクトルを用意
音楽映像平均 音楽のみ 映像のみ 音楽映像平均 C1 C2 C3 -1.7 -2 2 C4 C5 C6 V A 0 -1.7 -2 -1.3 1.7 0.3 -1.2 -0.2 -0.8 -0.7 1 -1.3 1.7 -0.7 -1.6 0.9 -0.4 -1.2 -1 -1.3 1.7
比較手法 • 8軸の印象ベクトルをコサイン類似度で比較 類似度低 ベクトル同士の角度の比較 類似度高 -1で類似度低,+1で類似度高
比較手法 • いずれかの軸の値の絶対値が1以上のもの のみを使用 C1 C2 C3 A -1.3 -2 0.3 B -1.7 -2 2 C 0.3 -0.7 C4 0 C5 C6 1.7 0 -1.7 0 -0.7 0.3 この時,Cは比較に使用しない V A -2 -0.3 -0.7 -2 0.3 -1.7 0 0 -0.7
結果 類似度が0.8を超えた音楽動画の割合 比較するメディアタイプ 割合 サビ音楽動画 VS サビ音楽のみ 0.388 サビ音楽動画 VS サビ映像のみ 0.386 サビ音楽のみ VS サビ映像のみ 0.245 サビ音楽動画 VS サビ音楽映像平均 0.496
結果 類似度が0.8を超えた音楽動画の割合 比較するメディアタイプ 割合 サビ音楽動画 VS サビ音楽のみ 0.388 サビ音楽動画 VS サビ映像のみ 0.386 サビ音楽のみ VS サビ映像のみ 0.245 サビ音楽動画 VS サビ音楽映像平均 0.496 サビ音楽動画 VS フル音楽動画 0.101
結果 • サビ部分での各メディアから受ける印象は 食い違っている • 音楽動画vs音楽映像平均での割合が最高 • 「音楽のみ」のベクトルと「映像のみ」のベ クトルを組み合わせると「音楽動画」のベク トルに近づく • 音楽動画のサビと全体では受ける印象が大 きく異なる
② 2軸の組み合わせの類似度 各メディアで伝わりやすい軸を解明 • 8次元のベクトルからすべての2軸ペアの 組み合わせについてコサイン類似度で比較 • 2軸に対する評価値の絶対値がどちらも1以上 のもののみを使用 使用 不使用
比較手法 音楽動画 音楽のみ 映像のみ 音楽映像平均 C1 C2 C3 C4 C5 C6 V A -1.3 -2 0.3 0 1.7 -2 -0.3 -0.7 -1.7 -2 2 0 -1.7 -2 0.3 -1.7 0.3 1.3 -0.3 -0.7 -0.7 1.7 -0.3 1.7 -0.7 -0.4 0.9 -0.4 -1.2 -0.1 -0.3 0
比較手法 音楽動画 音楽のみ 映像のみ 音楽映像平均 C1 C2 C3 C4 C5 C6 V A -1.3 -2 0.3 0 1.7 -2 -0.3 -0.7 -1.7 -2 2 0 -1.7 -2 0.3 -1.7 0.3 1.3 -0.3 -0.7 -0.7 1.7 -0.3 1.7 -0.7 -0.4 0.9 -0.4 -1.2 -0.1 -0.3 0
比較手法 音楽動画 音楽のみ 映像のみ 音楽映像平均 C1 C2 C3 C4 C5 C6 V A -1.3 -2 0.3 0 1.7 -2 -0.3 -0.7 -1.7 -2 2 0 -1.7 -2 0.3 -1.7 0.3 1.3 -0.3 -0.7 -0.7 1.7 -0.3 1.7 -0.7 -0.4 0.9 -0.4 -1.2 -0.1 -0.3 0 「音楽動画」のC3の絶対値が1を超えていないため 比較に使用しない
比較結果(サビ) 音楽動画vs音楽のみ C1 C2 C3 C4 C5 C6 V C1 - C2 0.702 C3 0.675 0.768 C4 0.650 0.664 0.697 C5 0.651 0.669 0.633 0.679 C6 0.678 0.771 0.693 0.697 0.658 V 0.691 0.692 0.761 0.843 0.676 0.762 A 0.740 0.841 0.861 0.745 0.656 0.748 0.700 A 音楽動画vs映像のみ 平均 0.702 0.675 0.650 0.651 0.678 0.691 0.740 0.684 - 0.768 0.664 0.669 0.771 0.692 0.841 0.730 - 0.697 0.633 0.693 0.761 0.861 0.727 - 0.679 0.697 0.843 0.745 0.711 - 0.658 0.676 0.656 0.660 - 0.762 0.748 0.715 - 0.700 0.732 - 0.756 映像のみvs音楽のみ C1 C2 C3 C4 C5 C6 V C1 - C2 0.500 C3 0.481 0.585 C4 0.450 0.500 0.564 C5 0.418 0.460 0.531 0.599 C6 0.431 0.579 0.604 0.629 0.599 V 0.394 0.442 0.602 0.694 0.536 0.622 A 0.486 0.670 0.731 0.584 0.538 0.659 0.495 A 0.564 0.531 0.604 0.602 0.731 0.586 類似度低 - 0.599 0.629 0.694 0.584 0.574 - 0.599 0.536 0.538 0.526 - 0.622 0.659 0.589 - 0.495 0.541 - C3 C4 C5 C6 V C1 - C2 0.772 C3 0.645 0.707 C4 0.602 0.636 0.668 C5 0.592 0.631 0.696 0.657 C6 0.668 0.797 0.750 0.695 0.709 V 0.540 0.613 0.681 0.753 0.646 0.703 A 0.658 0.825 0.870 0.654 0.661 0.808 0.650 平均 0.585 0.500 0.460 0.579 0.442 0.670 0.534 - C2 A 平均 0.772 0.645 0.602 0.592 0.668 0.540 0.658 0.640 - 0.707 0.636 0.631 0.797 0.613 0.825 0.711 - 0.668 0.696 0.750 0.681 0.870 0.717 - 0.657 0.695 0.753 0.654 0.666 - 0.709 0.646 0.661 0.656 - 0.703 0.808 0.733 - 0.650 0.655 - 0.732 音楽動画vs音楽映像平均 0.500 0.481 0.450 0.418 0.431 0.394 0.486 0.451 - C1 0.595 C1 C2 C3 C4 C5 C6 V C1 - C2 0.876 C3 0.833 0.835 C4 0.778 0.744 0.847 C5 0.734 0.761 0.774 0.789 C6 0.829 0.916 0.805 0.780 0.790 V 0.733 0.816 0.881 0.895 0.812 0.852 A 0.868 0.935 0.940 0.826 0.794 0.901 0.859 A 平均 0.876 0.833 0.778 0.734 0.829 0.733 0.868 0.807 - 0.835 0.744 0.761 0.916 0.816 0.935 0.840 - 0.847 0.774 0.805 0.881 0.940 0.845 類似度高 - 0.789 0.780 0.895 0.826 0.809 - 0.790 0.812 0.794 0.770 - 0.852 0.901 0.839 - 0.859 0.836 - 0.875
サビ音楽動画vsサビ音楽のみ C1 C2 C3 C4 C5 C6 V C1 - C2 0.702 C3 0.675 0.768 C4 0.650 0.664 0.697 C5 0.651 0.669 0.633 0.679 C6 0.678 0.771 0.693 0.697 0.658 V 0.691 0.692 0.761 0.843 0.676 0.762 A 0.740 0.841 0.861 0.745 0.656 0.748 0.700 A 平均 0.702 0.675 0.650 0.651 0.678 0.691 0.740 0.684 - 0.768 0.664 0.669 0.771 0.692 0.841 0.730 - 0.697 0.633 0.693 0.761 0.861 0.727 - 0.679 0.697 0.843 0.745 0.711 - 0.658 0.676 0.656 0.660 - 0.762 0.748 0.715 - 0.700 0.732 - 0.756
サビ音楽動画vsサビ映像のみ C1 C2 C3 C4 C5 C6 V C1 - C2 0.772 C3 0.645 0.707 C4 0.602 0.636 0.668 C5 0.592 0.631 0.696 0.657 C6 0.668 0.797 0.750 0.695 0.709 V 0.540 0.613 0.681 0.753 0.646 0.703 A 0.658 0.825 0.870 0.654 0.661 0.808 0.650 A 平均 0.772 0.645 0.602 0.592 0.668 0.540 0.658 0.640 - 0.707 0.636 0.631 0.797 0.613 0.825 0.711 - 0.668 0.696 0.750 0.681 0.870 0.717 - 0.657 0.695 0.753 0.654 0.666 - 0.709 0.646 0.661 0.656 - 0.703 0.808 0.733 - 0.650 0.655 - 0.732
サビ音楽動画vsサビ音楽映像平均 C1 C2 C3 C4 C5 C6 V C1 - C2 0.876 C3 0.833 0.835 C4 0.778 0.744 0.847 C5 0.734 0.761 0.774 0.789 C6 0.829 0.916 0.805 0.780 0.790 V 0.733 0.816 0.881 0.895 0.812 0.852 A 0.868 0.935 0.940 0.826 0.794 0.901 0.859 A 平均 0.876 0.833 0.778 0.734 0.829 0.733 0.868 0.807 - 0.835 0.744 0.761 0.916 0.816 0.935 0.840 - 0.847 0.774 0.805 0.881 0.940 0.845 - 0.789 0.780 0.895 0.826 0.809 - 0.790 0.812 0.794 0.770 - 0.852 0.901 0.839 - 0.859 0.836 - 0.875
結果 • C1(堂々とした),C5(滑稽な)では各メ ディアで違った印象 • C3(切ない),C6(かわいい),Arousal では各メディアで似通った印象 • C6(かわいい)は,映像に影響されやすい
サビ音楽動画vsフル音楽動画 C1 C2 C3 C4 C5 C6 V C1 - C2 0.723 C3 0.674 0.719 C4 0.622 0.599 0.599 C5 0.520 0.606 0.556 0.566 C6 0.668 0.797 0.668 0.606 0.619 V 0.338 0.333 0.379 0.302 0.353 0.392 A 0.415 0.388 0.464 0.349 0.361 0.457 0.124 A 平均 0.723 0.674 0.622 0.520 0.668 0.338 0.415 0.566 - 0.719 0.599 0.606 0.797 0.333 0.388 0.595 - 0.599 0.556 0.668 0.379 0.464 0.588 - 0.566 0.606 0.302 0.349 0.522 - 0.619 0.353 0.361 0.511 - 0.392 0.457 0.601 - 0.124 0.317 - 0.366
結果 • Valence-Arousalに関しては,音楽動画の 部分と全体で大きく異なる • C6(かわいい)に関しては,部分によっ て影響されない
③ 評価値の分布 各軸でどのメディアが大きい印象を与えて いるのかを解明 • 各軸それぞれの評価値の分布を表示 • 今回は大きく特徴が出たもののみを表示
各メディアでの分布の平均 サビ音楽動画 サビ音楽 サビ映像
C1,C2の評価値の分布 C1(堂々) サビ音楽動画 サビ音楽 サビ映像 C2(元気が出る)
C5,Valenceの評価値の分布 C5(滑稽な) サビ音楽動画 サビ音楽 サビ映像 Valence
結果 • C1,C2は映像でマイナス,音楽でプラスの 印象 • C5,Valenceではどのメディアでも強い印象 を与えるのが困難
考察 • C3(切ない)C6(かわいい)Arousalでは メディア間で評価が似通う • 各メディアでの影響が少なく,音楽動画全体で 一貫して伝わりやすい • C1(堂々とした)C5(滑稽な)ではメディ ア間での評価が異なる • 評価値の絶対値が1に満たないものが多数 • 音楽動画からC1,C5は伝わりづらい可能性 • Valence-Arousalは部分で変化していく軸 • 音楽動画全体に対する印象評価には適さない
考察 • 音楽動画のベクトルは「音楽」「映像」の ベクトルによって表現できる • 音響分析で音楽の印象推定 • 映像分析で映像の印象推定 音楽動画の印象推定が可能に
まとめと今後の展開 • 500件×8軸×3メディアの印象評価データ セットを構築し,分析を実施 • 音楽のみの印象評価と映像のみの印象評価を組 み合わせると音楽動画の印象評価に近づく • 音楽動画の部分と全体では,受ける印象に大き く差が出る [今後の展開] • より多くの音楽動画に対して調査 • 音楽の印象推定,映像の印象推定の組み合わ せによる音楽動画の印象推定を実現