一視点固定型ライブ映像における 映像・音響表現自動付与による音楽体験拡張 小川剣二郎 中村聡史 (明治大学) 1
軽音楽団体の活動内容 定期的なライブと、それに向けた練習が主な活動 n 対面ライブ その場の人たちに披露し盛り上げる n オンライン配信ライブ 活動内容を広くアピール(入会者の招集、団体の活性化) →リアルタイムであることが感情を共有する感覚を高める [Swarbrick+ 2021] Swarbrick, D., Seibt, B., Grinspun, N. and Vuoskoski,J. K.: Corona concerts: The effect of virtual concertcharacteristics on social connection and Kama Muta, Frontiers in psychology, Vol. 12, p. 648448 (2021). 2
オンライン配信ライブの現状 SNSを用いた配信では、多くの視聴者を 留まらせておくことが難しい 視聴者が離脱してしまう要因 - 撮影・配信機材が整っておらず一視点からの映像を配信 することとなり映像に変化が生まれなく単調となる - スマートフォンでの視聴が多く 画角が小ささにより臨場感が低くなる [畑田+ 1979] 畑⽥豊彦,坂⽥晴夫,⽇下秀夫: 画⾯サイズによる⽅向感覚誘導効果 ⼤画⾯による臨場感の基礎実験,テレビジョン学会誌, Vol. 33, No. 5, pp. 407–413 (1979). 3
映像表現自動付与手法の検討(EC71) ライブ映像の特徴的なシーンを検出し 映像表現を自動で付与 → 映像表現を付与することにより視聴維持率、印象が向上 → 普段ライブ映像をあまり視聴しない人から好印象 4
音響表現による臨場感向上の可能性 視覚と聴覚の情報が一致していることが認知、感性的に良い影響を与える [Kim+ 2022][Delong+ 2021] n 配信から入会や団体の活性化に繋げるには、そのライブ自体や演奏者に 興味を持ってもらい、臨場感のある音楽体験をしてもらう必要がある →映像表現と同じ対象を音響表現でフォーカスを当てることで 臨場感、興味度に着目した音楽体験の向上を目指す Kim, H. and Lee, I.-K.: Studying the effects of congruence of auditory and visual stimuli on virtual reality experiences, IEEE Transactions on Visualization and Computer Graphics, Vol. 28, No. 5, pp. 2080–2090(2022). Delong, P. and Noppeney, U.: Semantic and spatial congruency mould audiovisual integration depending on perceptual awareness, Scientific Reports, Vol. 11, No. 1, p.10832 (2021). 5
目的 映像・音響表現の付与、さらにそれらを組み合わせることによる ライブ映像視聴時の音楽体験への影響を調査 6
映像・音響表現自動付与手法 主な処理の流れ ① 発音タイミングにより映像をブロック分け (LibROSA) ② 演者を認識しそれぞれの動作量を求める (Y0LO v10、OpenCV) ③動作量を比較し映像・音響表現の付与 7
映像表現 - 種類・付与対象 ズーム ラディアルブラー n 基本的な画面遷移 ズーム n 特定の箇所に視線を集中 :各演者の動作量が少し増加 画面分割 n それぞれの演者に視線を向ける n 動作量が多い演者ごとに 1 秒ずつ時間差表示 ラディアルブラー:各演者の動作量が大幅に増加 画面分割 :全演者の動作量が大幅に増加 8
音響表現 - 付与手法 n ライブ音源を楽器ごとに音源分離し、元のライブ音源に重ねた後 全体の音量を揃えることで特定の楽器を際立たせる n 頻繁に音響が変わることはユーザに違和感を与えてしまう可能性がある →比較的付与頻度の少ないラディアルブラー、画面分割を付与する タイミングに限定 9
提案手法によって出力されたライブ映像 動画 10
実験 n 提案手法による、映像・音響表現の自動付与がライブ映像視聴時の 音楽体験へどのような影響を与えるのか調査 - 実験概要 複数のライブ映像に対してアンケートに答えてもらう - 参加者 24人(大学生・大学院生) 11
実験 - 評価基準の選定 n 臨場感の構成要素 没入感、社会的存在感、リアリティ、インタラクション性 etc.. n それぞれの演者に興味を持ち、さらにその団体全体に興味がいくことで 入会やその団体の活性化に繋がると考えられる n 感情的関与度が高まることで没入感が向上することも報告されており 視聴体験への影響が示唆される [Swarbrick+ 2024] Swarbrick, D., Martin, R., Høffding, S., Nielsen, N. and Vuoskoski, J. K.: Audience Musical Absorption: Exploring Attention and Affect in the Live Concert Setting, Music & Science, Vol. 7, p. 20592043241263461 (online), DOI: 10.1177/20592043241263461 (2024). 12
実験 - 評価基準の選定 n 没入感、社会的存在感、演者への興味度を測るアンケートを作成 以下を参考に作成 没入感 :AIMS(Absorption in Music Scale) [Sandstrom+ 2013] 社会的存在感:TPI(Temple Presence Inventory) [Lombard+ 2009] 演者への興味度:Fanship Scale [Reysen+ 2010] Sandstrom, G. and Russo, F.: Absorption in music: Development of a scale to identify individuals with strong emotional responses to music, Psychology of Music, Vol. 41, pp. 216–228 (online), DOI: 10.1177/0305735611422508 (2013). Lombard, M., Ditton, T. B. and Weinstein, L.: Measuring presence: the temple presence inventory, Proceedings of the 12th annual international workshop on presence, International Society for Presence Research Los Angeles, CA, pp. 1–15 (2009). Reysen, S. and Branscombe, N. R.: Fanship and Fandom: Comparisons between Sport Fans and Non-Sport Fans, Journal of Sport Behavior, Vol. 33, No. 2, pp. 176–193 (2010). 13
実験 - 流れ 実験前タスク 本実験 実験後アンケート n 一視点から撮影されたライブ映像への満足度を事前に測定 メディアの満足度を測る指標:ABMSS(Affect-Based Media Satisfaction Scale) [Sandstrom+ 2024] を参考に作成 n 3つのライブ映像に対して視聴、アンケート回答(6段階) Sandstrom, G. and Russo, F.: Absorption in music: Development of a scale to identify individuals with strong emotional responses to music, Psychology of Music, Vol. 41, pp. 216–228 (online), DOI: 10.1177/0305735611422508 (2013). 14
実験 - 流れ 実験前タスク 本実験 実験後アンケート n 表現の付与対象である12 本の動画に対して視聴、アンケート回答(6段階) 表現の適用条件 None : 映像・音響表現無し Visual : 映像表現のみ付与 Audio : 音響表現のみ付与 Both : 映像・音響表現付与 ※適用条件はランダム・同数になるように設定 15
結果 - 適用条件ごとの没入感の評価 n 没入感の平均値 None : 3.71 Visual : 3.98 Audio : 3.57 Both : 3.90 n 有意差は見られない 16
結果 - 適用条件ごとの社会的存在感の評価 n 社会的存在感の平均値 None : 3.76 Visual : 4.22 Audio : 3.66 Both : 4.23 n 映像表現の有無で有意差 (p < 0.05) 17
結果 - 適用条件ごとの演者への興味度の評価 n 演者への興味度の平均値 None : 3.49 Visual : 3.92 Audio : 3.51 Both : 3.89 n None - Visual 間で有意差 (p < 0.05) 18
結果 - 一視点固定型ライブ映像への満足度による評価 参加者全体の中央値よりも高い人、低い人で分けて評価値を比較 n 満足度が高い人 None - Visual 間の増加は小さいが Visual - Both 間も増加している n 満足度が低い人 None - Visual 間の増加が大きいが Visual - Both 間は低下している 19
結果 - 実験後アンケート n 映像表現 - 演奏に注目するようになった - 映像表現に違和感を感じたり、タイミングがずれている場合に不自然 n 音響表現 - マイナスな意見が多く見られた -「映像表現と合わさって、集中対象がわかる新しい経験ができた」 「個々の演者にも注目がいくようになるので良いと思った」と好印象の意見 - 音響表現に違和感を感じる人と、気づかない人がおり 参加者の個人差が大きく結果に出た 20
考察 - アンケートの評価値 n 没入感、社会的存在感、演者の興味度の全てにおいて 音響表現に関係なく、映像表現を付与することで評価が高くなっていた → 映像表現を付与することが視聴者の音楽体験を向上させる → ライブ映像においても、適した頻度のカットが視覚的興味を維持している n 音響表現による主な影響は確認されず、アンケートにおいても評価が大きく 分かれていた → 音響表現のみによる効果は薄い → ユーザの意図しないタイミングで切り替わる違和感が顕著に現れた 21
考察 - アンケートの評価値 n 一視点から撮影されたライブ映像への満足度が高い場合には一部 没入感、社会的存在感において映像・音響表現付与による効果が見られた → ライブにより興味を持っている場合には映像・音響表現を組み合わせる ことにより音楽体験を向上させる可能性 → 参加者の好みにマッチした映像と表現の組み合わせがある可能性 22
考察 - 動画と適用条件の組み合わせ n 各参加者における最も評価が高かった動画の適用条件を評価軸ごとに カウントし比較 p 没入感、社会的存在感:Both 条件が最も多い p 演者への興味度:Visual 条件が最も多い p 全ての評価軸をまとめた際にはBoth 条件が最も多い → 動画の種類によっては映像表現と音響表現を組み合わせることで 音楽体験を向上させる可能性 23
展望 n リアルタイム処理に向けたアルゴリズム開発 - ストリーミング処理 - リハーサルの時間を活用して正解データをとり、それをもとに 音源分離 or イコライジング処理 n 視聴者のインタラクションに応じて映像表現と音響表現を適用 24
まとめ 背景:軽⾳楽団体では主に⼀視点からライブ映像を配信し、離脱者が多い ⼿法:特徴的なシーンを検出し、映像・⾳響表現を⾃動付与 実験:没⼊感、社会的存在感、演者への興味度をアンケート評価 結果:映像表現の有無による効果、⼀視点型ライブ映像への満⾜度による影響 考察:映像表現が⾳楽体験を向上、⼀部組み合わせることによる効果 展望:リアルタイムに向けたアルゴリズム開発、インタラクションに応じた適⽤ 25