一視点固定型ライブ映像への映像表現自動付与による臨場感向上手法の検討

1.4K Views

March 19, 24

スライド概要

profile-image

明治大学 総合数理学部 先端メディアサイエンス学科 中村聡史研究室

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

一視点固定型ライブ映像への映像表現 自動付与による臨場感向上手法の検討 小川剣二郎 中村聡史(明治大学) 1

2.

音楽におけるライブの開催形態 「対面ライブ」「オンラインライブ」 またこれらを組み合わせたハイブリッドな形での開催がある オンラインライブの開催意義 - 日程的に都合が合わない人にも見てもらえる - ライブに足を運んでもらうきっかけ - 軽音楽団体において周知 (新しい入会者の招集、団体の活性化 ) 2022年度チケット制有料オンラインライブの市場規模 ぴあ総研:2022年のオンラインライブ市場は対前年比9.1%減の466億円に縮小, 入手先〈https://corporate.pia.jp/news/detail_live_enta20230526_2.html〉(参照 2024-02-18). 2

3.

軽音楽団体でのライブ映像配信 SNSを用いた配信では多くの視聴者を留まらせておくことは難しい 視聴者が離脱してしまう要因 - スマートフォンでの視聴時において 画面が小さいことによって臨場感が低くなる - 撮影・配信機材が揃っていないことにより一視点からの映像を配信する こととなり映像に変化が生まれなく単調となる ライブの良さが伝わきらず、評価も上がらない 3

4.

関連研究 ・VRコンサートにおいて、HMDと小型脳波レコーダーを用い観客の 脳の状態を視覚的に共有することで一体感を増強させる[Angelら 2022] ・オンラインライブ配信に同期してLED点灯装置を制御する “Immersive Online Live System”[柳沢ら 2021] 特有のデバイスを用いることなく 映像処理のみで臨場感を向上させたい Á. Muñoz-González, S. Kobayashi and R. Horie. A Multiplayer VR Live Concert With Information Exchange Through Feedback Modulated by EEG Signals. IEEE Transactions on Human-Machine Systems, 2022, vol. 52, no. 2, pp. 248-255 柳沢豊, 小野圭介, 上田健太郎, 出田怜, 吉池俊貴, 藤本実. Immersive Online Live System: ライブ配信動画に同期した演出が可能なLED点灯制御システム. 研究報告デジタルコンテンツクリエーション, 2021, vol. 28, no. 2, pp. 1-5 4

5.

大目的 オンライン配信ライブを映像処理のみで臨場感を向上させ より多くのユーザに視聴してもらう 5

6.

臨場感を向上させる音楽表現の例 - 漫画・アニメ - 音楽に関する漫画・アニメでの演奏シーンではシーン切り替えに加えて 効果線や画面分割などといった表現を用い演奏の臨場感をより伝えている →軽音楽におけるライブ映像に取り入れることで臨場感を補えるのではないか 6

7.

目的 ライブ映像に自動で映像表現を付与する手法を模索し それが印象にどう影響するのかを調査 7

8.

提案手法 ○ライブ映像の特徴的なシーンを検出し映像表現を自動で付与 映像 演者認識 動体検知 ライブ映像 音声 発音タイミング検知 映像表現の付与された ライブ映像 8

9.

提案手法 - 映像表現の種類 ズーム ・演奏シーンを通して使用 ・特徴的な動きをしている演者に フォーカス ・演奏のテンポに合わせて 画面切り替え 画面分割 ・アクセントとして使用 ・演者の人数分画面を縦分割し ズームした演者を並べて表示 ・バンドの一体感や 演者個々の演奏を伝える 集中線 ・アクセントとして使用 ・画面全体に対して 真ん中に向けて線を引く ・バンド全体の勢いや音圧を 伝える 9

10.

提案手法 - 映像表現の種類 ズーム 画面分割 集中線 対象 動きの大きい演者 演者全員 画面全体 タイミング 曲のテンポに 合わせて 演者全員の動作量 の合計が一定の値 を超えたシーン 音量の変化量が 大きいシーン イメージ 10

11.

提案手法 - 映像データの処理 - ライブ映像 左から順にベース、ドラム、ギター ギター ベース 映像データ 映像データ 演者認識 動体検出 音 ドラム データ 発音タイミング検知 映像表現の付与された ライブ映像 11

12.

提案手法 - 音声データの処理 ・音量差のある部分を発音タイミングとする ・音量差の基準を2段階用意しておく ライブ映像 映像データ 演者認識 動体検出 データ 音音 データ 発音タイミング検知 映像表現の付与された ライブ映像 集中線 ズーム 12

13.

提案手法 - ズーム+画面分割+集中線 - 13

14.

実験 ○視聴時間、いいね数、アンケートの比較により 提案手法によるライブ映像への印象を調査 - 参加者 ・24人(男性17人 女性7人) - 実験概要 ・上下にスワイプすることで次々と ライブ映像を見ていく ・良いと思った動画には、動画の右下にある いいねボタンを押す 実験システム 14

15.

実験 - 実験の流れ - チュートリアル 休憩 本実験 実験後アンケート ライブ映像20本(映像表現無し) ・チュートリアル用に用意したライブ映像(映像表現無し)を20本視聴 ・システムに慣れてもらい、目新しさによる視聴時間の影響を無くす ・いいねボタンを押すことに対する抵抗を無くす 15

16.

実験 - 実験の流れ チュートリアル 休憩 本実験 実験後アンケート ライブ映像20本(映像表現無し) +映像表現の適用対象であるライブ映像6本 適用条件 None :映像表現無し Zoom:ズーム Mix :ズーム+画面分割+集中線 ※ ズーム :画面切り替えとして映像を通して用いられる 画面分割・集中線:アクセントとして部分部分で用いられる 16

17.

実験 - 実験の流れ チュートリアル 休憩 本実験 実験後アンケート アンケート設問内容 設問番号 Q1 Q2 質問事項 氏名を回答してください 音楽やライブ映像を視聴することは好きですか このライブ映像①(映像表現無し)を視聴して どの程度迫力を感じますか 回答形式 自由記述 5段階(1〜5) 5段階(1〜5) Q4 このライブ映像②(映像表現有り)を視聴して どの程度迫力を感じますか 5段階(1〜5) Q5 これらのライブ映像①②を視聴して 感じることがありましたら教えてください 自由記述 Q3 17

18.

結果 - 映像表現ごとの視聴時間 - None Zoom Mix 平均値 19.7 29.1 35.6 標準偏差 10.4 19.1 22.8 分散分析、多重比較の結果 None条件ーZoom条件 None条件ーMix条件 で有意差が認められた 18

19.

結果 - 映像表現の適用条件ごとのいいね数 映像表現条件ごとのいいね数 None Zoom いいねの有無ごとの平均視聴時間 Mix いいねされている いいねされてない 動画1 1 3 5 動画1 49.4 17.9 動画2 3 3 3 動画2 47.5 24.0 動画3 0 2 3 動画3 20.2 31.2 動画4 2 5 7 動画4 30.5 13.8 動画5 1 2 4 動画5 46.8 20.7 動画6 3 4 3 動画6 46.8 26.6 合計 10 19 25 平均 40.2 22.4 ・適用する映像表現が増えるごとにいいね数は増加 ・いいねされている動画の方が平均視聴時間は長く、有意差も認められた 19

20.

結果 - アンケート(映像表現の有無による印象) - Q5これらのライブ映像①②を視聴して感じることがありましたら教えてください 1人1人を大きく映すことでより迫力が出たように感じた カメラのアングルや効果線などバンドメンバーによりフォーカスしている映像が 見ていて迫力を感じた 全体を映しているだけだとただ漠然と見てしまうが アップしていたりすると細かいところに注目しやすいのかなと感じた。 過剰な編集は飛ばしたくなった 集中線はライブ映像に使うと安っぽくなるので無い方がいいと思った 演者1人1人にスポットを当てる編集は使いすぎて見にくいと感じた 20

21.

考察 - 提案手法の有用性 - ・None条件ーZoom条件 None条件ーMix条件 で有意差が認められた →提案手法は視聴時間の増加に有効である ・Zoom条件ーMix条件 では有意差が認められた →・Zoom条件とMix条件で満足度に大きな差がなかった ・適用頻度による影響の可能性 21

22.

考察 - 視聴時間といいね - ・適用する映像表現が増えるごとにいいね数は増加 ・いいねされている動画の方が平均視聴時間は長く、有意差も認められた →・視聴し始めてからすぐいいねして次の動画に進むことはなく いいねされている動画はきちんと長い時間視聴されている ・視聴時間による評価の裏付けになっており 提案手法は視聴維持率、印象の向上に有用である 22

23.

考察 - 映像表現の印象 - ・アンケートでは良い印象の意見を得られた反面 映像表現が過剰であるなどの悪い印象の意見が得られた ・映像表現を付与したZoom条件とMix条件では標準偏差が高い →・人による印象の差が大きく、参加者の傾向から 普段からライブ映像を多く視聴する人からの印象は悪く 逆にあまり視聴しない人からの印象は良い ・適切な映像表現の付与のための 動作の変化量や発音タイミングの検証の必要性 23

24.

考察 - 実運用に向けて - ・ 演者認識、動体検知、発音タイミング検知の精度が課題 →演者が3人以上いる場合や立ち位置が入れ替わる場合 ・ 映像の処理に元の映像の倍以上の時間がかかってしまった →リアルタイムで配信するために大幅に短縮する必要がある 24

25.

まとめ まとめ 25