盛り上がり度に基づくループシーケンサにおけるユーザ適応の試み

>100 Views

October 07, 24

スライド概要

作曲自体には興味があるが,作曲の方法や定石を勉強する時間を確保するのが難しく,作曲に手を出すのを躊躇する人が少なからず存在すると思われる.そのため,専門知識がなくても計算機が作曲してくれるシステムの開発が行われているが,ユーザの嗜好を十分に反映できるものになっているとは限らない.そこで,本研究では,ユーザの嗜好を学習して,ユーザが気に入りやすい曲を自動で作成する作曲ツールの実現を目指す.

本研究では「ループシーケンサー」という数小節程度の短いフレーズを記録したオーディオ素材を組み合わせて1つの曲を作れるようにした音楽制作用ソフトウェア内の音素材を利用している.

ループシーケンサーには様々な音素材が用意されているが,全てのユーザが全ての音素材を満遍なく選択するという訳ではない.ユーザが作曲を進めていくと徐々に選択される頻度の高い音素材と低い音素材のグループが出来ると考えられる.そして,グループ内の音素材は似たような傾向の音素材が集まっていると考えられる.ループシーケンサーにユーザの選びやすい音素材とそうでない音素材の傾向を学習させることで,自動作曲をする際の選択される音素材に偏りを生じさせて,ユーザの気に入りやすい曲が作られやすくなると考えられる.

音素材の傾向を調べるために「librosa」というオーディオファイルの分析等を行うためのPython言語のパッケージを用いて,メルスペクトログラムという特徴量を用いてクラスタリングを行い,各音素材の1つの1つの特徴量のクラスタ番号を数え上げたデータを作る.

そのデータに対して「トピックモデル」という手法を用いる.トピックモデルは文書中に出現している単語の種類と出現頻度に基づいて,その文書のトピック(話題)を類推する手法である.トピックモデルには幾つか種類が存在し,今回はLDAという手法を用いてデータを分析をして,似たような傾向の音素材を分類する.後はユーザが作曲ツール内で手動で音素材を配置した時に選択された音素材の傾向を学習させることで,ユーザの選択頻度の高い音素材や低い音素材の傾向を考慮して自動作曲を行うことが出来るようになる.

本研究の実験では,実験用に簡略化したプログラムを協力達に使っていただいた.実験は2回に分けられ,実験毎に用いる盛り上がり度曲線を変えて,こちらが指定した手順で[Sequence][Drums]部分の音素材を入れ替えていただき,実験が終わる度に質問に回答してもらった.同時に音素材の挿入回数や自動作曲で生成された曲に対する評価等のデータも収集した.1回目の実験にはA,B,C,D,E,F,Gの匿名の7人に協力していただいたところ,比較的音素材の挿入回数が少なく,似たような評価を出したC,Gと,その2人とは対称的に音素材の挿入回数が多く,評価が下がる傾向にあったDの3人が特徴的な結果を出した.C,D,Gの音素材の選び方の傾向を見比べてみたが,似たような評価出したC,Gには一貫した共通点は無く,対称的な結果になっているCとD,GとDで似たような傾向を示している部分が出てくるという結果になった.2回目の実験には1回目の実験に協力していただいたA,Bの匿名の2人に引き続き協力していただいた.1回目の実験と2回目の実験を通してA,Bの質問の回答を見比べてみた結果,盛り上がり度曲線を変えても本研究の提案手法を一定の効果を発揮すると推測することが出来るという結果になった.

profile-image

日本大学 文理学部 情報科学科 北原研究室。 「Technology Makes Music More Fun」を合言葉に、音楽をはじめとするエンターテインメントの高度化に資する技術の研究開発を行っています。

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

(ダウンロード不可)

関連スライド

各ページのテキスト
1.

盛り上がり度に基づく ループシーケンサにおけるユーザ適応の試み 2022/2/9 北原研究室(B4) 岩本祐輝

2.

研究の意義・背景 ・昔は手作業で楽譜を書いて作曲を行っていた. →時代が進んで,DTMやDAW等の作曲ツールの登場でPC上で作曲を行 うことが可能 ・依然として知識の無い人が作曲をしようとするのは難しい状況

3.

研究の意義・背景 ・作曲自体には興味があるが, 作曲の方法や定石を勉強する時間を確保するのが難しい → 作曲に手を出すのを躊躇する ・専門知識がなくても計算機が作曲してくれるシステムの開発 →ユーザの嗜好を十分に反映できるものになっているとは限らない ユーザの嗜好を学習して, ユーザが気に入りやすい曲を自動で作成する作曲システムの 実現を目指す

4.

関連研究 対話型GPを用いたクラシック音楽のための作曲支援システム 安藤 大地, Dahlstedt Palle, Nordahl Mats, 伊庭 斉志 2005年 4巻 2 号 p. 77ー86 ・計算機を利用した作曲法は2つに大きく分けられる 1.厳密に定義された手法を用いる「決定論的手法」 2.乱数などの不確定要素を用いる「確率論的手法」 →手直しをしなくても良い結果を得られ,予想外の結果も得られるという2つの作 曲法の利点を得られる「対話型進化論的計算」が存在する →従来の方法では長時間の作曲を行うには厳しくなる →全ての作曲過程でユーザーが積極的に関与できるシステムを考案

5.

関連アプリ MubertーMubert Inc ・様々なアーティストが,特定のジャンル・アクティビティに合わせて 歌の無い楽曲を作成 →それらをAIがノンストップで違和感なく繋げて曲を生成 ・当初は音楽を聴くだけだった →アップデートで評価機能追加、AIにユーザの嗜好にあった音楽を作る ように学習させることが可能

6.

研究内容 2019 安坂 文汰 「動画の盛り上がり度に基づいたループシーケンサ」のプログラム このプログラムを拡張する方針

7.

元のプログラム

9.

元のプログラム ・一定間隔毎に平均の盛り上がり度を計算 →4 パートのそれぞれに音素材が入るかどうかを決定 →事前に自動で計算して割り振られた各音素材の盛り上がり度と平均の盛り上がり度を比較 して,自動で音素材を割り振られる ・盛り上がり度は0~4の5つ存在する.

10.

研究を進めるための問題 ・元のプログラムでは,自動作曲を行うことが可能 →各パートの各盛り上がり度毎の音素材は等確率でランダムに選ばれる →音素材をランダムに選ぶのではユーザの好みに合わせるのは難しい B A C 1/3 1/3 1/3 音素材A,B,Cが それぞれ挿入される確率

11.

研究を進めるための問題 ・ユーザに手動で音素材を配置させる →よく選ばれる音素材がユーザの好みに合う音素材だと判断可能 →ユーザの好みに合うかどうかの情報の付与は,音素材が増えると困難 B A B 音素材Bを 多用する C A C 7/9 1/9 B B B B 1/9 音素材Bが 挿入される 確率が高くなる

12.

研究を進めるための問題 ・ユーザに手動で音素材を配置させる →よく選ばれる音素材がユーザの好みに合う音素材だと判断可能 →ユーザの好みに合うかどうかの情報の付与は,音素材が増えると困難 A B C D E F G H I J 音素材の数が増えると 全ての音素材を参照 するのは難しくなる

13.

提案手法の事前準備 ・ループシーケンサー内の数々の音素材をPythonのlibrosaで分析 →似たような傾向を持つ音素材を同じトピック(話題)を持っていると見做 して,グループ分けする トピック1 A D G トピック2 トピック3 C B E H J F I

14.

提案手法の事前準備 ・ユーザが任意の音素材を選択した時に,その音素材の属しているトピック内の音素材が自動作曲を する際に選ばれやすくなる. ・選ばれやすい音素材のグループが出てくることで,選ばれにくい音素材のグループが出てくる様に なる. ・これにより,自動作曲をした際にユーザーが好んで選ぶ音素材が選出されやすくなり,ユーザーの 好みに合う曲が生成されやすくなると考えられる. トピック1 トピック2 トピック3 トピック2に 属する音素材を 多用する C I F C トピック1 トピック2 トピック3 7/9 1/9 1/9 トピック2に 属する音素材が 挿入される 確率が高くなる

15.

提案手法 トピック数を4として,任意のパートの任意の盛り上がり度のグループ内での 各トピックに対する選好度をα=(α1,α2,α3,α4)として,初期値を一律1.0と する. ある音素材xが手動で配置された時,xのトピック比率を Z=(z_{x1},z_{x2},z_{x3},z_{x4})とすると,各トピックに対する選好度は 以下の式のように更新される. α’ = Z + α ある程度手動で音素材を配置して,選好度が初期値から変動した段階で自動 作曲をさせる.

16.

提案手法 あるグループ内の音素材がl個存在する時,任意の音素材xが選ばれる確率は,以下の式になる . 例を挙げると,あるグループ内での各トピックに対する選好度αの内,1つ目の値が大きけれ ば,トピック比率Zの1つ目の値が大きい音素材が選ばれやすくなるようになる. この提案手法を用いることで,自動作曲の際にユーザーの気に入りやすい音素材が選ばれる頻 度を上げて,ユーザーの好みに合う曲が生成されるようになると考えられる.

17.

プログラムの画面

19.

実験内容 ・自動作曲をする際に,一小節に同じ音素材を入れるように設定 ・今回の実験用に手動で音素材を配置した時は,一括で1小節内の4ブロッ クに選択した音素材を配置するように設定

20.

実験内容 ・実験は2回に分けて実施 →2つの盛り上がり度曲線をそれぞれの実験で使用 ・実験の協力者達には,指定した手順でプログラムを操作するように指示 1回目の実験の協力者:匿名のA,B,C,D,E,F,Gの7人 2回目の実験の協力者:1回目の実験の協力者の匿名のA,Bの2人 ・2回目の実験を行う時は,1回目の実験終了時のトピック選好度を用いる

21.

実験内容 手順1.1回目の実験用または2回目の実験用の盛り上がり度曲線が描かれているのを確認 してから自動作曲を実行 手順2.生成された曲を試聴して評価を行う 手順3.「Sequence」パートの音素材を協力者の気に入った音素材に置換 手順4.もう一度曲を試聴して評価を行う

22.

実験内容 手順5.自動作曲を実行後,生成された曲を試聴して評価を行う 手順6.「Drums」パートの音素材を協力者の気に入った音素材に置換 手順7.もう一度曲を試聴して評価を行う 手順8.自動作曲を実行後,生成された曲を試聴して評価を行う 手順9.手順3〜手順8をもう一度実行する

23.

実験内容 ・1回目の実験と2回目の実験が終わる度に以下の2つに質問に回答する 1.実験序盤の自動作曲と実験終盤の自動作曲を比較した際に,ユーザが手動で選んだ音 素材と選んだものと同じ種類の音素材が選ばれる頻度が高くなったと感じましたか. 2.実験序盤の自動作曲と実験終盤の自動作曲を比較した際に,ユーザの好みに合う曲が 生成されやすくなったと感じましたか.

24.

実験内容 ・それぞれの質問に対して1〜5の5段階で評価 ・1に近いほど感じなかった,5に近いほど感じたことを意味する ・また,そのように回答した理由も併せて回答してもらった.

25.

実験結果 ・協力者全員が,自分の選んだ音素材と同じ種類の音素材が選ばれる頻度が高くなった と感じた. ・好みの曲が作られる頻度が高くなったと感じた人と感じなかった人で半分に別れた.

26.

実験結果 ・2つ目の質問で2と3の評価をした人の回答理由 「好きな音が入ったものもあったが,あまり好みではない音も同時に入ってしまっ た」 「自分が操作していた[Sequence]と[Drums]は好みに寄って来たが,それに 伴って[Synth]と[Bass]が好みに寄って来るとは感じなかった 「選んだ音素材がパートごとに良く感じても、全体として聞いたときに合わない ことがあったため」

27.

実験結果 ・最初に低い評価を出した人は最後に高い評価を出している ・挿入回数が一番多いDが評価が2つ下がっている

28.

実験結果 C,D,Gに着目して個人毎のトピック選好度の遷移をグラフにしたものを 載せる.

29.

実験結果 似たような評価をし たC,Gのトピック選好 度を見てみた所,一 貫した共通点は見受 けられなかった.

30.

実験結果 似たような評価をし たC,Gのトピック選好 度を見てみた所,一 貫した共通点は見受 けられなかった.

31.

実験結果 C,Gとは対称的なDを 比べてみた所,Cと D,GとDで似たよう な傾向を示す部分が あった.

32.

実験結果 ・似たような評価をしたC,Gでも音素材の選び方は異なっていたことが分 かった. ・対称的な評価をしていたC,GとD間でも一部音素材の選び方が同じな部分 があることが分かった.

33.

実験結果 ・2回目の実験でも2人ともユーザの好みに合う曲が生成される頻度が高く なったと感じたと回答した.

34.

考察とまとめ ● 好みに合う曲が生成される頻度が高くなったと感じなかった. →今回の実験で「Synth」「Bass」部分に触れなかったのが原因? ● トピック選好度が初期値の時に生成された曲がユーザの好みに合わなかった →今回の提案手法が活躍するかもしれない. ● 違う盛り上がり度曲線を用いる →今回の提案手法は一定の効果を発揮する.

35.

今後の展望 今回行った実験は,音素材の一括配置や「Sequence」「Drums」パートのみの音素材を 入れ替えるように簡略化したものなので,音素材を一つ一つ配置したり「Synth」 「Bass」パートの音素材も入れ替えた時どうなるかを調べたい. データを収集する方法の精度が悪かったので,もっと色々なデータを収集できるように改 良する. 本システムが,専門知識の無い人でも簡単に好きな曲を作れるようになる画期的な作曲シ ステムを実現するための一助になることを期待したい.

37.

提案手法の事前準備 Pythonのlibrosaというライブラリを用いて,ループシーケンサー内の音素 材を分析してメルスペクトログラムという特徴量を得る. 行列の形を取り,行が周波数,列が時間軸,値はパワーを表す. 音素材は4つのパート・5つの盛り上がり度の合計20グループに分けられて いる.あるグループ内に存在する全ての音素材のメルスペクトログラムの行列 を,行数を増やす形で連結させた後に転置した行列を得る.

38.

提案手法の事前準備 その行列に対してクラスタ数を8としてK-平均法を用いてクラスタリング を行い分類結果が格納された配列を得る. 得た配列を等分割することで,そのグループ内の各音素材の各時間軸毎の 特徴量がどのクラスタに属しているかの情報を得ることが出来る.どのクラ スタに何個属しているかを数え上げたものをデータとして扱う.

39.

提案手法の事前準備 トピックモデルという,データの集合にトピックが存在して,1つのデータが複 数のトピックを持っていると仮定して,そのデータがそれぞれのトピックの中から あるトピックに属している確率を求めて文書データを解析する手法を用いる. 本研究では,その手法の一つのLDA(LatentDirichlet Allocation) に対して先程 のデータを用いて分析をする.今回は4つのトピックで分類を行った.