日本大学文理学部公開講座「音楽で理解する情報科学のいろは」

457 Views

September 28, 24

#情報科学 #人工知能 #機械学習 #音楽 #非決定性オートマトン

スライド概要

2016年に日本大学文理学部の公開講座で使用したスライドです。

Kitahara Lab

@kthrlab

スライド一覧

日本大学文理学部情報科学科北原研究室。「Technology Makes Music More Fun」を合言葉に、音楽をはじめとするエンターテインメントの高度化に資する技術の研究開発を行っています。

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

音楽を題材に情報科学を研究する

Kitahara Lab 11.9K

卒論発表

Kitahara Lab 3.2K

Attentionメカニズムを取り入れた音楽生成モデルの性能評価に関する研究

transformer

Kitahara Lab 2.5K

自由度が徐々に上がる作曲ソフトウェア

Kitahara Lab 2.5K

ハモリパート練習支援システムのための音響信号を対象とした副旋律生成の検討

Kitahara Lab 2.2K

ストリートダンスにおけるアクセントの踊り分けの分析

Kitahara Lab 1.7K

各ページのテキスト

平成28年度日本大学文理学部公開講座音楽で理解する情報科学のいろは日本大学文理学部情報科学科准教授北原鉄朗 kitahara@chs.nihon-u.ac.jp http://www.kthrlab.jp/ Twitter: @tetsurokitahara

http://www.kthrlab.jp/

自己紹介 ● 1979年生まれ。37歳 ● 札幌→柏→京都→大阪→東京 ● 趣味 – 音楽（昔は楽器演奏や作曲、バンド活動など） ● 情報科学に興味を持ったきっかけ – 中学ぐらいのときにコンピュータに触った – プログラミングで機械を自由自在に操る楽しさ

1. はじめに

「情報科学」とは? ※ きちんとした定義はない情報の科学? 「科学」って? 「情報」って? 便宜上、「価値のあるデータ」とする数値、文字、画像、音などで表される似てそうな言葉情報処理情報を収集・蓄積・変換・伝達・提示・検索する等 IT（情報技術）情報処理を実現する技術コンピュータ

「ビッグデータ」って聞いたことある? ※ きちんとした定義はない ● 従来の方法では扱いきれないほどの量のデータ? ● 人間が生産・消費できる範囲をはるかに超えた量のデータ? ● 新たな価値を生み出すほどの量のデータ? 【出典】 http://www.hitachi.co.jp/Prod/comp/soft1/spcon/itbnavi_1205/

http://www.hitachi.co.jp/Prod/comp/soft1/spcon/itbnavi_1205/

「人工知能」って聞いたことある? ※ きちんとした定義はない人間のような知能を計算機上で実現しようという試み【出典】 Wikipedia

【出典】松尾豊「人工知能は人間を超えるか」 KADOKAWA

「ニューラルネットワーク」って聞いたことある? 人間の神経回路網にヒントを得て考案された機械学習技術【出典】甘利俊一「脳・心・人工知能」ブルーバックス、講談社

人工知能は、実は大したことない!? 私見「人間の能力を超える画像認識能力を持つ人工知能を実現」などと言われるが、基本的には人間が与えたデータに従って計算式を調整しているだけにすぎない例題人の後ろ姿の画像が男か女かを識別したい「男」「女」

10.

例題人の後ろ姿の画像が与えられたときに、それが男か女かを識別したい身長と髪の長さを入力すると、男なら「1」、女なら「0」が出力されるようにする 168 155 1 0 8 23 y （髪の長さ）たくさんデータを集めてみよう女女女女男男こんな直線が引けそう男 x （身長）

11.

y （髪の長さ）たとえば、女女 2 y = x – 100 3 女女男男としよう男 x （身長）この式はどう作るの? このとき 2 y < x – 100 なら z = 1 を出力 3 2 y > x – 100 なら z = 0 を出力 3 2 x – 100 あらかじめ用意したデータで識別誤りが y = 3 なくなるように、ココの部分を調整する

12.

問題点1 直線では、うまく識別できないかもしれない y （髪の長さ）女女女女男女女男男男男男 x （身長）問題点2 もっと多彩な手がかりが必要顔の骨格服の特徴体つきどうやって数値化するの? 各画素のそ色ののま濃まさ入を力 … ここに手がかりとなる値が自動的に得られるかも（実際はもっと複雑）

13.

人工知能の現状 ● ちまたで「人工知能」と呼ばれているものは、ほとんどが「機械学習」のこと ● 機械学習は、与えられた入力に対して決まった値を出力するように計算式を調整するにすぎない ● 最近能力が急にあがったのは、識別の手がかりを計算によって自動的に見つけられるようになったから ● それが可能になったのは、データの増加と計算機の計算能力の向上による

14.

計算機がスゴイことを行うには次の2つを人間が教える（プログラミングする）必要がある表現計算計算機は数値しか扱えない。計算機は計算しかできない。文字も画像も音も、すべて数値顔の認識も会話も作曲も、すべてとして表現しなければならない。計算として教えなければならない。本講座では、これを「音楽」を題材に説明

15.

2. 音楽と情報科学

16.

そもそも「音楽」って何? 音の組み合わせで感動を生み出す芸術表現「音」とはスピーカーが空気を押す空気の振動押された空気が隣の空気を押すこれが連鎖的に繰り返される鼓膜が押され人間が音を知覚する押した側は押した反動で戻ってくるこのような、ものが行ったり来たりする運動が、 y 遠くまで伝わる現象を波動（または波）というスピーカーが空気をどのぐらい押すのかを波形として表す t

17.

音の組み合わせにはルールがあるそのルールの土台となっているのが「離散性」音の高さとびとびの値しか取らないこと 262Hz 277Hz 293Hz 311Hz 329Hz ・・・・・・ド音の長さド# レレ# ミテンポ=120の場合 0.5秒 0.25秒 0.125秒 1秒 2秒

18.

なぜとびとびの値しか使わないのか（音の高さの場合） 1つに聞こえる音も、実はいくつもの音が重なってできている振幅 440Hz（ラ）の音基本周波数同時に鳴らすと・・・周波数振幅 660Hz（ミ）の音振幅紫の部分が重なる基本周波数周波数周波数

19.

もしも、片方の周波数がずれていたら・・・振幅 440Hz（ラ）の音基本周波数同時に鳴らすと・・・うなりの原因になる周波数振幅振幅 620Hz（ミ♭）の音基本周波数周波数周波数基本周波数が 2:3 とか 3:4 だと「うなり」が起きない

20.

周波数を選んでみよう 2つの音の周波数比が次のようになるように周波数を選ぼうド:ソ=2:3 ソ:レ=2:3 ファ : ド = 2 : 3 ド:ミ=4:5 ソ:シ=4:5 ファ : ラ = 4 : 5 × 3/2 × 5/4 × 5/4 ド 264Hz × 3/2 × 5/4 レミファソラシドレ 330Hz 396Hz 495Hz 594Hz 440Hz 297Hz 352Hz 528Hz ÷2 ×2 × 2/3 ※ 実際の周波数は少し異なる場合がある

21.

ドレミができたら和音を作ろうド～シのそれぞれに2つ上の音を乗っけて、さらにその2つ上の音を乗っけると和音ができる音楽用語では「3度上」というソラシドレミファミファソラシドレドレファソラシ主和音ミ下属和音属和音 ※ハ長調の場合簡単のため、以下ではこの3つの和音のみ考える

22.

和音の遷移には傾向がある主和音（ドミソ）解決感を与える曲の最後によく出てくる下属和音（ファラド）属和音（ソシレ）属和音に移りやすい主和音に移りやすい ※括弧内はハ長調の場合ファラドドミソオートマトンソシレ

23.

オートマトン入力に応じて機械の状態変化を表したもの例音楽プレイヤーの場合再生ボタン停止中一時停止ボタン再生中停止ボタン停止ボタン一時停止ボタン一時停止ボタン再生ボタン一時停止中

24.

例 100円ジュースの自動販売機の場合 10円投入 0円投入中 10円投入 10円投入中 20円投入中 10円投入 … 10円投入 50円投入ジュース購入 50円投入中 100円投入 50円投入 80円投入中 90円投入中 100円投入中 10円投入 10円投入 10円 … 投入 10円投入

25.

和音の遷移は一通りではないどの和音からどの和音にも飛べるが、飛ぶ確率が異なる 0.2 非決定性オートマトンファラド 0.4 ドミソ 0.2 ※ 確率の値は適当です 0.6 0.2 0.4 0.8 ソシレ 0.2

26.

こうすると何ができる? その1 与えられたコード進行がもっともらしいかがわかるドミソファラドソシレドミソ 0.4 × 0.6 × 0.8 もっともらしさ＝0.192 ドミソソシレファラドドミソ 0.4 不可 0.2 この進行は不可ドミソドミソドミソドミソ 0.2 × 0.2 × 0.2 もっともらしさ＝0.008

27.

こうすると何ができる? その2 確率が最も高くなるようにコード進行を決めようドミソドミソここに何を入れる?

28.

見方を変えてみよう ● 和音を場所（都市、駅など）だと思おう ● 遷移確率を移動コストだと思おう – 0% → 100円 80円 – 10% → 90円金沢 – 20% → 80円 60円 …… – 100% → 0円東京 0.2 ファラド 0.4 0.6 0.20.4 80円 40円８０円 60円大阪 20円 80円ソシレ東京から出発して8回目に最小コストで 0.8 東京に戻る経路を考えるのと同じ 0.2 0.2 ドミソ

29.

1 東京 2 80円 60円 60円 3 80円東京 60円 80円 80 円金沢 20円大阪結果東京ここまでの最小コスト 80円（大阪経由） 8 東京 140円金沢（東京または金沢経由） 60円 40円 100円 80円大阪（金沢経由）東京金沢大阪東京大阪東京大阪東京ドミソファラドソシレドミソソシレドミソソシレドミソ

30.

同じ考え方でメロディも作れる 0.23 0.11 ドレミ 0.07 0.02 0.01 0.03 0.08 ファソラシド 0.08 ※ すべてに遷移確率が付与されている（「ド」から以外も）ドド確率が最大になるように（移動コストが最小になるように）空欄をうめていく

31.

ここまでのまとめ ● 機械の状態変化を表したものを「オートマトン」という ● メロディの音の変化や和音の変化の仕方は、オートマトンとして表すことができる ● 音や和音の遷移のしやすさ（しにくさ）を移動コストと考えれば、メロディや和音進行を作る処理は、カーナビの経路探索や乗換検索と同じこと

32.

3. この考え方の応用事例

33.

【事例1】ソプラノパートにアルト・テノール・バスを付ける PLAY C F Em G C C G7 C F C Am C G C

34.

基本的な考え方ソプラノソラソシアルトテノール同時に鳴らして変じゃないかバス音の遷移が適切か

35.

基本的な考え方 ● さきほどの考え方に「縦の関係」が加わる ● 「音Xの次に音Yに移って変じゃないか」、「音Xと音Yを同時に慣らして変じゃないか」を確率として表して経路探索問題として解く ● 確率は、既存の楽曲約250曲から学習する