音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sound media signal processing and its applications

14.4K Views

February 08, 16

#nmf #source separation #bss #ica #独立成分分析 #音響メディア信号処理 #北村大地 #金融への応用 #数学的な準備

スライド概要

2016年2月8日一橋大学大学院国際企業戦略研究科
ファカルティセミナー招待講演北村大地
北村大地→http://d-kitamura.sakura.ne.jp/index.html

Daichi Kitamura

@d-kitamura

スライド一覧

http://d-kitamura.net/links_en.html

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

音源分離技術の基礎と応用～音源分離ﾁｮｯﾄﾜｶﾙになるための手引き～

source separation nmf music bss ica ilrma direction of arrivals deep neural network audio signal processing deep learning

Daichi Kitamura 189.3K

音源分離における音響モデリング（Acoustic modeling in audio source separation）

nmf source separation music bss ica ilrma optimization audio signal processing model

Daichi Kitamura 63.5K

Windowsマシン上でVisual Studio Codeとpipenvを使ってPythonの仮想実行環境を構築する方法（Jupyter notebookも）

python install jupyter visual studio code pipenv

Daichi Kitamura 46.4K

独立低ランク行列分析に基づく音源分離とその発展（Audio source separation based on independent low-rank matrix analysis and its extensions）

nmf source separation music bss ica ilrma idlma deep neural network spectrogram consistency

Daichi Kitamura 43.5K

独立低ランク行列分析に基づくブラインド音源分離（Blind source separation based on independent low-rank matrix analysis）

nmf source separation music bss ica ilrma

Daichi Kitamura 16K

独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source separation and independent low-rank matrix analysis

nmf source separation bss ica ilrma

Daichi Kitamura 4.7K

各ページのテキスト

一橋大学大学院国際企業戦略研究科 2016年2月8日音響メディア信号処理における独立成分分析の発展と応用 History of independent component analysis for sound media signal processing and its applications 総合研究大学院大学情報学専攻複合科学研究科博士後期課程2年北村大地

講演概要 • 自己紹介 • 独立成分分析による信号源分離 – 統計的独立性とは？（数学的な準備） • 確率密度関数，高次統計量，無相関と独立，中心極限定理，カートシス等 – 独立成分分析とそのアルゴリズム • ICAの歴史 • ICAの図解 • 独立性最大化による推定方法できるだけ数式を使わずに！無理でした！ • 独立成分分析の金融への応用 • まとめ 2

講演概要 • 自己紹介 • 独立成分分析による信号源分離 – 統計的独立性とは？（数学的な準備） • 確率密度関数，高次統計量，無相関と独立，中心極限定理，カートシス等 – 独立成分分析とそのアルゴリズム • ICAの歴史 • ICAの図解 • 独立性最大化による推定方法 • 独立成分分析の金融への応用 • まとめ 3

自己紹介 • 名前: 北村大地（Daichi Kitamura） • 年齢: 25（1990年3月11日生まれ），博士後期課程2年 • 経歴: 香川高等専門学校（旧高松工業高等専門学校）（16 ~ 22）電気情報工学科→専攻科（創造工学専攻）, 学士（工学）奈良先端科学技術大学院大学（22 ~ 24）情報科学研究科, 修士（工学）総合研究大学院大学（24 ~ 27）複合科学研究科（情報学専攻），博士（情報学）取得を目指す • 趣味: 旅行，サバゲー，猫，ギター，・・・ • Twitter: – @UDN48_udon ギリシャ，サントリーニ島サバゲー 4

自己紹介日本香川うどん！ Kagawa 5

自己紹介 NAIST 日本奈良大仏 Nara 6

自己紹介日本国立情報学研究所 14F 学生室 Tokyo 7

自己紹介 • これまでにやってきた研究 – エレクトリックギターの弦振動解析（香川高専時代，原囿教授） – 教師有り音楽信号分離（NAIST時代，鹿野教授，猿渡准教授） – 多チャネルブラインド音源分離（現在，小野准教授）音源信号混合系観測信号分離信号分離系 • 非負値行列因子分解（nonnegative matrix factorization: NMF） 8

音源分離とは？ • 混合された音響信号から混合前の音響信号を推定特定音源の分離・抽出 – 話者と雑音の分離，補聴器への応用，楽器の演奏教育，リミックス，音場再現の制御技術 etc. • 今なお世界中で研究されている – 日本は昔から音響分野の研究が盛んで，現在も世界一かそれに近い研究レベル • デモンストレーション 9

10.

独立成分分析 • Independent component analysis: ICA – 信号源（source）が混合された多次元観測信号に対して，統計的独立性を用いて混合前の信号源を推定 – 潜在的かつ独立な原因・特徴を見つける • 信号源分離，特徴量抽出信号源観測信号混合系推定信号分離系 ICA • 本講演では – ICAに必要な数学的基礎知識 – 簡単な動作原理の解説 – 金融への応用の可能性等を取り扱います 10

11.

講演概要 • 自己紹介 • 独立成分分析による信号源分離 – 統計的独立性とは？（数学的な準備） • 確率密度関数，高次統計量，無相関と独立，中心極限定理，カートシス等 – 独立成分分析とそのアルゴリズム • ICAの歴史 • ICAの図解 • 独立性最大化による推定方法 • 独立成分分析の金融への応用 • まとめ 11

12.

ICAの参考図書 • 音響信号処理に限らずICAの基礎から応用までをわかりやすく解説している 12

13.

数学的な準備 • 確率とは？ – 物事の起こりやすさを数値化したもの • あくまでもモデルであり真の確率はわからない確率 • （理想的な）サイコロの確率確率密度関数 0.20 0.15 0.10 0.05 0.00 0 1 2 3 4 5 サイコロの目 6 7 確率変数（サイコロの目）の確率を分布関数としてとらえたもの確率変数に関して積分すると1 • いろいろな確率密度関数ガウス分布（正規分布） 0.5 ラプラス分布 0.6 0.5 0.4 0.3 0.2 0.1 0 0.4 0.3 0.2 0.1 0 -5 -4 -3 -2 -1 0 1 2 3 4 5 一様分布 0.2 0.15 0.1 0.05 0 -5 -4 -3 -2 -1 0 1 2 3 4 5 -5 -4 -3 -2 -1 0 1 2 3 4 5 13

14.

数学的な準備 • 確率密度関数はどのように定義されるか – モーメント（積率） • n次モーメント – 1~N次までのモーメントがあればどんな確率密度関数も表現可 • 逆に言うと，1~N次までのモーメントで確率密度関数が一意に決まる – ただしNが無限な確率密度関数もある • ガウス分布の場合 – 1次モーメントは分布の平均に一致，2次モーメントは分散に対応，3次モーメント以降は定数 → ガウス分布は平均と分散しかパラメータがない • 一般的な分布の場合はもっと多くの統計量を持つ（Nが無限） – 平均（1次），分散（2次），歪度（3次），尖度（4次），・・・ 0.8 0.6 0.4 0.2 0 平均2，分散2，歪度0.7，ここから先は高次統計量と呼ばれる尖度0.5の連続ポアソン分布簡単に捉えると・・・歪度（skewness）は左右の非対称度尖度（kurtosis）は分布の裾の長さを表すガウス分布は歪度0で尖度3（固定） 0 1 2 3 4 5 6 7 8 9 10 14

15.

数学的な準備 • 「統計的に独立」とは？ – 2つの確率変数とが独立なとき • 結合分布は二つの確率変数に対する確率 – 例えばXとYのサイコロの出目が , – XとYのサイコロが「統計的に独立」なら • が成立である確率はとが独立でない場合はどうなるか – 例えば「Xのサイコロが5が出るときは必ずYのサイコロは1が出る」という場合 – XとYは統計的に独立でないので – 直観的には「一方の確率変数の値（結果）からもう一方の確率変数の値が全く説明できないとき，両者は独立」 • 独立でない場合，「Xのサイコロが5だからYのサイコロは絶対に1になる！」ということがいえたりする • 普通のサイコロ2個ならそんなことはありえない 15

16.

数学的な準備 • 「統計的に独立」とは？無相関 – 無相関（相関がないこと）と独立は異なる独立 • 独立は無相関よりも強い仮定 • 独立ならば必ず無相関だが，無相関だからといって独立とは限らない – 「相関がある」とは？ • との間に相関がある場合 – 「が大きい値の時はも大きい値を取りがち」→「正の相関がある」 1 -1 1 1 -1 相関あり（もちろん独立でない） -1 灰色部分は値を持ち，白部分は確率0 1 1 -1 無相関（だが独立でない） -1 1 -1 独立（もちろん無相関） 16

17.

数学的な準備 • 「統計的に独立」とは？ – 「相関あり」か「無相関」かは2次の統計量に対応 • 分散共分散行列が単位行列であれば無相関 – 「非独立」か「独立」かは2次以上の高次統計量に対応 • 高次統計量に対する相関が0であれば独立 • したがって独立なら絶対に無相関（2次の統計量も含むので）無相関なとき 1次統計量（平均） 2次統計量（共分散）が相関無し ∞ 統計量の次数統計量の次数 2次統計量（分散） ∞ 3次統計量 ∞ … ∞ 独立なとき 2次以上の統計量が全て相関無し 2次統計量（分散） 1次統計量（平均） 17

18.

数学的な準備 • 統計的信号処理とは？（ICAを含む） – すべての信号は何らかの確率密度関数から生成されている（と考える）神のみぞ知る我々が観測できる信号確率過程と呼ぶ – 確率密度関数はわからないが，観測したサンプルからモーメントを計算することはできる • 確率密度関数がガウス分布だと仮定すれば，モーメントから平均，分散が計算できて分布が決まる→ガウス分布モデル実際は観測データから近似可能ガウス分布と仮定 – 本当にガウス分布に従う例（ガウス分布モデルが最適な例） • 測定誤差，白色雑音，学校の試験の点数（本当か？） • 自然の中に多く存在（ガウス分布至上主義，ガウス様すごい） – 因子分析（factor analysis）もガウスモデル 18

19.

数学的な準備 • ガウス分布に従わない例（実はこちらの方が多い？） – サイコロ（離散一様分布） • 多少のずれはあってもほぼ一様分布 – 為替変動はどうか？（円-米ドル）ほぼガウス歪度0.5 尖度7.2 19

20.

数学的な準備 • ガウス分布に従わない例（実はこちらの方が多い？） – 人間の音声はどうか？ガウス分布よりも急峻で裾が長い →尖度が高い 20

21.

数学的な準備 • ガウス分布に従わない例（実はこちらの方が多い？） – 人間の音声や楽器音はどうか？ラプラス分布 0.6 0.5 0.4 0.3 0.2 0.1 0 -5 -4 -3 -2 -1 0 1 2 3 4 5 音声ほどではないが，やはりガウス分布よりも急峻で裾が長い →尖度が高い →ラプラス分布に近い？ 21

22.

数学的な準備 • ガウス分布に従わない例（実はこちらの方が多い？） – 人間の音声や楽器音はどうか？コーシー分布 1 0.8 0.6 0.4 0.2 0 -5 -4 -3 -2 -1 0 1 2 3 4 5 ガウス分布よりも急峻で裾が長い →尖度が高い →コーシー分布っぽい 22

23.

数学的な準備 • 特徴のある信号のモデルがガウス分布であることは稀 – では，神のみぞ知る確率密度関数デル化すればよいのか・・・に従う信号をどうやってモ実は「信号の分布はガウス分布ではない」という性質が極めて重要 • 中心極限定理（central limit theorem） – どんな確率密度関数に従う信号でも足し合わせていくとガウス分布になる • そんなばかな – 再びサイコロと音声信号を例にとって，中心極限定理を確認してみる 23

24.

数学的な準備 • サイコロ1の出目を，サイコロ2の出目をとする – いずれも集合{1, 2, 3, 4, 5, 6}の中から1つだけ値を取り，各値を取る確率は1/6とする – 各サイコロを100万回振った結果 – ではは？（2個のサイコロを振った時の出目の和） 24

25.

数学的な準備 • サイコロ1の出目を，サイコロ2の出目をとする – いずれも集合{1, 2, 3, 4, 5, 6}の中から1つだけ値を取り，各値を取る確率は1/6とする – 各サイコロを100万回振った結果 – ではは？（n個のサイコロを振った時の出目の和） 25

26.

数学的な準備 • サイコロ1の出目を，サイコロ2の出目をとする – いずれも集合{1, 2, 3, 4, 5, 6}の中から1つだけ値を取り，各値を取る確率は1/6とする – 各サイコロを100万回振った結果 26

27.

数学的な準備 • サイコロ1の出目を，サイコロ2の出目をとする – いずれも集合{1, 2, 3, 4, 5, 6}の中から1つだけ値を取り，各値を取る確率は1/6とする – 各サイコロを100万回振った結果 – ではガウス分布となる（中心極限定理） 27

28.

数学的な準備 • 番目の話者の信号を – 振幅値[-1, 1] を取る離散信号 – 時間の添え字はとする，約3.3秒 28

29.

数学的な準備 • 番目の話者の信号を – 振幅値[-1, 1] を取る離散信号 – 時間の添え字はとする，約3.3秒 29

30.

数学的な準備 • 番目の話者の信号を – 振幅値[-1, 1] を取る離散信号 – 時間の添え字はとする，約3.3秒 30

31.

数学的な準備 • 番目の話者の信号を – 振幅値[-1, 1] を取る離散信号 – 時間の添え字はとする，約3.3秒 31

32.

数学的な準備 • 番目の話者の信号を – 振幅値[-1, 1] を取る離散信号 – 時間の添え字はとする，約3.3秒見事なガウス歪度: 0.05 尖度: 3.36 32

33.

数学的な準備 • 中心極限定理（もう一度） – いかなる確率密度関数に従う信号も足し合わせていけばガウス分布に従う値になる • サイコロの例では全て一様分布に従う確率変数（サイコロの出目）を足し合わせたが，どんな分布でも良いし異なる分布に従う変数の和でも良い • 中心極限定理から導かれること – ガウス分布は「信号（要因等）が混ざっていくこと」の極限にある – どんな分布に従う信号でも，混ざった信号は必ずガウス分布に近づいていく – 混ざる数が増えれば増えるほどガウス分布になるガウス分布にどれくらい近いのかを示す量を使って混ざった信号から混ざる前の信号を推定できるかもしれない独立成分分析（ICA）の基本原理 33

34.

数学的な準備 • ガウス分布にどれくらい近いか（あるいは遠いか）の尺度 – 高次統計量（3次以降のモーメント） • ガウス分布は3次以降のモーメントが定数（歪度: 0，尖度: 3，・・・） – 音響信号のように零平均の信号を取り扱う場合，歪度は基本的に0なのであてにはならない分散＝平均値周りの2次モーメント – そこで尖度（カートシス）をつかう – 確率変数の平均を，分散をとすると，尖度（カートシス）は平均値周りの4次モーメント平均値周りの2次モーメントの2乗ただし，ガウス分布のカートシスが3ではなく0になるように定義する主義もあるので混同に注意（本講演では上記の定義でガウス分布のカートシスを3とします） 34

35.

数学的な準備 • ガウス分布にどれくらい近いか（あるいは遠いか）の尺度 – 調べたい信号のカートシスが3（ガウス分布のカートシス）に近いかどうかで判断 – 音声信号のように零平均の信号（歪度＝0）を扱う場合，非ガウスナ分布はカートシスが3ではないと考えてよい • 3よりも大きいか小さい – 非ガウスな分布に従う信号を足し合わせていくとガウス分布に Kurtosis ∞ スーパーガウシアン（ガウス分布よりも裾が広い分布）ラプラス分布，コーシー分布等 3 0 ガウス分布サブガウシアン（ガウス分布よりも裾が狭い分布）一様分布等 35

36.

数学的な準備 • なぜカートシスなのか？ – 高次統計量（3次以降のモーメント）全てを使えばよいのでは？ • 確かにその通りだが実用的な問題がある – 高次の統計量（5次，6次，7次，・・・）は値として非常に不安定 • 真の確率密度関数の高次統計量を精度よく推定するには膨大なサンプルが必要になる – カートシスも4次の統計量なので実はだいぶ不安定 • 平均0分散1の標準ガウス分布から生成した1000万個の乱数値に対して， 1個だけ200という値を混ぜた場合，カートシスは3から大きく外れて161.8という値になる • 高次統計量は外れ値に非常に敏感 • 安定した評価のためには非常に多くのサンプルがある方が望ましい – とはいえ，非ガウス性を測る最も簡単な尺度 – ICAにおける重要な値 36

37.

講演概要 • 自己紹介 • 独立成分分析による信号源分離 – 統計的独立性とは？（数学的な準備） • 確率密度関数，高次統計量，無相関と独立，中心極限定理，カートシス等 – 独立成分分析とそのアルゴリズム • ICAの歴史 • ICAの図解 • 独立性最大化による推定方法 • 独立成分分析の金融への応用 • まとめ 37

38.

独立成分分析とそのアルゴリズム • ICAの歴史 – 1980年代: フランスの研究者らが中心 • 非線形無相関化（PCAの非線形版？），高次統計量（やはりPCAの拡張） – 1990年代中盤から世界的に広がる • 脳波解析，電波干渉除去，音源分離などの分野から発展 • 理論的枠組みの充実，効率的な最適化アルゴリズムなどが次々提案 • 国際会議ICA: 1999年から1年半毎に開催（現在はLVA/ICAという名前に） – 2000年代中盤には理論として成熟 • 音源分離においては十分な性能を安定して発揮できる段階まできている • 国際的な音源分離キャンペーン（SiSEC，サイセック）等も登場 – 今後の発展の可能性 • 非負値行列因子分解との関連の解明及び融合（私の博士研究内容） • より高残響な環境での音源分離 • 機械学習手法にインスパイアされた拡張手法の開発等 38

39.

独立成分分析とそのアルゴリズム • ICAとはそもそもなんなのか – 3つの仮定を用いて混合前の複数の独立成分（source）を推定 • 1. 独立成分は互いに統計的に「独立」である • 2. 独立成分は非ガウスな分布から生成されている • 3. 未知の混合行列は「正方行列」である 2. 非ガウス分布独立成分 3. 正方行列混合行列混合信号 1. 互いに独立 2. 非ガウス分布この混合過程は連立方程式でかける当然行列の掛け算でもかける 39

40.

独立成分分析とそのアルゴリズム • ICAとはそもそもなんなのか – 3つの仮定を用いて混合前の複数の独立成分（source）を推定 • 1. 独立成分は互いに統計的に「独立」である – とはいえ実用上は「完全に独立」でなくてもよく動くことが多い » 例えばある程度相関のある2つの成分（信号）の混合でも意外とよく分離できる • 2. 独立成分は非ガウスな分布から生成されている – 我々が興味のある特徴的な信号（音声，脳波，電波，株価変動？）は「完全なガウス分布」に従うことは恐らくない • 3. 未知の混合行列は「正方行列」である – これだけは大きな問題 – 推定したい成分（信号，要因）の数だけ観測が必要 » 例えば4人の話者の混合を分けたい場合，4つのマイクで録音した観測信号が必要になる » 例えば為替を変動させた要因が3つあるのであれば，3つの為替データ（円米ドル，円ユーロ，米ドルユーロ等）の観測が必要になる » すなわち推定したい成分の数はあらかじめわかっていることが前提 40

41.

独立成分分析とそのアルゴリズム • ICAとはそもそもなんなのか – ICAで推定できないこと（曖昧性，不確定性） • 1. 独立成分の分散（パワー）は決定できない • 2. 独立成分の順序は決定できない独立成分混合信号推定信号分離系 ICA 独立成分混合信号推定信号分離系 ICA 41

42.

独立成分分析とそのアルゴリズム • ICAの動作原理を図解（直観的な理解のため） 42

43.

独立成分分析とそのアルゴリズム • ICAの動作原理を図解（直観的な理解のため） 43

44.

独立成分分析とそのアルゴリズム • ICAの動作原理を図解（直観的な理解のため） – 混ざる前の2つのソース信号を2軸の散布図にしてみる – 混合前は互いに独立なソース信号なので相関は無く，平面上に円状に分布（すでに若干楕円なのは音量（分散）が同じでないため） 44

45.

独立成分分析とそのアルゴリズム • ICAの動作原理を図解（直観的な理解のため） – 混ざった後の2つの混合信号を2軸の散布図にしてみる – 混合後は独立性が失われ，信号間に相関が生じるので，平面上に楕円状に分布 45

46.

独立成分分析とそのアルゴリズム • ICAの動作原理を図解（直観的な理解のため） – 1. 2つの観測信号（混合信号）を白色化する • Whitening，sphering等と呼ばれ分散共分散を単位行列化する変換 • 主成分分析（PCA）＋分散の正規化で実現可能 – 2. 2つの白色化した信号のカートシスが最大（非ガウス性が最大）となるような回転行列を探す • ICAの最適化アルゴリズムによって実現可能混合行列混合前のソース信号白色化行列回転行列混合後の観測信号白色化後の観測信号回転後の分離信号分離行列 46

47.

独立成分分析とそのアルゴリズム • ICAの動作原理を図解（直観的な理解のため） – 1. 2つの観測信号（混合信号）を白色化する • 白色化は観測信号の分散共分散行列が単位行列となるように変換する • 2つの観測信号間の自己相関値と相互相関値は • の分散共分散行列は但し，第二成分 0.0009 0.0095 主成分の固有値と固有ベクトルは左図 47

48.

独立成分分析とそのアルゴリズム • ICAの動作原理を図解（直観的な理解のため） – 1. 2つの観測信号（混合信号）を白色化する • 白色化は観測信号の分散共分散行列が単位行列となるように変換する • 白色化の変換行列をとすると，白色化後の信号は • の分散共分散行列が単位行列になるようなを求める – の固有値分解としてとすると白色化行列混合後の観測信号白色化後の観測信号無相関かつ分散が両信号とも1 48

49.

独立成分分析とそのアルゴリズム • ICAの動作原理を図解（直観的な理解のため） – 2. 2つの白色化した信号のカートシスが最大（非ガウス性が最大）となるような回転行列を探す • 白色化された観測信号が互いに独立になるように回転する • 2次元における回転行列は但しは反時計回りを正とする • 独立になるように回転＝ばってんが十字になる角度で回転両信号のカートシス回転後の分離信号が最大となる角度, すなわち両信号が最も非ガウスになる角度を見つける！ – そのような角度をどうやって求めるのか？白色化後の観測信号 49

50.

独立成分分析とそのアルゴリズム • ICAの動作原理を図解（直観的な理解のため） – 2. 2つの白色化した信号のカートシスが最大（非ガウス性が最大）となるような回転行列を探す • 白色化された観測信号が互いに独立になるように回転する • 1度回転毎に両信号のカートシスをプロットすると（のカートシス）＋（のカートシス）白色化後の観測信号 90° 180° 0° のカートシスのカートシス回転変換 270° 338° 50

51.

独立成分分析とそのアルゴリズム • ICAの動作原理を図解（直観的な理解のため） – 2. 2つの白色化した信号のカートシスが最大（非ガウス性が最大）となるような回転行列を探す • 白色化された観測信号が互いに独立になるように回転する • 回転行列をとすると白色化後の観測信号回転後の分離信号但し，分離信号とスケールは適当に決めている 51

52.

53.

独立成分分析とそのアルゴリズム • 先の例は事前に白色化（無相関化＋分散の正規化）を施し，ICAを回転行列を求める問題に落とし込んでいる – 元々推定したかったのは混合された観測信号を分離する分離行列と分離信号 – 「独立化」という変換を「白色化＋座標回転」という問題に落とし込み，求めるべき変換行列（分離行列）を回転行列に限定 • 白色化はデータのみに依存するため，何の基準も無しにできる • 推定パラメータを削減（の4つあったパラメータがのみ1つに） • 但し回転行列になるのは2次元の場合を満たす行列 • 一般的な次元の場合はユニタリ行列に限定されることに対応している – 回転角を求める最適化を解くこともできるが，問題が限定的なので本講演では割愛 53

54.

独立成分分析とそのアルゴリズム • より一般的なICAの解法として，分離信号間の独立性を最大化するを直接勾配法で求める最適化法を紹介 • 解くべき問題は「分離信号間の独立性の最大化」 – 現在の状態と独立になった状態の距離を近づける分離信号の結合分布近づける独立信号の結合分布 – 確率分布間の距離＝カルバック・ライブラ（KL）ダイバージェンス – 上記の2状態の距離を最小化する分離行列を推定する 54

55.

独立成分分析とそのアルゴリズム • 独立性をKLダイバージェンスで測る目的関数は下記のように展開できる結合エントロピー周辺エントロピーの和結合エントロピー結合エントロピーの最大化 →分離信号間の関連をなくす →白色化（無相関化）に対応周辺エントロピー周辺エントロピーの和を最大化 →個々の分離信号を非ガウス化 →カートシスの和の最大化に対応 55

56.

独立成分分析とそのアルゴリズム • 目的関数を最小化する分離行列 – 目的関数をは勾配法で推定で偏微分して勾配を求め少しずつ下っていく勾配: 勾配を下る更新: 勾配法による最適化のイメージ目的関数非線形関数の意味混合前の独立成分の分布を確率変数に関して微分した関数神のみぞ知る分布であるし，混合前の信号は通常手に入らないので決めようがないしかし実用上は「カートシスがガウス分布より高いか低いか」で決めて良く，ICAは十分動く音声のようにカートシスの高い信号には Sigmoid関数や双曲線正接関数が用いられる 56

57.

講演概要 • 自己紹介 • 独立成分分析による信号源分離 – 統計的独立性とは？（数学的な準備） • 確率密度関数，高次統計量，無相関と独立，中心極限定理，カートシス等 – 独立成分分析とそのアルゴリズム • ICAの歴史 • ICAの図解 • 独立性最大化による推定方法 • 独立成分分析の金融への応用 • まとめ 57

58.

独立成分分析の金融への応用 • ICAは「統計的独立性」を基に潜在的な特徴を見つけている • 金融のデータにICAを応用することは魅力的である – 共通の隠れた要因を持つと思われるような，並列に進行する金融の時系列データが観測信号として使える • 例えば為替レートや同業界の株の売買価格など – ICAでそれらがどのように駆動しているか，その機構が見えるかもしれない？ A社の株価 B社の株価 C社の株価その株価変動に潜む要因とは？駆動させているものは何か？ 58

59.

独立成分分析の金融への応用 • 株ポートフォリオの研究成果（下記）では，ICAはデータの隠れた構造をより直観的に観測する手段として，PCA を補完できることが示されている – PCAは2次統計量（分散）と直交性基準 – ICAは高次統計量基準と独立性基準 PCAで見つかる基底 ICAで見つかる基底潜在的な因子の解析には直交性基準は不適切 – 株価の最大限独立な混合（すなわち潜在的要因）を見つけることができれば，今後の投資戦略に役立てられるかもしれない A. D. Back and A. S. Weigend, “A first application of independent component analysis to extracting structure from stock returns,” Int. J. on Neural Systems, vol. 8, no. 4, pp. 473-484, 1997. 59

60.

独立成分分析の金融への応用 • 同一の小売チェーンに属する数点の現金の流れについてICAを適用した例（下記） – 現金の流れに影響を与える「各店に共通な潜在的要因」を探る – 各店の現金流出入を時系列データとする – 独立成分の混合は瞬時混合（時間遅れのない混合）を仮定個の要因（独立成分）が混合され，店舗の現金流入として観測 – この場合の「要因（独立成分）」とは，現実的には何だろうか？ • 休日，季節の遷移，年毎の流行等の時間的な変動要因 • 競合する他の店（ライバルチェーン店）や他の商品の商品価格変動 • その他，消費者全体のニーズの変化や購買意欲の変化等独立 – 要因は全ての店舗に独立に影響するが，各店の販促や宣伝の違い等から影響の程度は異なる K. Kiviluoto and E. Oja, “Independent component analysis for parallel financial time series,” Proc. Int. Con. on Neural Information Processing, vol. 2, pp. 895-898, 1998. 60

61.

独立成分分析の金融への応用 • 同一の小売チェーンに属する数点の現金の流れについてICAを適用した例 – 各要因が各店舗にどのように影響したか（すなわち）がわかれば，各店舗の経営方針が良いか悪いか判断できる – 混合割合は混合行列の要素なので，ICAで推定した分離行列の逆行列から近似的に得られるクリスマスは第51週 40店舗の現金流入のうち5店舗をサンプルとして示している零平均の信号とするため平均が引かれており，分散は1に正規化されている横軸は時間（週）で140週にわたっている 61

62.

独立成分分析の金融への応用 • 同一の小売チェーンに属する数点の現金の流れについてICAを適用した例 – 40店舗分の信号はPCAで白色化され，4個の主成分に次元圧縮しておく • ICAでは混合行列が正方行列でなければいけないため，推定したい独立成分の個数になるまでPCAをかけて次元圧縮するのが一般的 – 独立成分の数を事前に決めておかなければならないのは実用上問題である – 観測データの固有値分布や累積特異値がヒントになる – いろいろな次元で試してみて，共通して現れる独立成分は信頼できる店舗1 店舗2 店舗3 … 店舗40 PCAで次元圧縮第一主成分第二主成分第三主成分第四主成分推定する独立成分の数に対応 62

63.

独立成分分析の金融への応用 • 同一の小売チェーンに属する数点の現金の流れについてICAを適用した例 – ICAで推定された4つの独立成分 • 様々な解釈ができそう休日などによる急激な変化（クリスマスが顕著）他のどれとも異なる解釈の難しい変動（競争相手との関係等？） 4段目よりもさらにゆっくりした変動（年をまたぐ長期的な傾向）ゆっくりとした季節変動？（30～50週あたりの夏休みが顕著） 63

64.

独立成分分析の金融への応用 • 同一の小売チェーンに属する数点の現金の流れについてICAを適用した例 – 独立成分の数を5つにしてICAで推定した結果との比較 • 3つはほぼ同じ，残りの1つが2つに分割されている 64

65.

独立成分分析の金融への応用 • 同一の小売チェーンに属する数点の現金の流れについてICAを適用した例 – 先ほどの5つの独立成分を元々の各店舗の現金流入から引き算元々の各店舗の現金流入独立成分を引き算した各店舗の現金流入「何か」を行って失敗している「何か」を行って成功している 5つの要因以外の各店舗の現金流入 → 各店舗で何かを行ったその結果 65

66.

独立成分分析の金融への応用 • この他，時系列データ予測（為替の値動き等）に用いた例などもある（下記） – ICAで推定された独立成分に対して自己回帰モデル（ARモデル）を適用する – 独立成分は観測信号よりも少ない情報量で表現されがち • 値動きの主要な要因のみを用いて自己回帰する方が良い？円米ドルユーロ円成分1 成分2 ICA＋非線形平滑化 AR モデルこの先の値動きをARで予測 – とはいえ，ICAを用いた金融解析はそれほど盛んにもならず – ディープニューラルネットワークが三度復活し機械学習大ブーム真っ只中の今となっては枯れたお話に・・・ S. Malaroiu, K. Kiviluoto and E. Oja, “Time series prediction with independent component analysis,” Proc. Int. Conf. on Advanced Investment Technology, 2000. 66

67.

講演概要 • 自己紹介 • 独立成分分析による信号源分離 – 統計的独立性とは？（数学的な準備） • 確率密度関数，高次統計量，無相関と独立，中心極限定理，カートシス等 – 独立成分分析とそのアルゴリズム • ICAの歴史 • ICAの図解 • 独立性最大化による推定方法 • 独立成分分析の金融への応用 • まとめ 67

68.

まとめ • 独立成分分析（independent component analysis: ICA） – 高次統計量に基づいた独立性最大化による信号分離 • PCAは2次統計量にのみ基づいた無相関化 – 白色化（無相関化＋分散の正規化）と非ガウス性最大化白色化非ガウス性最大化 – 今後金融への応用も期待される？機械学習ブームに勝てるのか？ – PCAよりも良い潜在的な特徴量（要因）を見つけることができる • 未紹介ですが画像処理分野の顔画像認識等においても，特徴量抽出で ICAが使われPCAより良いという報告があります – 音源分離界隈で1995年～2010年まで非常に研究された手法 • 今は？私がやっておりますよ！ 68