[DL輪読会]The Building Blocks of Interpretability

>100 Views

April 12, 19

#deep learning #Deep Learning #Interpretability #Neural Networks #Visualization #Machine Learning

スライド概要

2019/04/05
Deep Learning JP:
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 87.4K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 59.9K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 58.5K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 41.4K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 37.9K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 37.5K

各ページのテキスト

DEEP LEARNING JP [DL Papers] “The Building Blocks of Interpretability” Haruka Murakami, Matsuo Lab http://deeplearning.jp/

http://deeplearning.jp/

書誌情報 • Distill.pub(公開日：18/03) • 被引用数：81 • 著者 – – – – Chris Olah, Google Brain, Arvind Satyanarayan, Google Brain Ian Johnson, Google Cloud, Shan Carter, Google Brain Ludwig Schubert, Google Brain, Katherine Ye, CMU Alexander Mordvintsev, Google Research • 内容：隠れ層の意味解釈の可視化を、従来研究を組み合わせたりUIを工夫することによって改善した • 選定理由：interpretabilityへの興味、新しい論文誌Distillの取り組みが面白そうだったから 2

distill.pub? OpenAIによると • a new kind of journal aimed at excellent communication of machine learning results (novel or existi ng). • a website and set of associated tools that make it easier for people to explain ML concepts using modern web technologies. 3

通常の論文誌よりインタラクティブで記事っぽい • アブストラクト、方法などのいつもの項目がない。概要→解説,解説,解説,…→結論 • 結果の図がインタラクティブ。 • 実際にぜひ試してみて下さい↓ • https://distill.pub/2018/buildingblocks/?utm_campaign=Revue%20newsletter&utm_medium=Newsletter&utm_s ource=Deep%20Learning%20Weekly • • 論文管理ツールに自動で入らない、pdfがないので管理がめんどくさい図番号・タイトル、ページ番号がないので、どこに何が書いてあったか分かりづらい 4

https://distill.pub/2018/building-

この論文の概要 • 画像識別タスクにおいて、特徴量を人間が理解できる情報量にして可視化 – モデルはGoogLeNet – ニューロンを目的に沿ってグルーピングする 5

従来研究の問題点と解決方法 • ニューラルネットワークにおける出力の導出理由を知るための研究が行われているが、深い抽象化が行われている上でその構成要素を解釈可能にしている例は少ない – 従来手法では特徴の可視化、属性分解、次元削減などが行われている • この分野の問題として、従来研究が個々の方法で行われており、一貫して開発されてきていないということがある • この研究では従来の解釈メソッドそれぞれを構成基礎ブロックとして扱った • 結果、これらの共通点のないテクニックは統一した文法にまとめられ、お互いに機能を補完した。これにより、それぞれの要素が目的を達しているかどうかを評価することも可能になった 6

本研究での考え方 • NNの意味解釈に関する研究の多くはNNの入出力層に注視している • CVでは入力層は各ピクセルのRGB、出力はクラスラベルとその確率 • この研究では各層の学習した表現は３次元立方体として考える – それぞれのセル：活性化もしくはニューロンの発火量 – x,y軸: 画像の空間位置, z軸: 駆動している検知器もしくはチャネル. – このスライスの仕方を変えることで、以下の３つの要素が切り出せる 7

特徴量の可視化得られる結果は多次元ベクトルなので、活性化されている要素が何なのかを直感的に知ることは難しい。特徴量の可視化を行うと、より人が解釈しやすい意味を持った要素群にすることができる。垂れ耳の検知に使われていると思われる要素 (GoogLeNetでは100犬種の耳を識別できるらしい) 8

どう実現しているのか • “semantic dictionary”という意味解釈に使うための特徴量を可視化した辞書を作成する • NN内全てのニューロンの活性化とニューロンの可視化をペアにし、活性度の高い順に並べ直す • 特徴量の可視化をアイコン化して列挙すると、人間が実際に判断に使っているような特徴「垂れ耳」「犬の鼻」「毛の具合」らしきものが現れる 9

10.

意味解釈辞書が可能にすること • 個々のニューロンを視覚化して各特徴量がどこを見ているのかを示すことができるのと同時に、全体として活性化ベクトルを検討することもできる • 与えられた図の位置で発火するニューロンを視覚化することもできる – 元の活性化ベクトルと活性化の内積が最大になるように画像を最適化している 10

11.

ネットワークの理解がどう進むかを観察する • 複数のレイヤーを操作すると、はじめになされたエッジ検出が、後半でどのような形状に形成されていくかを観察することもできる 11

12.

顕著性マップを使った空間アトリビューション • 顕著性マップ：出力（分類）時、どの特徴量がどの部分で寄与したかの貢献度を強調表示するマップ • アトリビューションでよく使われる • 問題点：個々のピクセルがアトリビューションに主要に寄与しているのかは分からない、一度に一つのクラスしか表示できないので個々のポイントの分析はできない 12

13.

アトリビューション表示の提案 • アトリビューションを別のUIの構成要素として扱い、ニューラルネットワークの隠れ層に適用した • ＝その位置で検出された特徴が重要であるかという視点に変える 13

14.

Human-Scaleへの変換 • 多くの場合、チャネルや空間座標の情報は全体的には相関があるが、別のチャネルや座標のものとは関係がないので、無視したい • そのために行列分解を行う（やり方の詳細は書いていなかったが非負行列因数分解を使う） • これにより要素を分解し、理論的に人間が解釈しやすいレベルに情報を落とすことができる • 情報が多大に失われることとトレードオフ • 複数の 14

15.

最適なニューロンのグループ分けを行う • 複数層を一緒に理解するため、各層の因数分解を互換する • 前の層のグルーピングを後に引き継ぐことができる 15

16.

要素同士の結びつきの強さを可視化 • グルーピングの仕方を指定できる 16

17.

問題点と今後の課題 • 処理画像のある種の意味一貫性や意味解釈辞書が確からしいというこということが前提になっている • アトリビューションがうまくいっているかどうかを個々に検討しているのみで、実際に使えるかどうかの客観的な検証がない • 今後の課題：より見やすいUIの開発と合理的な意味解釈の手法の開発 17