265 Views
December 29, 24
スライド概要
東北大学工学部電気情報物理工学科
学部卒業研究 研究室ゼミ 中間発表 画像認識タスクに汎用な 熱赤外線画像着色モデルの検討 General-Purpose Infrared Image Coloring Model for Various Recognition Tasks 大町・宮崎研究室 学部4年 谷内寛人 Any feedback is welcome! Hiroto TANIUCHI, 4th year undergraduate, Laboratory for Image Information Communications (IICLab), Tohoku University 2024/12/20(Fri) 大町・宮崎研究室 4年 谷内寛人 1
目次 1. 導入 ー赤外線画像の着色ー 2. 関連研究 ー宇川モデルー 3. 宇川モデルの発展性, 研究の動機 4. 研究方針, 提案手法 5. 実験計画 6. 結論 7. 話題 2024/12/20(Fri) 大町・宮崎研究室 4年 谷内寛人 2
1.導入 ー赤外線画像の着色ー “色彩”について研究したい! ...環境変化に強い頑健なセンサとして, 熱赤外線カメラが注目されている 特徴 応用例 物体の熱を捉える 照明を必要としない=夜でも使える 悪天候でも使用可能 自動運転[1] ht tps:/ /ww w.fli r.com /gl oba lassets/ news/ 120 0x6 28_ auton omou sv ehi cl e.jpg 可視光画像 https://www.mi.t.u-tokyo.ac.jp/static/projects/mil_multispectral/det_result.png 2024/12/20(Fri) 熱赤外線(TIR)画像 救助活動[1] 防犯 ht tps:/ /ww w.fli r.jp/gl oba lassets/ defense/ solu tio n-an dl andi ng-pa ges/ui s/ se arch-re scu e-be nner .jpg/ co nstrai n11 30x 0-20 105 106 68.jp g ht tps:/ /shop pi ng.w tw.jp/cdn/ sh op/ fil es/00 000 000 077 6 _k ZHOT 5k.p ng?v= 168 751 477 6 大町・宮崎研究室 4年 谷内寛人 3
1.導入 ー赤外線画像の着色ー 可視光 る 熱赤外線(TIR) 環境の影響を強く受け 状況が理解しやすい 天候・照明の変化に頑健 難 視認性が低く状況理解が困 https://www.mi.t.u-tokyo.ac.jp/static/projects/mil_multispectral/det_result.png https://www.mi.t.u-tokyo.ac.jp/static/projects/mil_multispectral/det_result.png 熱の画像情報 色情報テクスチャ 赤外線画像から生成した擬似可視光画像 状況が理解しやすい 2024/12/20(Fri) 天候・照明の変化に頑健 大町・宮崎研究室 4年 谷内寛人 4
2. 関連研究 ー宇川モデルー ・大町∙宮崎研究室2023年度卒業生の宇川さんが提案したモデル ・TICC-GAN[3](敵対的生成ネットワークの一つ)をベースラインに使用 ・セグメンテーションモジュールからの特徴マップを参照することで 物体の意味を適切に反映した着色画像を生成 〜2023/11/25 駅伝のおもひで〜 2024/12/20(Fri) 大町・宮崎研究室 4年 谷内寛人 5
2. 関連研究 ー宇川モデルー GANを利用した従来の着色モデル 判別器 生成器 TIR画像 𝐼 (元画像) 生成画像) 擬似可視光画像 𝑉( 𝐼 … 𝐼𝑛𝑓𝑟𝑎𝑟𝑒𝑑 𝑟𝑎𝑦 ቊ 𝑉 … 𝑉𝑖𝑠𝑖𝑏𝑙𝑒 𝑟𝑖𝑔ℎ𝑡 コンテンツ損失 知覚的損失 Total Variation損失 敵対的損失 可視光画像 𝑉 (GT) 2024/12/20(Fri) 大町・宮崎研究室 4年 谷内寛人 6
2. 関連研究 ー宇川モデルー GANを利用した従来の着色モデル 〜損失計算〜 判別器 生成器 TIR画像 𝐼 (元画像) 𝐿𝑎𝑑𝑣 𝐿𝐷 生成画像) 擬似可視光画像 𝑉( 𝐿𝑐𝑜𝑛 𝐿𝑝𝑒𝑟 𝐿𝑡𝑣 𝐼 … 𝐼𝑛𝑓𝑟𝑎𝑟𝑒𝑑 𝑟𝑎𝑦 ቊ 𝑉 … 𝑉𝑖𝑠𝑖𝑏𝑙𝑒 𝑟𝑖𝑔ℎ𝑡 可視光画像 𝑉 (GT) 2024/12/20(Fri) 大町・宮崎研究室 4年 谷内寛人 7
2. 関連研究 ー宇川モデルー 宇川モデル ※イメージ図 セグメンテーション モジュール 𝑀𝑎𝑠𝑘 クラス画像 判別器 クラスマスク 𝑉𝑀𝑎𝑠𝑘 全画像 判別器 着色モジュール TIR画像 𝐼 (元画像) 生成画像) 擬似可視光画像 𝑉( 𝐼 … 𝐼𝑛𝑓𝑟𝑎𝑟𝑒𝑑 𝑟𝑎𝑦 ቊ 𝑉 … 𝑉𝑖𝑠𝑖𝑏𝑙𝑒 𝑟𝑖𝑔ℎ𝑡 コンテンツ損失 知覚的損失 Total Variation損失 敵対的損失 クラス敵対的損失 可視光画像 𝑉 (GT) 2024/12/20(Fri) 大町・宮崎研究室 4年 谷内寛人 8
2. 関連研究 ー宇川モデルー GANを利用した従来の着色モデル 判別器 生成器 TIR画像 𝐼 (元画像) 生成画像) 擬似可視光画像 𝑉( 𝐼 … 𝐼𝑛𝑓𝑟𝑎𝑟𝑒𝑑 𝑟𝑎𝑦 ቊ 𝑉 … 𝑉𝑖𝑠𝑖𝑏𝑙𝑒 𝑟𝑖𝑔ℎ𝑡 コンテンツ損失 知覚的損失 Total Variation損失 敵対的損失 可視光画像 𝑉 (GT) 2024/12/20(Fri) 大町・宮崎研究室 4年 谷内寛人 9
2. 関連研究 ー宇川モデルー 宇川モデル 〜損失計算〜 セグメンテーション モジュール 𝑀𝑎𝑠𝑘 クラスマスク 𝑉𝑀𝑎𝑠𝑘 𝑉𝑀𝑎𝑠𝑘 着色モジュール TIR画像 𝐼 (元画像) クラス画像 判別器 𝐿𝑐𝑙𝑎𝑠𝑠 𝐿𝐷𝑐𝑙𝑎𝑠𝑠 全画像 判別器 𝐿𝑎𝑑𝑣 𝐿𝐷 生成画像) 擬似可視光画像 𝑉( 𝐿𝑐𝑜𝑛 𝐿𝑝𝑒𝑟 𝐿𝑡𝑣 𝐼 … 𝐼𝑛𝑓𝑟𝑎𝑟𝑒𝑑 𝑟𝑎𝑦 ቊ 𝑉 … 𝑉𝑖𝑠𝑖𝑏𝑙𝑒 𝑟𝑖𝑔ℎ𝑡 可視光画像 𝑉 (GT) 2024/12/20(Fri) 大町・宮崎研究室 4年 谷内寛人 10
2. 関連研究 ー宇川モデルー 従来の着色モデル 〜損失計算〜 全画像 判別器 生成器 TIR画像 𝐼 (元画像) 𝐿𝑎𝑑𝑣 𝐿𝐷 生成画像) 擬似可視光画像 𝑉( 𝐿𝑐𝑜𝑛 𝐿𝑝𝑒𝑟 𝐿𝑡𝑣 𝐼 … 𝐼𝑛𝑓𝑟𝑎𝑟𝑒𝑑 𝑟𝑎𝑦 ቊ 𝑉 … 𝑉𝑖𝑠𝑖𝑏𝑙𝑒 𝑟𝑖𝑔ℎ𝑡 可視光画像 𝑉 (GT) 2024/12/20(Fri) 大町・宮崎研究室 4年 谷内寛人 11
3. 宇川モデルの発展性, 研究の動機 着眼点 ・実験の一環として、出力した擬似可視光画像 𝑉 を可視光画像で学習した セグメンテーションモデル 𝑀𝑜𝑑𝑒𝑙 𝑆 に入力 ・着色の精度が不足しており、正確な分類はできなかった (そもそも宇川モデルは画像品質の向上を目的としている) ・もし可視光画像で学習済のモデルに入力してもうまく動作するならば、 公開されている訓練済みの大規模モデル(ResNet, BiT, CLIP...)を 赤外線画像にも適用できる! ・すなわち、”人にとって”だけでなく”画像認識モデルにとって”の自然さ も考慮しながら変換を行いたい。 動機 を, 可視光画像で訓練済みの画像認識モデル 宇川モデルで着色した画像 𝑽 (セグメンテーションや物体検出)の入力に利用したい 2024/12/20(Fri) 大町・宮崎研究室 4年 谷内寛人 12
4. 研究方針, 提案手法 データセットは, 可視光画像・熱赤外線画像・アノテーション情報が 同一シーン上で揃っていることが望ましい MFNet データセット ・駐車場や道路の自然画像 ・総数1606枚 ・夜間及び昼間 ・画素数640x480 ・東京大学の原田∙長∙黒瀬∙椋田研究室が作成[4] ht tps:/ /m.me dia -ama zo n.com/ imag es/I/ 91 TC HCg vJ2 L._S Y42 5_.jpg ht tps:/ /ww w.mi .t.u-tok yo.ac.jp/ st atic/ pro je ct s/ mi l_ mul tispe ct ral/pr edi ction Exam ple s_ good .png 2024/12/20(Fri) 大町・宮崎研究室 4年 谷内寛人 13
4. 研究方針, 提案手法 提案手法 ※イメージ図 セグメンテーション モジュール 𝑀𝑎𝑠𝑘 クラス画像 判別器 クラスマスク MFNet データセット 𝑉𝑀𝑎𝑠𝑘 全画像 判別器 着色モジュール 擬似可視光画像 𝑉 TIR画像 𝐼 可視光画像で訓練済みの セグメンテーションモデル 𝐼 … 𝐼𝑛𝑓𝑟𝑎𝑟𝑒𝑑 𝑟𝑎𝑦 ቐ 𝑉 … 𝑉𝑖𝑠𝑖𝑏𝑙𝑒 𝑟𝑖𝑔ℎ𝑡 𝑆 … 𝑆𝑒𝑔𝑚𝑒𝑛𝑡𝑎𝑡𝑖𝑜𝑛 可視光画像 𝑉 (GT①) 2024/12/20(Fri) 𝑆መ セグメンテーション 大町・宮崎研究室 4年 谷内寛人 画像 𝑆 (GT②) コンテンツ損失 知覚的損失 Total Variation損失 敵対的損失 クラス敵対的損失 セグメンテーション損失 14
4. 研究方針, 提案手法 GANを利用した従来の着色モデル 全画像 判別器 生成器 擬似可視光画像 𝑉 TIR画像 𝐼 𝐼 … 𝐼𝑛𝑓𝑟𝑎𝑟𝑒𝑑 𝑟𝑎𝑦 ቊ 𝑉 … 𝑉𝑖𝑠𝑖𝑏𝑙𝑒 𝑟𝑖𝑔ℎ𝑡 コンテンツ損失 知覚的損失 Total Variation損失 敵対的損失 可視光画像 𝑉 2024/12/20(Fri) 大町・宮崎研究室 4年 谷内寛人 15
4. 研究方針, 提案手法 宇川モデル ※イメージ図 セグメンテーション モジュール 𝑀𝑎𝑠𝑘 クラス画像 判別器 クラスマスク 𝑉𝑀𝑎𝑠𝑘 全画像 判別器 着色モジュール 擬似可視光画像 𝑉 TIR画像 𝐼 𝐼 … 𝐼𝑛𝑓𝑟𝑎𝑟𝑒𝑑 𝑟𝑎𝑦 ቊ 𝑉 … 𝑉𝑖𝑠𝑖𝑏𝑙𝑒 𝑟𝑖𝑔ℎ𝑡 コンテンツ損失 知覚的損失 Total Variation損失 敵対的損失 クラス敵対的損失 可視光画像 𝑉 2024/12/20(Fri) 大町・宮崎研究室 4年 谷内寛人 16
4. 研究方針, 提案手法 提案手法 ※イメージ図 セグメンテーション モジュール 𝑀𝑎𝑠𝑘 クラス画像 判別器 クラスマスク MFNet データセット 𝑉𝑀𝑎𝑠𝑘 全画像 判別器 着色モジュール 擬似可視光画像 𝑉 TIR画像 𝐼 可視光画像で訓練済みの セグメンテーションモデル 𝐼 … 𝐼𝑛𝑓𝑟𝑎𝑟𝑒𝑑 𝑟𝑎𝑦 ቐ 𝑉 … 𝑉𝑖𝑠𝑖𝑏𝑙𝑒 𝑟𝑖𝑔ℎ𝑡 𝑆 … 𝑆𝑒𝑔𝑚𝑒𝑛𝑡𝑎𝑡𝑖𝑜𝑛 可視光画像 𝑉 (GT①) 2024/12/20(Fri) 𝑆መ セグメンテーション 大町・宮崎研究室 4年 谷内寛人 画像 𝑆 (GT②) コンテンツ損失 知覚的損失 Total Variation損失 敵対的損失 クラス敵対的損失 セグメンテーション損失 17
5. 実験計画 サーバに保存されている宇川モデルを動かす □ 宇川修論と同条件下で追実験を行い, 結果に近い値を自力で出す 12月 中間発表 □ (宇川モデルを自力で実装する) □ MFNetデータセットの赤外線画像𝐼を訓練済の宇川モデル 𝑀𝑜𝑑𝑒𝑙𝑈 に入力, 擬似可視光画像 𝑉 を得る 𝑆 に入力 □ 𝑉を”一般可視光画像で訓練済の”セグメンテーションモデル𝑀𝑜𝑑𝑒𝑙 本物の可視光画像𝑉を入力したときと分類精度を比較 = 𝑉 入力時の出力 𝑆 𝑉 は, 𝑉入力時の出力 𝑆 𝑉 より分類精度が低いことを確認 1月末 ′ □ 損失関数に「 𝑉 入力時の分類精度」を組み込んで𝑀𝑜𝑑𝑒𝑙𝑈 を訓練 = “人間が見た際の自然さ”を維持した上で, ”一般可視光画像で学習済の モデルに入力してもうまく動作”させるよう試みる 2月 最終発表 2024/12/20(Fri) 大町・宮崎研究室 4年 谷内寛人 18
6. 結論 Motivation を, 可視光画像で訓練済みの画像認識モデル 宇川モデルで着色した画像 𝑽 (セグメンテーションや物体検出)の入力に利用したい 方針 とGT 𝑆 との差 をセグメンテーションした画像” 𝑺 ・判別器の損失関数に, “ 𝑽 (=モデルにとっての不自然さ)を追加 ・同一シーン上の可視光画像, 熱赤外線画像, セグメンテーション情報を持つ データセット,MFNetを導入 ・いずれは物体検出タスクへの汎化も目指す 2024/12/20(Fri) 大町・宮崎研究室 4年 谷内寛人 19
7. 話題 ・本研究へのアドバイスや、効果がありそうな手法 ・モデルの性能に大きな影響を与えそうなパラメータ ・この研究テーマに新規性が認められるか ・エラー解決が辛い。泣。 ・実験条件の管理方法 ・既存のモデルを接続, 組み替える方法 ・画像認識モデルが何に注視しているかを検証する方法(Grad Cam?) ・GitHub上で公開されているリポジトリの探検の仕方 ・GitHubによるバージョン管理の仕方 ...etc Any feedback is welcome! 2024/12/20(Fri) 大町・宮崎研究室 4年 谷内寛人 20
ご清聴ありがとうございました Any feedback is welcome! 2024/12/20(Fri) 大町・宮崎研究室 4年 谷内寛人 終 制作・著作 ━━━━━ ⒾⒾⒸ 21
参考文献 [1] FLIR Systems homepage https://www.flir.jp/ [2] Satoshi Ugawa. A Study on Thermal Infrared Image Colorization Based on Semantic Information, 2024. [3] X. Kuang et al. ‘Thermal infrared colorization via conditional generative adversarial network’, Infrared Physics & Technology, vol. 107, p. 103338, Jun. 2020, doi: 10.1016/j.infrared.2020.103338. [4] Qishen Ha, Kohei Watanabe, Takumi Karasawa, Yoshitaka Ushiku, Tatsuya Harada. MFNet: Towards Real-Time Semantic Segmentation for Autonomous Vehicles with Multi-Spectral Scenes. The 2017 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS 2017), 2017. https://www.mi.t.u-tokyo.ac.jp/static/projects/mil_multispectral/ 2024/12/20(Fri) 大町・宮崎研究室 4年 谷内寛人 22
修士での展望, 研究アイデア 学部研究を継続 ・セグメンテーション以外のタスクへの汎化 =MFNetに含まれている物体検出データの利用 ・宇川モデルの軽量化 https ://www.mi.t.u-tokyo.ac.jp/static/projects/mil_mult ispectral/det_res ult.png 色彩に関連のある他のテーマ ・カラー画像における色が持つ情報量…モノクロに変換すると失われる意味 情報の大きさを評価する ・パッケージ等の表示が色弱者にとってどの程度見やすいかを定量的に評価 する ・気持ちやテーマを単語で入力すると, それに従ったスライドの配色を提 するサービスの実装 2024/12/20(Fri) 大町・宮崎研究室 4年 谷内寛人 23
発表にて得られたフィードバック ・GANよりも拡散モデルを利用した方が効果的な可能性 2024/12/20(Fri) 大町・宮崎研究室 4年 谷内寛人 24
補助資料 〜宇川モデル 生成器の損失関数〜 2024/12/20(Fri) 大町・宮崎研究室 4年 谷内寛人 25