2024/12/20 学部卒業研究中間発表『画像認識タスクに汎用な熱赤外線画像着色モデルの検討』@東北大学

1.

学部卒業研究研究室ゼミ中間発表画像認識タスクに汎用な熱赤外線画像着色モデルの検討 General-Purpose Infrared Image Coloring Model for Various Recognition Tasks 大町・宮崎研究室学部4年谷内寛人 Any feedback is welcome! Hiroto TANIUCHI, 4th year undergraduate, Laboratory for Image Information Communications (IICLab), Tohoku University 2024/12/20(Fri) 大町・宮崎研究室 4年谷内寛人 1

2.

目次 1. 導入ー赤外線画像の着色ー 2. 関連研究ー宇川モデルー 3. 宇川モデルの発展性, 研究の動機 4. 研究方針, 提案手法 5. 実験計画 6. 結論 7. 話題 2024/12/20(Fri) 大町・宮崎研究室 4年谷内寛人 2

3.

1.導入ー赤外線画像の着色ー “色彩”について研究したい！ ...環境変化に強い頑健なセンサとして, 熱赤外線カメラが注目されている特徴応用例物体の熱を捉える照明を必要としない＝夜でも使える悪天候でも使用可能自動運転[1] ht tps:/ /ww w.fli r.com /gl oba lassets/ news/ 120 0x6 28_ auton omou sv ehi cl e.jpg 可視光画像 https://www.mi.t.u-tokyo.ac.jp/static/projects/mil_multispectral/det_result.png 2024/12/20(Fri) 熱赤外線(TIR)画像救助活動[1] 防犯 ht tps:/ /ww w.fli r.jp/gl oba lassets/ defense/ solu tio n-an dl andi ng-pa ges/ui s/ se arch-re scu e-be nner .jpg/ co nstrai n11 30x 0-20 105 106 68.jp g ht tps:/ /shop pi ng.w tw.jp/cdn/ sh op/ fil es/00 000 000 077 6 _k ZHOT 5k.p ng?v= 168 751 477 6 大町・宮崎研究室 4年谷内寛人 3

https://www.mi.t.u-tokyo.ac.jp/static/projects/mil_multispectral/det_result.png

4.

1.導入ー赤外線画像の着色ー可視光る熱赤外線(TIR) 環境の影響を強く受け状況が理解しやすい天候・照明の変化に頑健難視認性が低く状況理解が困 https://www.mi.t.u-tokyo.ac.jp/static/projects/mil_multispectral/det_result.png https://www.mi.t.u-tokyo.ac.jp/static/projects/mil_multispectral/det_result.png 熱の画像情報色情報テクスチャ赤外線画像から生成した擬似可視光画像状況が理解しやすい 2024/12/20(Fri) 天候・照明の変化に頑健大町・宮崎研究室 4年谷内寛人 4

https://www.mi.t.u-tokyo.ac.jp/static/projects/mil_multispectral/det_result.png

5.

2. 関連研究ー宇川モデルー・大町∙宮崎研究室2023年度卒業生の宇川さんが提案したモデル・TICC-GAN[3](敵対的生成ネットワークの一つ)をベースラインに使用・セグメンテーションモジュールからの特徴マップを参照することで物体の意味を適切に反映した着色画像を生成〜2023/11/25 駅伝のおもひで〜 2024/12/20(Fri) 大町・宮崎研究室 4年谷内寛人 5

6.

2. 関連研究ー宇川モデルー GANを利用した従来の着色モデル判別器生成器 TIR画像 𝐼 （元画像） ෠ 生成画像) 擬似可視光画像 𝑉( 𝐼 … 𝐼𝑛𝑓𝑟𝑎𝑟𝑒𝑑 𝑟𝑎𝑦 ቊ 𝑉 … 𝑉𝑖𝑠𝑖𝑏𝑙𝑒 𝑟𝑖𝑔ℎ𝑡 コンテンツ損失知覚的損失 Total Variation損失敵対的損失可視光画像 𝑉 （GT） 2024/12/20(Fri) 大町・宮崎研究室 4年谷内寛人 6

7.

2. 関連研究ー宇川モデルー GANを利用した従来の着色モデル〜損失計算〜判別器生成器 TIR画像 𝐼 （元画像） 𝐿𝑎𝑑𝑣 𝐿𝐷 ෠ 生成画像) 擬似可視光画像 𝑉( 𝐿𝑐𝑜𝑛 𝐿𝑝𝑒𝑟 𝐿𝑡𝑣 𝐼 … 𝐼𝑛𝑓𝑟𝑎𝑟𝑒𝑑 𝑟𝑎𝑦 ቊ 𝑉 … 𝑉𝑖𝑠𝑖𝑏𝑙𝑒 𝑟𝑖𝑔ℎ𝑡 可視光画像 𝑉 （GT） 2024/12/20(Fri) 大町・宮崎研究室 4年谷内寛人 7

8.

2. 関連研究ー宇川モデルー宇川モデル ※イメージ図セグメンテーションモジュール 𝑀𝑎𝑠𝑘 クラス画像判別器クラスマスク 𝑉෠𝑀𝑎𝑠𝑘 全画像判別器着色モジュール TIR画像 𝐼 （元画像） ෠ 生成画像) 擬似可視光画像 𝑉( 𝐼 … 𝐼𝑛𝑓𝑟𝑎𝑟𝑒𝑑 𝑟𝑎𝑦 ቊ 𝑉 … 𝑉𝑖𝑠𝑖𝑏𝑙𝑒 𝑟𝑖𝑔ℎ𝑡 コンテンツ損失知覚的損失 Total Variation損失敵対的損失クラス敵対的損失可視光画像 𝑉 （GT） 2024/12/20(Fri) 大町・宮崎研究室 4年谷内寛人 8

9.

2. 関連研究ー宇川モデルー GANを利用した従来の着色モデル判別器生成器 TIR画像 𝐼 （元画像） ෠ 生成画像) 擬似可視光画像 𝑉( 𝐼 … 𝐼𝑛𝑓𝑟𝑎𝑟𝑒𝑑 𝑟𝑎𝑦 ቊ 𝑉 … 𝑉𝑖𝑠𝑖𝑏𝑙𝑒 𝑟𝑖𝑔ℎ𝑡 コンテンツ損失知覚的損失 Total Variation損失敵対的損失可視光画像 𝑉 （GT） 2024/12/20(Fri) 大町・宮崎研究室 4年谷内寛人 9

10.

2. 関連研究ー宇川モデルー宇川モデル〜損失計算〜セグメンテーションモジュール 𝑀𝑎𝑠𝑘 クラスマスク 𝑉෠𝑀𝑎𝑠𝑘 𝑉𝑀𝑎𝑠𝑘 着色モジュール TIR画像 𝐼 （元画像）クラス画像判別器 𝐿𝑐𝑙𝑎𝑠𝑠 𝐿𝐷𝑐𝑙𝑎𝑠𝑠 全画像判別器 𝐿𝑎𝑑𝑣 𝐿𝐷 ෠ 生成画像) 擬似可視光画像 𝑉( 𝐿𝑐𝑜𝑛 𝐿𝑝𝑒𝑟 𝐿𝑡𝑣 𝐼 … 𝐼𝑛𝑓𝑟𝑎𝑟𝑒𝑑 𝑟𝑎𝑦 ቊ 𝑉 … 𝑉𝑖𝑠𝑖𝑏𝑙𝑒 𝑟𝑖𝑔ℎ𝑡 可視光画像 𝑉 （GT） 2024/12/20(Fri) 大町・宮崎研究室 4年谷内寛人 10

11.

2. 関連研究ー宇川モデルー従来の着色モデル〜損失計算〜全画像判別器生成器 TIR画像 𝐼 （元画像） 𝐿𝑎𝑑𝑣 𝐿𝐷 ෠ 生成画像) 擬似可視光画像 𝑉( 𝐿𝑐𝑜𝑛 𝐿𝑝𝑒𝑟 𝐿𝑡𝑣 𝐼 … 𝐼𝑛𝑓𝑟𝑎𝑟𝑒𝑑 𝑟𝑎𝑦 ቊ 𝑉 … 𝑉𝑖𝑠𝑖𝑏𝑙𝑒 𝑟𝑖𝑔ℎ𝑡 可視光画像 𝑉 （GT） 2024/12/20(Fri) 大町・宮崎研究室 4年谷内寛人 11

12.

3. 宇川モデルの発展性, 研究の動機着眼点・実験の一環として、出力した擬似可視光画像 𝑉෠ を可視光画像で学習したセグメンテーションモデル 𝑀𝑜𝑑𝑒𝑙 𝑆 に入力・着色の精度が不足しており、正確な分類はできなかった（そもそも宇川モデルは画像品質の向上を目的としている）・もし可視光画像で学習済のモデルに入力してもうまく動作するならば、公開されている訓練済みの大規模モデル(ResNet, BiT, CLIP...)を赤外線画像にも適用できる！・すなわち、”人にとって”だけでなく”画像認識モデルにとって”の自然さも考慮しながら変換を行いたい。動機 ෡ を, 可視光画像で訓練済みの画像認識モデル宇川モデルで着色した画像 𝑽 （セグメンテーションや物体検出）の入力に利用したい 2024/12/20(Fri) 大町・宮崎研究室 4年谷内寛人 12

13.

4. 研究方針, 提案手法データセットは, 可視光画像・熱赤外線画像・アノテーション情報が同一シーン上で揃っていることが望ましい MFNet データセット・駐車場や道路の自然画像・総数1606枚・夜間及び昼間・画素数640x480 ・東京大学の原田∙長∙黒瀬∙椋田研究室が作成[4] ht tps:/ /m.me dia -ama zo n.com/ imag es/I/ 91 TC HCg vJ2 L._S Y42 5_.jpg ht tps:/ /ww w.mi .t.u-tok yo.ac.jp/ st atic/ pro je ct s/ mi l_ mul tispe ct ral/pr edi ction Exam ple s_ good .png 2024/12/20(Fri) 大町・宮崎研究室 4年谷内寛人 13

14.

4. 研究方針, 提案手法提案手法 ※イメージ図セグメンテーションモジュール 𝑀𝑎𝑠𝑘 クラス画像判別器クラスマスク MFNet データセット 𝑉෠𝑀𝑎𝑠𝑘 全画像判別器着色モジュール ෠ 擬似可視光画像 𝑉 TIR画像 𝐼 可視光画像で訓練済みのセグメンテーションモデル 𝐼 … 𝐼𝑛𝑓𝑟𝑎𝑟𝑒𝑑 𝑟𝑎𝑦 ቐ 𝑉 … 𝑉𝑖𝑠𝑖𝑏𝑙𝑒 𝑟𝑖𝑔ℎ𝑡 𝑆 … 𝑆𝑒𝑔𝑚𝑒𝑛𝑡𝑎𝑡𝑖𝑜𝑛 可視光画像 𝑉 （GT①） 2024/12/20(Fri) 𝑆መ セグメンテーション大町・宮崎研究室 4年谷内寛人画像 𝑆 （GT②）コンテンツ損失知覚的損失 Total Variation損失敵対的損失クラス敵対的損失セグメンテーション損失 14

15.

4. 研究方針, 提案手法 GANを利用した従来の着色モデル全画像判別器生成器 ෠ 擬似可視光画像 𝑉 TIR画像 𝐼 𝐼 … 𝐼𝑛𝑓𝑟𝑎𝑟𝑒𝑑 𝑟𝑎𝑦 ቊ 𝑉 … 𝑉𝑖𝑠𝑖𝑏𝑙𝑒 𝑟𝑖𝑔ℎ𝑡 コンテンツ損失知覚的損失 Total Variation損失敵対的損失可視光画像 𝑉 2024/12/20(Fri) 大町・宮崎研究室 4年谷内寛人 15

16.

4. 研究方針, 提案手法宇川モデル ※イメージ図セグメンテーションモジュール 𝑀𝑎𝑠𝑘 クラス画像判別器クラスマスク 𝑉෠𝑀𝑎𝑠𝑘 全画像判別器着色モジュール ෠ 擬似可視光画像 𝑉 TIR画像 𝐼 𝐼 … 𝐼𝑛𝑓𝑟𝑎𝑟𝑒𝑑 𝑟𝑎𝑦 ቊ 𝑉 … 𝑉𝑖𝑠𝑖𝑏𝑙𝑒 𝑟𝑖𝑔ℎ𝑡 コンテンツ損失知覚的損失 Total Variation損失敵対的損失クラス敵対的損失可視光画像 𝑉 2024/12/20(Fri) 大町・宮崎研究室 4年谷内寛人 16

17.

4. 研究方針, 提案手法提案手法 ※イメージ図セグメンテーションモジュール 𝑀𝑎𝑠𝑘 クラス画像判別器クラスマスク MFNet データセット 𝑉෠𝑀𝑎𝑠𝑘 全画像判別器着色モジュール ෠ 擬似可視光画像 𝑉 TIR画像 𝐼 可視光画像で訓練済みのセグメンテーションモデル 𝐼 … 𝐼𝑛𝑓𝑟𝑎𝑟𝑒𝑑 𝑟𝑎𝑦 ቐ 𝑉 … 𝑉𝑖𝑠𝑖𝑏𝑙𝑒 𝑟𝑖𝑔ℎ𝑡 𝑆 … 𝑆𝑒𝑔𝑚𝑒𝑛𝑡𝑎𝑡𝑖𝑜𝑛 可視光画像 𝑉 （GT①） 2024/12/20(Fri) 𝑆መ セグメンテーション大町・宮崎研究室 4年谷内寛人画像 𝑆 （GT②）コンテンツ損失知覚的損失 Total Variation損失敵対的損失クラス敵対的損失セグメンテーション損失 17

18.

5. 実験計画サーバに保存されている宇川モデルを動かす □ 宇川修論と同条件下で追実験を行い, 結果に近い値を自力で出す 12月中間発表 □ (宇川モデルを自力で実装する) □ MFNetデータセットの赤外線画像𝐼を訓練済の宇川モデル 𝑀𝑜𝑑𝑒𝑙𝑈 に入力, 擬似可視光画像 𝑉෠ を得る 𝑆 に入力 ෠ □ 𝑉を”一般可視光画像で訓練済の”セグメンテーションモデル𝑀𝑜𝑑𝑒𝑙 本物の可視光画像𝑉を入力したときと分類精度を比較 = 𝑉෠ 入力時の出力 𝑆 𝑉෡ は, 𝑉入力時の出力 𝑆 𝑉 より分類精度が低いことを確認 1月末 ′ □ 損失関数に「 𝑉෠ 入力時の分類精度」を組み込んで𝑀𝑜𝑑𝑒𝑙𝑈 を訓練 = “人間が見た際の自然さ”を維持した上で, ”一般可視光画像で学習済のモデルに入力してもうまく動作”させるよう試みる 2月最終発表 2024/12/20(Fri) 大町・宮崎研究室 4年谷内寛人 18

19.

6. 結論 Motivation ෡ を, 可視光画像で訓練済みの画像認識モデル宇川モデルで着色した画像 𝑽 （セグメンテーションや物体検出）の入力に利用したい方針 ෡ とGT 𝑆 との差 ෡ をセグメンテーションした画像” 𝑺 ・判別器の損失関数に, “ 𝑽 （=モデルにとっての不自然さ）を追加・同一シーン上の可視光画像, 熱赤外線画像, セグメンテーション情報を持つデータセット,MFNetを導入・いずれは物体検出タスクへの汎化も目指す 2024/12/20(Fri) 大町・宮崎研究室 4年谷内寛人 19

20.

7. 話題・本研究へのアドバイスや、効果がありそうな手法・モデルの性能に大きな影響を与えそうなパラメータ・この研究テーマに新規性が認められるか・エラー解決が辛い。泣。・実験条件の管理方法・既存のモデルを接続, 組み替える方法・画像認識モデルが何に注視しているかを検証する方法(Grad Cam?) ・GitHub上で公開されているリポジトリの探検の仕方・GitHubによるバージョン管理の仕方 ...etc Any feedback is welcome! 2024/12/20(Fri) 大町・宮崎研究室 4年谷内寛人 20

https://docs.google.com/forms/d/e/1FAIpQLSetDv0glmHk_opwWuGVkmPPt17NtwBO8Z5oVyzlBdQIZog7Ig/viewform?usp=sharing

21.

https://docs.google.com/forms/d/e/1FAIpQLSetDv0glmHk_opwWuGVkmPPt17NtwBO8Z5oVyzlBdQIZog7Ig/viewform?usp=sharing

22.

参考文献 [1] FLIR Systems homepage https://www.flir.jp/ [2] Satoshi Ugawa. A Study on Thermal Infrared Image Colorization Based on Semantic Information, 2024. [3] X. Kuang et al. ‘Thermal infrared colorization via conditional generative adversarial network’, Infrared Physics & Technology, vol. 107, p. 103338, Jun. 2020, doi: 10.1016/j.infrared.2020.103338. [4] Qishen Ha, Kohei Watanabe, Takumi Karasawa, Yoshitaka Ushiku, Tatsuya Harada. MFNet: Towards Real-Time Semantic Segmentation for Autonomous Vehicles with Multi-Spectral Scenes. The 2017 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS 2017), 2017. https://www.mi.t.u-tokyo.ac.jp/static/projects/mil_multispectral/ 2024/12/20(Fri) 大町・宮崎研究室 4年谷内寛人 22

23.

修士での展望, 研究アイデア学部研究を継続・セグメンテーション以外のタスクへの汎化＝MFNetに含まれている物体検出データの利用・宇川モデルの軽量化 https ://www.mi.t.u-tokyo.ac.jp/static/projects/mil_mult ispectral/det_res ult.png 色彩に関連のある他のテーマ・カラー画像における色が持つ情報量…モノクロに変換すると失われる意味情報の大きさを評価する・パッケージ等の表示が色弱者にとってどの程度見やすいかを定量的に評価する・気持ちやテーマを単語で入力すると, それに従ったスライドの配色を提するサービスの実装 2024/12/20(Fri) 大町・宮崎研究室 4年谷内寛人 23

https://www.mi.t.u-tokyo.ac.jp/static/projects/mil_multispectral/det_result.png

24.

発表にて得られたフィードバック・GANよりも拡散モデルを利用した方が効果的な可能性 2024/12/20(Fri) 大町・宮崎研究室 4年谷内寛人 24

25.

補助資料〜宇川モデル生成器の損失関数〜 2024/12/20(Fri) 大町・宮崎研究室 4年谷内寛人 25

2024/12/20 学部卒業研究中間発表『画像認識タスクに汎用な熱赤外線画像着色モデルの検討』@東北大学

谷内寛人

関連スライド

2024/12/20 Undergraduate Research: General-Purpose Infrared Image Coloring Model for Various Recognition Tasks @Tohoku Univ.

事前学習発表スライド＠東北大学国際工学研修2025 in UK

国際戦略講座7班最終発表 @東北大学

2025/02/28 学部卒業研究発表『認識タスクに適した熱赤外線画像着色モデルに関する研究』@東北大学

東北大紹介プレゼン＠東北大学国際工学研修2025 in UK

学振特別研究員になるために～2025年度申請版

各ページのテキスト

2024/12/20 学部卒業研究中間発表『画像認識タスクに汎用な熱赤外線画像着色モデルの検討』@東北大学

谷内寛人

関連スライド

2024/12/20 Undergraduate Research: General-Purpose Infrared Image Coloring Model for Various Recognition Tasks @Tohoku Univ.

事前学習発表スライド ＠東北大学国際工学研修2025 in UK

国際戦略講座7班 最終発表 @東北大学

2025/02/28 学部卒業研究発表『認識タスクに適した熱赤外線画像着色モデルに関する研究』@東北大学

東北大紹介プレゼン ＠東北大学国際工学研修2025 in UK

学振特別研究員になるために～2025年度申請版

各ページのテキスト

事前学習発表スライド＠東北大学国際工学研修2025 in UK

国際戦略講座7班最終発表 @東北大学

東北大紹介プレゼン＠東北大学国際工学研修2025 in UK