>100 Views
December 13, 24
スライド概要
綾部 響己, 岡本 一志, 柴田 淳司, 原田 慧, 軽部 幸起: 築年代推定におけるViTとCNNモデルの比較, IDRユーザフォーラム2024, 2024.12, 東京都千代田区.
Data Science Research Group, The University of Electro-Communications
築年代推定におけるViTとCNNの比較 PO23 綾部 響己,岡本 一志(電気通信大学), 柴田 淳司(東京都立産業技術大学院大学), 原⽥ 慧, 軽部 幸起(電気通信⼤学) はじめに 実験結果 築年代推定 回帰精度 不動産物件における築年代は, 物件の価格を大きく左右 加えて, 災害リスクの評価にも有用 しかし, 固定資産税の守秘義務により,一般には公表されていない → 築年代の推定モデルの開発が必要 関連研究 タ ス ク 分類 使用したデータ LIFULL HOME'S (17,745枚) 回帰 & Google Street View (約52万枚) 神戸市における [Ogawa+,2023] 分類 ストリートビュー画像 (28133枚) 本研究 MAE 1 RMSE MedAE 回帰 VGG16の精度 fold MAE RMSE MedAE 3.130 6.011 1.138 1 4.522 6.281 3.243 2 3.179 6.099 1.600 2 4.729 6.483 3.438 3 3.110 5.987 1.120 3 4.337 6.219 2.975 平均 3.140 6.032 1.286 平均 4.539 6.328 3.219 ResNet101_V2の精度 ShuffleNetV2の精度 fold MAE 1 RMSE MedAE fold MAE RMSE MedAE 2.606 4.760 1.268 1 4.798 6.781 3.313 2 2.808 4.877 1.500 2 4.824 6.817 3.332 3 2.993 4.965 1.746 3 4.765 6.794 3.247 平均 4.796 6.797 3.297 MobileNetV2の精度 Valuer-General Victoria [Yan+,2018] fold 平均 2.803 4.867 1.505 研究 [Oki+,2021] ViTの精度 モデルの特徴 敷地面積などの属性情報を 加えたマルチモーダルな 築年代推定モデル fold MAE RMSE MedAE 1 5.703 7.746 4.184 2 6.110 7.961 4.836 3 5.600 7.660 4.023 平均 5.804 7.782 4.348 ViTの 予測値ヒートマップ SIFTとCNNを用いた ResNet101_V2の 予測値ヒートマップ 築年代推定モデル swin-transformerを含む複数 の事前学習済みモデル LIFULL HOME'S 複数のスクラッチからの (約850万枚) 学習モデル → より高い予測精度を目標に, 全国的な地域での学習及び予測を 行う ResNetにおける地域別精度 アプローチ LIFULL HOME'S データセット 国立情報学研究所が提供する不動産物件に関する属性情報と画像 学習用データ8,489,774枚を物件ごとにシャッフルし, 5-fold交差検証法用に分割 モデル 1. Vision Transformer(ViT): 画像をパッチに分割し,自己注意機構を 用いて特徴を抽出 2. VGG16: 16層のCNNで,シンプルで高精度な画像分類に強み 3. ResNet101_V2: 101層の残差ネットワークで,残差ブロックによる 効率的な学習が可能 4. ShuffleNetV2: 軽量かつ高速なモデルで,グループ畳み込みと チャンネルシャッフルを利用して計算効率を向上させたモデル 5. MobileNetV2: Depthwise Separable Convolutionを活用してモデルの 軽量化と高速化を実現したモバイルデバイス向けモデル 評価指標 MAE(平均絶対誤差) RMSE(平均二乗誤差の平方根) おわりに まとめ 本研究ではLIFULL HOME'Sデータセットを学習し, 築年代推定モデルの性能を比較 ResNet101_V2とViTが高精度で地域に依存しない汎用的な 築年代推定モデルであることが示唆 今後の展望 データの拡張および, 事前学習済みモデルなどの利用 Grad-cam, Attention-rollout, MOXIを利用し,モデルの注目部位 の検証 [Oki+, 2021] T. Oki, Y. Ogawa: Model for Estimation of Building Structure and Built Year Using Building Facade Images and Attributes Obtained from a Real Estate Database, Urban Inform. Future Cities, 549-573, 2021. [Yan+, 2018] L. Yan, Y. Chen, A. Rajabifard, K. Khoshelham, M. Aleksandrov: Estimating Building Age from Google Street View Images Using Deep Learning, in Proc. Int. Conf. Geogr. Inf. Sci., 2018. MedAE(中央絶対誤差) [Ogawa+, 2023] Y. Ogawa, C. Zhao, T. Oki, S. Chen, Y. Sekimoto: Deep Learning Approach for Classifying the Built Year and Structure of Individual Buildings by Automatically Linking Street View Images and GIS Building Data, IEEE Selected Topics Applied Earth Observations Remote Sensing, 16, 1740-1755, 2023. 株式会社LIFULL: LIFULL HOME'Sデータセット, 国立情報学研究所情報学研究データリポジトリ, 2015.