JDLA主催CVPR2024技術報告会ーコンピュータビジョン技術の最前線ー

CVPR2024 技術報告会コンピュータビジョン技術の最前線 2024/07/18 株式会社モルフォリサーチャー三宅・鈴木・龍・中川

はじめに 1. はじめに・株式会社モルフォのご紹介 (約10分) 2. CVPRとは何か、なぜ重要か、ビジネスパーソン向け CVPR入門 (約15分) 3. 今年のCVPRのトレンド：モルフォ視点で注目の分野・論文のご紹介 (約30分) 4. モルフォ視点で注目論文ディープダイブ (約30分) ● “Rethinking Inductive Biases for Surface Normal Estimation” (Bae & Davison) ● “Comparing the Decision-Making Mechanisms by Transformers and CNNs via Explanation Methods” (Mingqi Jiang et al.) ● “Rich Human Feedback for Text-to-Image Generation” (Youwei Liang et al.) Copyright © 2024 Morpho, Inc. All Rights Reserved. 1

3.

4.

株式会社モルフォについて 2004 2011 創業代表取締役社長平賀督基 5 カ国海外展開 151 東証マザーズ上場グループ社員 135 54 特許海外売上比率 % Masaki Hilaga 画像処理 / AI技術の研究・製品開発スマートデバイス・車載モビリティ・DX向けソフトウェア事業をグローバルに展開 23.8 19.2 億グループ売上 % 研究開発費率 2023年10月期時点 Copyright © 2024 Morpho, Inc. All Rights Reserved. 3

5.

6.

https://www.morphoinc.com/technology/vstab_hlapse

7.

8.

DX｜国立国会図書館 OCR OCR処理プログラムの研究開発の委託事業明治期～昭和期の書籍画像（ 2億枚）のテキスト化処理。モルフォの最新AI技術・画像処理技術を取り入れた OCR処理プログラムの研究開発を実施。 ●多様なレイアウト・文字種に対応し、明治期～昭和期までの複雑な資料のテキスト化を実現。 ●国立国会図書館デジタルアーカイブで歴史的資料も全文テキスト検索が可能に。 Copyright © 2024 Morpho, Inc. All Rights Reserved. 7

9.

その他｜ SoftNeuroによるNeural Networkの高速推論スーパーコンピュータ「富岳」における深層学習を用いた 3D 銀河形成シミュレーションの推論の約 19倍高速化を実現東京大学、東北大学、神戸大学が推進するスーパーコンピュータ「富岳」上での高解像度銀河形成シミュレーションの高速化プロジェクトモルフォのディープラーニング推論エンジン『SoftNeuro』を提供 → シミュレーション中のCNNの推論時間の高速化および電力量削減を実現項目時間(ms) 電力量（W*s）富岳で標準的に利用可能な TensorFlow 2820 130.2 「富岳」に最適化した『SoftNeuro』を使用 147 ９３％減 19倍 8.6 本研究を利用した成果は、学術誌”Monthly Notices of the Royal Astronomical Society”の論文として報告（https://academic.oup.com/mnras/article/526/3/4054/7316686） Copyright © 2024 Morpho, Inc. All Rights Reserved. 8

https://academic.oup.com/mnras/article/526/3/4054/7316686

10.

11.

12.

13.

CVPRとは？初回は1983年にT.KanadeとD.Balladが開催毎年、6月から7月頃に開催されるComputer Vision系の国際会議画像：https://cvpr.thecvf.com/media/cvpr-2024/Slides/32147.pdf 開催地は主にアメリカ国内 CVPR Conference on Computer Vision and Pattern Recognition Copyright © 2024 Morpho, Inc. All Rights Reserved. 12

https://cvpr.thecvf.com/media/cvpr-2024/Slides/32147.pdf

14.

CVPRとは？人間の目と脳が持つ高次視覚機能を理解し、コンピュータによる再現・実証を目指す分野画像：https://cvpr.thecvf.com/media/cvpr-2023/Slides/23313.pdf CVPR Conference on Computer Vision and Pattern Recognition 国際会議コンピュータービジョンパターン認識 Copyright © 2024 Morpho, Inc. All Rights Reserved. 13

https://cvpr.thecvf.com/media/cvpr-2023/Slides/23313.pdf

15.

16.

17.

18.

AIを学ぶビジネスパーソンに CVPRをおススメする理由？ 1. AIといえば CV（画像処理）だから → 部分的に違います（言語や音声、自律行動なども） 2. AIを扱った学会は数少ないから → 違います（後述の通り、沢山あります） 3. CVを扱う会社の重要性をアピールしたいから → 部分的にそうです（が、真っ当な根拠があります） Copyright © 2024 Morpho, Inc. All Rights Reserved. 17

19.

20.

Google Scholar Metricsによる学術誌ランキング CVPRは論文自体の数・引用数ともに世界トップレベルの学会です！ (h5-indexが440→過去5年間で440回以上引用された論文数が440本以上存在）出版物 Rank h5-index ※ h5-median ※ 488 745 440 689 1. Nature 2. IEEE/CVF Conference on Computer Vision and Pattern Recognition 3. The New England Journal of Medicine 434 897 4. Science 409 633 5. Nature Communications 375 492 6. The Lancet 368 678 7. Neural Information Processing Systems 337 614 8. Advanced Materials 327 420 9. Cell 320 482 10. International Conference on Learning Representations 304 584 CVPR NeurIPS ICLR 出典： https://scholar.google.com/citations?view_op=top_venues Copyright © 2024 Morpho, Inc. All Rights Reserved. 19

21.

第３次AIブームと CVPRの発展 ~画像処理 AIの発展~ 出典： https://scholar.google.com/citations?view_op=top_venues のアーカイブをhttps://web.archive.org/webで取得他AI系の学会はランク外(100位以下) 2012年の CVPRは h5-index97位 Copyright © 2024 Morpho, Inc. All Rights Reserved. 20

22.

https://proceedings.neurips.cc/paper_files/paper/2012/file/c399862d3b9d6b76c8436e924a68c45b-Paper.pdf

23.

https://proceedings.neurips.cc/paper_files/paper/2014/file/5ca3e9b122f61f8f06494c97b1afccf3-Paper.pdf

24.

第３次AIブームと CVPRの発展 ~画像処理 AIの発展~ AI(Deep Learning)の主役は画像処理！（だった） AlphaGoが人間のトップ棋士に勝つ ※囲碁の盤面を19x19の画像として CNN に入力、局面評価と有効手推定（Nature 2016にて報告） AlphaGo AlexNet GAN Copyright © 2024 Morpho, Inc. All Rights Reserved. 23

https://www.nature.com/articles/nature16961

25.

第３次AIブームと CVPRの発展 ~言語処理モデルの急速な発展 ~ 2018年以降： AlexNetから5年経過 →h5-indexが伸び始める Transformerモデルが登場し、言語処理において従来のニューラルネットモデルを次々と打ち負かす(NeurIPS 2017) 2018年にNeurIPS が初めて100位以内にランクイン AlphaGo AlexNet GAN Transformer Copyright © 2024 Morpho, Inc. All Rights Reserved. 24

https://proceedings.neurips.cc/paper_files/paper/2017/file/3f5ee243547dee91fbd053c1c4a845aa-Paper.pdf

26.

第３次AIブームと CVPRの発展 ~言語処理モデルの急速な発展 ~ 2018年以降： AlexNetから5年経過 →h5-indexが伸び始める 2019年にCVPRが10位にランクイン！ ※2018~はECCV, ICCVも100位以内にランクイン AlphaGo AlexNet GAN Transformer Copyright © 2024 Morpho, Inc. All Rights Reserved. 25

27.

第３次AIブームと CVPRの発展 ~言語処理モデルの急速な発展 ~ BERT(NAACL 2019)＆GPT(OpenAI)：言語処理のTransformerモデルを「自己教師」で学習するフレームワークにより、言語の生成およびその他タスクで飛躍的に性能向上。後に画像分野でも「自己教師」学習を後追いする。 2018年以降： AlexNetから5年経過 →h5-indexが伸び始める 2019年にCVPRが10位にランクイン！ ※ 言語の「自己教師」あり学習人間によるアノテーションを必要とせずに、データのみから学習可能なタスク (「穴埋め」や「文と文の連結判定」等 )による学習 AlphaGo AlexNet GAN BERT Transformer GPT-1,2,3 論文URL GPT-1 GPT-2 GPT-3(NeurIPS2020) Copyright © 2024 Morpho, Inc. All Rights Reserved. 26

28.

第３次AIブームと CVPRの発展 ~言語処理と画像処理の融合 ~ 言語・画像のそれぞれから抽出した特徴量を共通の次元の下に結びつける”CLIP”の登場(OpenAI) →Vision-Language手法の発展、データセットの確立 AlphaGo AlexNet GAN BERT Transformer GPT-1,2,3 CLIP Copyright © 2024 Morpho, Inc. All Rights Reserved. 27

https://arxiv.org/pdf/2103.00020

29.

第３次AIブームと CVPRの発展 ~高性能で利用しやすい生成 AIの登場~ 2位！画像生成モデルStable Diffusion(元論文はCVPR2022)＆文章生成サービス ChatGPT(OpenAI)の公開 →空前の「生成AI」ブームの到来！ AlphaGo AlexNet GAN BERT Stable Diffusion Transformer GPT-1,2,3 CLIP ChatGPT Copyright © 2024 Morpho, Inc. All Rights Reserved. 28

https://openaccess.thecvf.com/content/CVPR2022/papers/Rombach_High-Resolution_Image_Synthesis_With_Latent_Diffusion_Models_CVPR_2022_paper

30.

第３次AIブームと CVPRの発展 ~まとめ~ 画像処理AIが中心の時代出典： https://scholar.google.com/citations?view_op=top_venues のアーカイブをhttps://web.archive.org/webで取得 VisionLanguage 生成AI 言語処理AIの急伸 2位！ 2019年に10位！ 2012年の CVPRは h5-index97位 2018年にNeurIPSが初めて 100位以内にランクイン AlphaGo AlexNet GAN BERT ※近年(2018~)はECCV, ICCVも 100位以内にランクイン Stable Diffusion Transformer GPT-1,2,3 CLIP ChatGPT Copyright © 2024 Morpho, Inc. All Rights Reserved. 29

31.

CVPRで過去に発表された Deep Learning系研究のピックアップ ● ImageNet: A Large-scale Hierarchical Image Database (2009) 後にAlexNetによって第３次AIブームの火つけ役となるImageNetデータセットを提供。Jia Deng et al. ● Are We Ready For Autonomous Driving? The KITTI Vision Benchmark Suite (2012) 現在でも車載の映像・3D点群のベンチマークに用いられるKITTIデータセットを提供。Andreas Geiger and Philip Lenz and Raquel Urtasun ● Rich feature hierarchies for accurate object detection and semantic segmentation (2014) R-CNNを提案。CNNによる物体検知の先駆け。Ross Girshick et al. ● Fully Convolutional Networks For Semantic Segmentation (2015) セグメンテーションにおける線形層を捨て全てConvolutionで表現。Jonathan Long et al. ● You Only Look Once: Unified, Real-Time Object Detection (2016) いまや物体検知のデファクトスタンダードになりつつあるOne-Stageな物体検知のYOLOを提案。Joseph Redmon et al. ● Deep Residual Learning For Image Recognition (2016) いわゆるResNet。skip connectionにより安定して深いNNの安定的な学習に成功。Kaiming He et al. ● High-Resolution Image Synthesis With Latent Diffusion Models（2022） Stable Diffusionの元論文。特徴量次元で拡散モデルを扱うことで生成画像の品質を向上。Robin Rombach et al. ● Masked Autoencoders Are Scalable Vision Learners（2022）言語のBERTの成功を参考にした、マスク復元タスクによる画像の自己教師あり事前学習。Kaiming He et al. ● A ConvNet for the 2020s (2022) ResNetをベースにVision Transformerの知見を取り入れTransformerを超える性能を出したCNN。Zhuang Liu et al. Copyright © 2024 Morpho, Inc. All Rights Reserved. 30

32.

33.

AIを学ぶビジネスパーソンに CVPRにとって重要な理由まとめ 1. CVは長らく AI（Deep Learning）研究の最先端であり、今後も間違いなくその 1つであり続けるから 2. CVPRはCV分野のトップカンファレンスだから 3. 歴史的に重要な AI系の論文を次々に生み出してきたから Copyright © 2024 Morpho, Inc. All Rights Reserved. 32

34.

35.

CVPR 2024 開催日時 6/17 - 6/21 ＠シアトルタイムテーブル出展：OnTheWorldMap ● 6/17, 6/18 123 の Workshop と 24の Tutorial ● 6/19 - 6/21 Main conference ○ ○ ○ ○ ○ Welcome talk（&Award発表） Oral session Poster session Keynote（基調講演） Panel Discussion Webサイト CVPR 2024 (thecvf.com) 出典：https://cvpr.thecvf.com/Conferences/2024/ProgramOverview Copyright © 2024 Morpho, Inc. All Rights Reserved. 34

36.

https://cvpr.thecvf.com/media/cvpr-2024/Slides/32147.pdf

37.

https://cvpr.thecvf.com/media/cvpr-2024/Slides/32147.pdf

38.

39.

40.

41.

Best papers Generative Image Dynamics GLi, Zhengqi, et al. 生成AI 静止画→動画動画：https://generative-dynamics.github.io/ Rich Human Feedback for Text-to-Image Generation Liang Youwei et al. 生成AI 改善用データセット画像は論文より引用 Copyright © 2024 Morpho, Inc. All Rights Reserved. 40

42.

Best Student papers Mip-Splatting: Alias-free 3D Gaussian Splatting Zehao Yu, et al. ３D レンダリング動画：https://github.com/autonomousvision/mip-splatting BIOCLIP: A Vision Foundation Model for the Tree of Life Stevens et al. Vision-Language 生物専門のCLIP 画像：https://imageomics.github.io/bioclip/ Copyright © 2024 Morpho, Inc. All Rights Reserved. 41

43.

44.

45.

CVPR 2024 のトレンド CVPR2024採択論文： 2719本 → 全ては読めない…… ● 2024年現在のCV分野の潮流 ○ 最先端の手法は？ ○ 流行の分野は？ ○ 多くの論文に共通するトピックは？ → CVPR2024全論文のタイトルをテキストマイニング ※ 過去2年の発表（CVPR2022, 2023）と同様の調査を実施 Copyright © 2024 Morpho, Inc. All Rights Reserved. 44

46.

https://openaccess.thecvf.com/CVPR2024?day=all

47.

48.

CVPR 2024 のトレンド論文数増加の著しいタスク ● 画像生成 (generation) ● 再構成 (reconstruction) ○ 生成AI、3Dモデルの発展増加が落ち着いてきたタスク ● 物体検出 (detection） ● 領域分割 (segmentation) ● 識別 (recognition) ● 姿勢推定 (pose) ● 人物追跡 (tracking) ○ 技術として確立してきたか ○ 今後のブレイクスルーに期待 Copyright © 2024 Morpho, Inc. All Rights Reserved. 47

49.

50.

（参考） CVPR 2023 注目単語のその後 ● diffusion ● (vision-)language ○ 今年も大幅増以下の２つはやや減少 ● masked ○ 自己教師あり表現学習は確立した感（DINOv2） ● radiance(NeRF) ○ Gaussian Splatting(後述) との競合 ※”3D”自体は順調に増大 Copyright © 2024 Morpho, Inc. All Rights Reserved. 49

51.

CVPR 2024 のトレンド CVPR2024の急上昇ワード 1位~15位 15位~30位注目すべきは…… ● gaussian, splatting ● foundation, anything ● generation等 ● multi(-)modal ● text-to-image ● (vision-)language ● prompt, text Copyright © 2024 Morpho, Inc. All Rights Reserved. 50

52.

53.

CVPR 2024 のトレンド注目単語の推移 ● gaussian, splatting ● foundation, anything ○ ここ1年で急伸興味深い点：”learning”系の単語 ● (self, semi-)supervisedが減少 ● “training-free”論文の出現 ○ 基盤モデルの活用が影響？ ※ 生成AI、Vision-languageは前述のとおり、去年から増大 Copyright © 2024 Morpho, Inc. All Rights Reserved. 52

54.

CVPR 2024のトレンド CVPR2024での注目分野は 1. Gaussian Splatting 2. 基盤モデルの活用 3. 生成AI 4. Vision-Language 本日は、１～３の分野について深堀りして紹介 ※4.Vision-Languageに関する内容も、２や３の深堀りに一部含まれます Copyright © 2024 Morpho, Inc. All Rights Reserved. 53

55.

56.

57.

NeRF 前提知識： NeRF [1] 2020年に発表されて現在も大流行。自由視点から被写体を見た結果を再現できる。 (novel view synthesis) [1] Ben Mildenhall, et al., “NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis” Copyright © 2024 Morpho, Inc. All Rights Reserved. 56

https://arxiv.org/pdf/2003.08934.pdf

58.

3D Gaussian Splatting 前提知識： 3DGS Bernhard Kerbl et al. “3D Gaussian Splatting for Real-Time Radiance Field Rendering” （2023）[1] 2023年に発表され、今年に入り大流行 NeRFとは異なる明示的な表現により、高品質なレンダリンと高速な学習、新しい３D再構成手法として急速に普及した ※NeRF について詳しく知りたい方はCVPR 2022技術報告会の動画をご覧ください [2] [1] https://repo-sam.inria.fr/fungraph/3d-gaussian-splatting [2]https://www.youtube.com/watch?v=7NJjAafcfOU#t=3162 Copyright © 2024 Morpho, Inc. All Rights Reserved. 57

59.

3D Gaussian Splatting 前提知識： 3D Gaussian - 空間の表示単位 3D Gaussian (3DG)の属性 ● ● ● ● position: 楕円体の中心点の座標 color: 点のカラー (球面調和関数で近似的に表現) alpha: 不透明度 covariance: 3x3 Gaussianの共分散行列 2D Gaussian(ガウス分布)の等高線は、平面上で楕円の形 2x2共分散行列が、楕円の方向とサイズを決定同様に、3D Gaussianは、3x3共分散行列によって 3D 空間の楕円体の形状が定義される 2D ガウシアン分布 [1,2] [1] https://huggingface.co/blog/gaussian-splatting [2] https://en.wikipedia.org/wiki/Multivariate_normal_distribution Copyright © 2024 Morpho, Inc. All Rights Reserved. 58

60.

3D Gaussian Splatting 前提知識： Splatting - Point-base Rendering ボリュームレンダリングの種類[1] ● Ray casting : カメラから各画素に向かって直線を伸ばす、空間内をサンプリングする ○ 高品質を保持 ● Splatting : カメラポーズに応じて3D Gaussian を2D に投影し、カメラまでの距離の順番に色を重ねていく ○ 品質を犠牲にして処理速度を優先 volume ray casting[2] レンダリング結果と学習画像のlossに応じて、3D Gaussian の座標、サイズ、あるいは Gaussian の分割・コピーなどの処理を最適化する [1] https://en.wikipedia.org/wiki/Volume_rendering#Direct_volume_rendering [2] https://en.wikipedia.org/wiki/Volume_ray_casting [3] https://www.youtube.com/watch?v=_wRbq8KnaVg&t=37s splatting rendering[3] Copyright © 2024 Morpho, Inc. All Rights Reserved. 59

61.

3D Gaussian Splatting まとめ - NeRF の欠点: ニューラルネットワークによる学習 - レンダリングと学習が遅い - 物体が何も存在しない領域も暗黙的に学習するため、非効率 (カメラポーズの精度が悪い場合、モヤモヤした結果になりやすい) - 解釈できないので編集は困難 - 3D Gaussian Splattingの利点 : Explicit Representation (ニューラルネットワークを使わない明示的な表現) - Splattingでレンダリングと学習が高速 - 後から編集が可能 Instant-NGP v.s. 3DGS [1] [1] https://repo-sam.inria.fr/fungraph/3d-gaussian-splatting Copyright © 2024 Morpho, Inc. All Rights Reserved. 60

https://repo-sam.inria.fr/fungraph/3d-gaussian-splatting

62.

論文紹介 ● 画質改善 ○ Zehao Yu, et al. "Mip-Splatting: Alias-free 3D Gaussian Splatting" ● Mesh再構成 ○ Antoine Guedon & Vincent Lepetit “SuGaR: Surface-Aligned Gaussian Splatting for Efficient 3D Mesh Reconstruction and High-Quality Mesh Rendering” ● SLAM ○ Hidenobu Matsuki, et al. "Gaussian Splatting for SLAM" ● 動的シーン(4D)再構成 ○ Guanjun Wu, et al. "4D Gaussian Splatting for Real-Time Dynamic Scene Rendering" Copyright © 2024 Morpho, Inc. All Rights Reserved. 61

63.

Mip-Splatting: Alias-free 3D Gaussian Splatting CVPR2024 の受賞論文 Best Student Papers 要点：学習データとサンプリングレート（カメラと物体の距離）が異なる場合に発生するアーティファクトを改善する原因：シーンの高周波情報を取得するため、小さな3DG も多数生成する。レンダリング時に2D 平面に投影されると、3DGのサイズが 1 ピクセル未満になる可能性がある。レンダリング時に投影された小さいガウシアンを拡張する。この拡張によりゴーストが発生。改善のためのアイディア： ● ● 信号理論を適用して 3DG のサイズ最小値を決定、無意味な高周波3DG生成を回避する投影された3DGが1ピクセルより小さい場合のみ拡張が実行されるレンダリング結果 v.s. GT アーティファクトの分析 Zehao Yu, et al. "Mip-Splatting: Alias-free 3D Gaussian Splatting" Copyright © 2024 Morpho, Inc. All Rights Reserved. 62

64.

SuGaR: Surface-Aligned Gaussian Splatting for Efficient 3D Mesh Reconstruction and High-Quality Mesh Rendering 特殊な正規化項を追加することにより、学習された3DGの不透明度を可能な限り 1 まで最適化し、形状もより平坦にし、メッシュの特性に合わせる学習済みシーンの3DGの密度に基づいて、古典的なメッシュ抽出アルゴリズム[1]を適用元の3DGはMesh生成に向いていないオプションの後処理として、各メッシュ三角形とその中の3DGにバインドする。メッシュの編集ソフトで、3DGの編集も可能になって、3DGSの高品質なレンダリング効果を維持できる正規化追加後学習された 3DG Mesh Bounding [1] Michael Kazhdan et al. ” Poisson Surface Reconstruction” Meshを通じて高品質なシーンを編集可能 Antoine Guedon & Vincent Lepetit “SuGaR: Surface-Aligned Gaussian Splatting for Efficient 3D Mesh Reconstruction and High-Quality Mesh Rendering” Copyright © 2024 Morpho, Inc. All Rights Reserved. 63

https://hhoppe.com/poissonrecon.pdf

65.

Gaussian Splatting for SLAM 3DGS を使用して単眼 Dense SLAM を実現 1. 2. 3. レンダリング誤差から新フレームのカメラ姿勢を推定既存のキーフレームとの視野カバー量からキーフレームにするかを判定キーフレームセットを使って全体マップ(3DGS)を更新ループ検出 (Loop-closure) なし内で top精度達成システム全体はオンラインで 3fps で動作。 SfM を使用せず、改修した3DGSのみを使用して SLAM を実現し、 3D-GS によるカメラのポーズ解決の可能性を証明。新しい方向性を示した。 Hidenobu Matsuki, et al. "Gaussian Splatting for SLAM" Copyright © 2024 Morpho, Inc. All Rights Reserved. 64

66.

4D Gaussian Splatting for Real-Time Dynamic Scene Rendering 動くシーンの3DGS再構築既存の手法では、フレームごとに 3D-GS 再構築を個別に実行したため、メモリ使用量が時間と線形に増加していた。時間の経過に伴う3DGの変形は変形ネットワークを通じて学習され、同一3DGセットで長い時間のシーンを学習可能（メモリ使用量減少）変形された3DGを使って、元の 3DGS 手法と同じレンダリングする Guanjun Wu, et al. "4D Gaussian Splatting for Real-Time Dynamic Scene Rendering" Copyright © 2024 Morpho, Inc. All Rights Reserved. 65

67.

68.

基盤モデル (foundation model) とは基盤モデル ● ● ● 大規模データで学習され、多様なタスク汎用性をもち、特定の目的への適応（ファインチューニング）が容易なモデル基盤モデルの例 ● ● ● ● ● BERT, GPT シリーズ：自然言語処理 ... いわゆる LLM (Large Language Model) CLIP：言語-画像のマルチモーダル SAM：セグメンテーション DINOv2：コンピュータビジョン diffusion (Imagen, stable diffusion, …)：画像生成画像認識モデルの数々 Yang, Gee and Shi, “Brain Decodes Deep Nets”, CVPR2024 Copyright © 2024 Morpho, Inc. All Rights Reserved. 67

69.

基盤モデル活用のトレンド ● 基盤モデル開発は大企業/研究機関に限られる ● 少量のデータで特化して学習するより、基盤モデルの知識を借りる ○ これまでの “pretraining” とは意味合いが変わってきたように感じる象徴的だったのが🔥❄マーク（これを注釈なしで使う論文が多数！） Lai et al, “LISA: Reasoning Segmentation via Large Language Model”, CVPR2024 Copyright © 2024 Morpho, Inc. All Rights Reserved. 68

70.

基盤モデル活用のアラカルト拡散モデルで単眼デプス推定 CLIPで生物の学名分類 (Best Student Paper) Ke et al., “Repurposing Diffusion-Based Image Generators for Monocular Depth Estimation” Stevens et al., “BioCLIP: A Vision Foundation Model for the Tree of Life” taxonomy を文字列として扱うのが面白い SAM で心臓エコーのビデオセグメンテーション Deng et al., “MemSAM: Taming Segment Anything Model for Echocardiography Video Segmentation” NeRF に悪影響を及ぼす動物体領域の検出 Chen et al., “NeRF-HuGS: Improved Neural Radiance Fields in Non-static Scenes Using Heuristics-Guided Segmentation” Copyright © 2024 Morpho, Inc. All Rights Reserved. 69

71.

産業別の活用例医療や自動運転といったクリティカルな分野にも基盤モデル活用のトレンドが興りつつある ● ● 医療 ○ 医療画像セグメンテーション自動運転 ○ マルチモーダル LLM を導入した路上認識、走路予測、プランニング Deng et al., “MemSAM: Taming Segment Anything Model for Echocardiography Video Segmentation” Ma et al., “LaMPilot: An Open Benchmark Dataset for Autonomous Driving with Language Model Programs” Copyright © 2024 Morpho, Inc. All Rights Reserved. 70

72.

画像・動画合成セッションで起きた基盤モデル活用のトレンド 5本中4本が生成モデルを制御する内容 “便利だが扱いにくい”ことの表れ？ ● 学習なしで画像生成モデルを制御する方法 ○ Si et al., FreeU: Free Lunch in Diffusion U-Net ■ 概要：UNet の skip connection と backbone の結合係数を変更してテクスチャ調整 ● 制御しやすくする機構を挟み込む ○ ○ Feng et al., Ranni: Taming Text-to-Image Diffusion for Accurate Instruction Following ■ 概要：ミドルウェアとして制御パネルを導入し Text2Panel, Panel2Image を学習 Hu et al., Instruct-Imagen: Image Generation with Multi-modal Instruction ■ 概要：マルチモーダル制御 (エッジやスタイルなどの指定) が可能なように学習 ● 制御できるアーキテクチャの提案 ○ Zhang et al., Attention Calibration for Disentangled Text-to-Image Personalization ■ 概要：attention map を正確にガイドすることで概念レベルでの Text-to-Image 品質向上 Copyright © 2024 Morpho, Inc. All Rights Reserved. 71

73.

論文紹介：マルチモーダルモデルの性能向上 Eyes Wide Shut? Exploring the Visual Shortcomings of Multimodal LLMs ● ● ● ● Tong et al. 主張：Multimodal LLM の視覚能力に未だ短所があることを指摘観測：CLIP (画像-言語) と DINOv2 (画像) の特徴量空間を比較し、CLIPで縮退する画像ペアを特定手法：Mixture-of-Features という特徴量混合手法で DINOv2 の強い画像認識能力を取り入れることで、画像についての質問回答を性能向上 Copyright © 2024 Morpho, Inc. All Rights Reserved. 72

74.

論文紹介：より良い Reasoning (論理的思考 ) の獲得 ● LISA: Reasoning Segmentation via Large Language Model ○ Lai et al. ○ Questioning なセグメンテーションを予測。 ○ Multimodal LLM と画像モデルを組み合わせ、 LoRA と Decoder を学習 “画像の中で最もビタミンCの多い食べ物をマスクして” ● Visual Program Distillation: Distilling Tools and Programmatic Reasoning into Vision-Language Models ○ Hu et al. ○ vision-language model に Reasoning を蒸留 ○ LLM でタスクを解くプログラムを生成 ○ 正しく解けるプログラムをフィルタリング ○ LLM の Chain-of-Thought (論理の積み重ね) に変換 Copyright © 2024 Morpho, Inc. All Rights Reserved. 73

75.

基盤モデル活用パートまとめ ● CVPR (AI学術最先端) でも基盤モデル活用が潮流 ○ 大規模データ・汎用性に裏打ちされた能力を使う ● 産業活用もあらゆる方向に ○ 医療、車載、自然科学など ● さらに先の認識力へ ○ visual question answering (VQA), reasoning, ... Copyright © 2024 Morpho, Inc. All Rights Reserved. 74

76.

77.

CVPR 2024 における拡散モデルの存在感生成 AI 分野は、拡散モデルが大流行 - 拡散モデルを用いた生成 AI の出現により生成画像のクオリティが著しく向上 Vision-language 基盤モデルと結びついて出力を制御可能に（Text-to-Image） OSS の Text-to-Image モデル Stable Diffusion (SD) が出現し、研究が加速 Chat GPT4o "会議室の象" 拡散モデルの概念図 Text-to-Image の概念図 "Text" … 画像を徐々にデノイズ … 画像より小さい潜在空間でデノイズ Copyright © 2024 Morpho, Inc. All Rights Reserved. 76

78.

CVPR 2024 における拡散モデルの存在感拡散モデル研究の主観的トレンド - Text-to-Image は順当に増加し、最もホットな話題より高度な生成 AI が登場 - Text/Image-to-Video、Text-to-3D など生成以外のタスクでの利用の拡大（SD の基盤モデル化） - 大規模データで事前学習した SD を prior として利用 - 専門タスクに必要な学習データ数を削減し、かつ精度向上 - Diffusion-based や Diffusion prior といった用語の増加 "Diffusion" を含むタイトルの単語内訳全タイトル内の "X-to-Y" 内訳 Copyright © 2024 Morpho, Inc. All Rights Reserved. 77

79.

80.

Generative Image Dynamics | 一枚絵から自然な周期的アニメーションを生成動画生成の難所：時系列一貫性（ Temporal consistency）解決策：意味のある動きだけを以下の低次元表現として抽出 - Motion field ：Optical flow の時系列 Spectral volume ：Motion field の周波数成分各フレームを直接生成するのではなく、Spectral volume を生成することで時系列一貫性を向上動きの初期値や、ループ制約をつけることが可能（下図左のデモ）制約：周期的な動きにのみ対応 Li, Zhengqi, et al. "Generative image dynamics." Copyright © 2024 Morpho, Inc. All Rights Reserved. 79

81.

RichHF-18K | 生成 AI による出力を人間が採点し、モデルにフィードバック生成 AI 出力画像における誤謬 - Distortion Misalignment Low eithetics ：不自然な造形（おかしな人の手の形など）：入力テキストにそぐわない画像：美しくない出力これらの評価指標に対し、悪い場所も含んだ人間の採点を実施し、結果を公開数種の生成 AI へのフィードバックを行い、出力の改善を確認 Liang, Youwei, et al. "Rich human feedback for text-to-image generation." Copyright © 2024 Morpho, Inc. All Rights Reserved. 80

82.

Animate Anyone | 骨格の動きを与えて、人物の写真を自由に動かす骨格（図左下の棒人間）を出発点に拡散モデル（SD の改変版）でフレームを生成する課題：時系一貫性、骨格による制御解決策 - 時系列一貫性 → UNet の各段に Temporal-attention を挿入（動画系タスクでは一般的）骨格による制御 → UNet と合同な "ReferenceNet" の中間層を UNet の各段に連結出力動画は驚くべきクオリティ（右図）動画：https://humanaigc.github.io/animate-anyone/ Hu, Li. "Animate anyone: Consistent and controllable image-to-video synthesis for character animation." Copyright © 2024 Morpho, Inc. All Rights Reserved. 81

https://humanaigc.github.io/animate-anyone/

83.

RichDreamer | Text-to-Image の大規模データを利用した Text-to-3D 3D 生成の難所：幾何的一貫性（ Geometric consistency）、データ不足解決策： - DMTeT や NeRF といった 3D 表現を学習することで幾何的一貫性を持った立体を直接生成 - SD の学習にも使われた 2D の大規模データ LAION を利用することでデータ不足問題を解決動画：https://github.com/modelscope/richdreamer Qiu, Lingteng, et al. "Richdreamer: A generalizable normal-depth diffusion model for detail richness in text-to-3d." Copyright © 2024 Morpho, Inc. All Rights Reserved. 82

https://github.com/modelscope/richdreamer

84.

EscherNet | 拡散モデルを用いた新規視点合成動画：https://kxhit.github.io/EscherNet N 視点-to-M 視点生成課題 - Target-target consistency ：M 個の出力の一貫性 Target-reference consistency ：入力と出力の一貫性 Geometric consistency ：入出力の幾何的一貫性 Cross attention で見た目の一貫性を向上幾何的一貫性には三次元のカメラ姿勢が本質的情報 - カメラ姿勢を CaPE エンコードして画像と一緒に入力することで幾何的一貫性を向上ただし入力枚数 N を十分増やすと、一貫性が NeRF に劣る - 拡散モデルによるアーティファクトが残る Kong, Xin, et al. "Eschernet: A generative model for scalable view synthesis." Copyright © 2024 Morpho, Inc. All Rights Reserved. 83

https://kxhit.github.io/EscherNet

85.

Marigold | 拡散モデルを利用した深度推定単眼深度推定を「入力画像に制約された深度画像生成」と捉えた - 学習推論：SDv2 の fine-tune。ノイズ付き潜在深度を、潜在入力画像と繋ぎ合わせてデノイズ：潜在入力画像とノイズを一緒にデノイズ → 元のノイズ部分をデコードすると深度に事前学習済み SDv2 には、58 億枚を超える自然画像の prior が内包されている - 7500 枚のシミュレーションデータで fine-tune Ke, Bingxin, et al. "Repurposing diffusion-based image generators for monocular depth estimation." Copyright © 2024 Morpho, Inc. All Rights Reserved. 84

86.

DiffusionLight | 拡散モデルを利用した照明環境推定特撮などで照明環境記録に用いるクロム鋼球を一枚絵からインペイント - クロム鋼球から照明環境を復元クロム鋼球を安定して生成することが技術的課題 - 入力と同様にマスクした深度画像を ControlNet で条件付け生成サンプルの中央値にノイズを加えさらにデノイズ（SDEdit）を反復 Prompt engineering → HDR 照明環境に応じたクロム鋼球を復元基盤モデルとしての利用というより、力技的なヒューリスティック Star Wars: The Making of Episode I, The Phantom Menace Phongthawee, Pakkapon, et al. "Diffusionlight: Light probes for free by painting a chrome ball." Copyright © 2024 Morpho, Inc. All Rights Reserved. 85

87.

生成 AI パートまとめ拡散モデルの研究動向 - - 拡散モデルが大流行中 - タイトルに "Diffusion" を含む論文は去年の３倍以上昨年同様、Text-to-Image が最多 - Artifact, misalignment 問題の解決策が多数提案された今年新たに、より高度な生成「Text-to-3D」「Text/Image-to-Video」が出現以下の課題が論点。多くの解決策が提案されたが、適用可能ドメインなどに制約がある - 幾何的一貫性（Geometric consistency） - 時系列一貫性（Temporal consistency ） SD が基盤モデルとして定着 - 各専門タスクで成果を上げた Copyright © 2024 Morpho, Inc. All Rights Reserved. 86

88.

89.

Rethinking Inductive Biases for Surface Normal Estimation Gwangbin Bae Andrew J. Davison Dyson Robotics Lab, Imperial College London

90.

DSINE | Rethinking Inductive Biases for Surface Normal Estimation 法線推定（ Surface normal estimation）問題 - 入力画像から法線画像を推論する弊社オフィス法線画像 Bae, Gwangbin, and Andrew J. Davison. "Rethinking inductive biases for surface normal estimation." 色 (RGB) が表面の法線 (XYZ) に対応 Copyright © 2024 Morpho, Inc. All Rights Reserved. 89

91.

DSINE | 法線推定における帰納バイアス帰納バイアス（ Inductive Bias） - データに共通した手がかり画像だけから表面の方向が分かるのは、三次元的な帰納バイアスがあるから Bae, Gwangbin, and Andrew J. Davison. "Rethinking inductive biases for surface normal estimation." Copyright © 2024 Morpho, Inc. All Rights Reserved. 90

92.

DSINE | 法線推定における帰納バイアス Pixel-wise ray direction ①「見える面」と「見えない面」の境界線上の法線は、カメラへの投影方向と垂直 - カメラの内部パラメタ既知の下では、そのピクセルにおける正解が分かる境界条件として利用 ②すべてのピクセルにおいて、法線は「見える側」の半球上にある - カメラの内部パラメタ既知の下では、すべてのピクセルについて値域が半減 Bae, Gwangbin, and Andrew J. Davison. "Rethinking inductive biases for surface normal estimation." Copyright © 2024 Morpho, Inc. All Rights Reserved. 91

93.

DSINE | 法線推定における帰納バイアス Inter-pixel rotation estimation ③ エッジを中心にして法線が回転する - エッジのベクトルが分かれば、回転角 θ を求めればよい任意の 3D ベクトルの回転を考えるより簡単 ④ 曲面上の法線同士の角度は、エッジにおける法線同士の角度から分かる - エッジにおける法線は①で求まる Bae, Gwangbin, and Andrew J. Davison. "Rethinking inductive biases for surface normal estimation." Copyright © 2024 Morpho, Inc. All Rights Reserved. 92

94.

DSINE | 帰納バイアスの利用方法： Pixel-wise ray direction Ray direction encodings - ネットワークの入力として、position embedding の代わりに、各ピクセルの投影方向を使用 Cu, Cv：中心座標 fu, fv ：焦点距離 - CAM-Convs (CVPR 2019) も同様の embedding を使用しているが、position embedding も併用している - DSINE は ray direction embedding のみ使用 Bae, Gwangbin, and Andrew J. Davison. "Rethinking inductive biases for surface normal estimation." Copyright © 2024 Morpho, Inc. All Rights Reserved. 93

95.

DSINE | 帰納バイアスの利用方法： Pixel-wise ray direction Ray ReLU activation - カメラに映るはずがない法線をクロップ - 法線と投影方向が必ず直角以上の角をなすよう制約付け２個のベクトル（n: 法線、r: 投影方向）を受け取り、クロップされた法線ベクトル n' を計算 Bae, Gwangbin, and Andrew J. Davison. "Rethinking inductive biases for surface normal estimation." Copyright © 2024 Morpho, Inc. All Rights Reserved. 94

96.

DSINE | 帰納バイアスの利用方法： Inter-pixel rotation estimation 基本のアイデア：各法線を、近隣法線の合成で求める同じ画像上の２点が ① 同じ面上にある場合 - 局所的には同一平面にあるとみなせ、なす角は非常に小さい ② 互いに交わる異なる面上にある場合 - 回転軸のベクトルは ③ 互いに交わらない面上の点同士、または不連続面 - どうしようもないので、そのようなペアの重要度を下げる Bae, Gwangbin, and Andrew J. Davison. "Rethinking inductive biases for surface normal estimation." Copyright © 2024 Morpho, Inc. All Rights Reserved. 95

97.

DSINE | ネットワーク構造 - 主に２個のコンポーネントに分かれ、交互に推論する - 深層学習による回転軸、回転角、合成比率の推定 - それらを使って各ピクセルの法線を更新隠れ状態から推定される３つの量以外は、IronDepth (BMVC 2022) と同様の構造エッジ抽出回転軸と回転角、合成比率の推定近隣 Normal 同士の合成 Bae, Gwangbin, and Andrew J. Davison. "Rethinking inductive biases for surface normal estimation." Copyright © 2024 Morpho, Inc. All Rights Reserved. 96

98.

DSINE | 実験結果 - ベンチマーク用データセットで精度検証 - 比較対象である Omnidata v2 は２週間の学習が必要なのに対し、DSINE は 12 時間 - 帰納バイアスの明示的なモデリング - 軽量なモデルパラメタ（72M） - 特殊なカメラ内部パラメタでの性能が大きく向上 - Ablation 解析により、回転による合成が有効と判明 Bae, Gwangbin, and Andrew J. Davison. "Rethinking inductive biases for surface normal estimation." Copyright © 2024 Morpho, Inc. All Rights Reserved. 97

99.

DSINE | ビデオ適用の結果例動画URL：https://www.youtube.com/watch?v=2y9-35c719Y&t=20s Bae, Gwangbin, and Andrew J. Davison. "Rethinking inductive biases for surface normal estimation." Copyright © 2024 Morpho, Inc. All Rights Reserved. 98

https://www.youtube.com/watch?v=2y9-35c719Y&t=20s

100.

DSINE | 結論まとめ - 法線推定に使える帰納バイアスを洗い出し、重要な特徴量が何かを再考法線同士の関係性を明示的にモデルして、あとは Deep にお任せ必要な学習データの削減、モデルの軽量化、出力の安定化、を実現感想 - 基盤モデルを使った最先端研究に一石を投じる研究実用性の面では、こういった工夫が必要となることが多い - アノテーションできるデータ量の制約 - 実行環境における計算リソースの制約汎用 AI ではなくタスク特異的なプロダクト開発が多い現場で参考になるアプローチ最近では単眼デプス推定と同時に解くことで副次的に法線推定の精度を上げる研究も - そういった手法との比較は不十分（だが自分で試すと DSINE の方が良さそう）入力 DepthAnything (CVPR 2024) Bae, Gwangbin, and Andrew J. Davison. "Rethinking inductive biases for surface normal estimation." DSINE Copyright © 2024 Morpho, Inc. All Rights Reserved. 99

101.

Comparing the Decision-Making Mechanisms by Transformers and CNNs via Explanation Methods Mingqi Jiang, Saeed Khorram, Li Fuxin Collaborative Robotics and Intelligent Systems (CoRIS) Institute, Oregon State University

102.

Comparing the Decision-Making Mechanisms by Transformers and CNNs via Expalanation Methods ● ● ● Best Student Paper Runner-up 動機：CNN は画像の一部領域だけを見て分類しているかもしれない成果：画像のどこをみて認識しているかをいくつものモデルにわたり網羅的に調査。2種類の認識メカニズムを発見。 Copyright © 2024 Morpho, Inc. All Rights Reserved. 101

103.

Comparing the Decision-Making Mechanisms by Transformers and CNNs via Expalanation Methods ● 結果 ○ 2種類の認識メカニズムと、モデル構造ごとに認識メカニズムが異なることを発見 ■ Compositional（全体像を見て判断）：ConvNeXT, 蒸留していない transformer ■ Disjunctive（一部でもバッチリヒントがあると認識）：CNN, 蒸留した transformer Copyright © 2024 Morpho, Inc. All Rights Reserved. 102

104.

Comparing the Decision-Making Mechanisms by Transformers and CNNs via Expalanation Methods ● 提案手法：MSE (Minimal Sufficient Explanation) ○ ビームサーチ的にブラー領域を広げてモデル認識率を比較 Copyright © 2024 Morpho, Inc. All Rights Reserved. 103

105.

106.

Comparing the Decision-Making Mechanisms by Transformers and CNNs via Expalanation Methods ● 結果：2種の認識メカニズムの発見 ○ Compositional（全体像を見て判断）：ConvNeXT, 蒸留していない transformer ○ Disjunctive（一部でもバッチリヒントがあると認識）：CNN, 蒸留した transformer ● ● normalization の種類が影響モデルごとに認識に用いる特徴量が異なる Copyright © 2024 Morpho, Inc. All Rights Reserved. 105

107.

Rich Human Feedback for Text-to-Image Generation Youwei Liang, Junfeng He 他 University of California San Diego, Google Research 他

108.

Rich Human Feedback for Text-to-Image Generation ● ● Best Paper 背景：画像生成モデルの生成画像にはまだ不完全な点がある ○ artifact / implausibility ○ テキストとの misalignment ● 論文概要： ○ 人間がフィードバックをかけたデータセットを提案 ○ 当データセットを用いて生成画像の不完全な箇所とスコアを予測するモデルを提案 ○ 生成モデルをチューニングすることで画像生成品質を向上 Copyright © 2024 Morpho, Inc. All Rights Reserved. 107

109.

Rich Human Feedback for Text-to-Image Generation ● 先行研究：Reinforcement Learning with Human Feedback ○ モデル出力に対して人間がスコアを付ける（フィードバック） ○ そのスコアをもとにモデルを強化学習 ● 本研究の新規性 ○ よりリッチな Human Feedback を与える： ■ 生成画像のおかしな点と、文章中の合わない箇所にマーク ■ 3項目+1総評で 4種類のスコア評価 ■ RichHF-18k データセットを作成 Copyright © 2024 Morpho, Inc. All Rights Reserved. 108

110.

Rich Human Feedback for Text-to-Image Generation ● Human Feedback を学習 ○ ViT と text embed の比較的シンプルなモデル、 RAHF (Rich Automatic Human Feedback) を提案 ○ 人間がマークした(画像上とテキスト上の)位置とスコアを予測 Copyright © 2024 Morpho, Inc. All Rights Reserved. 109

111.

Rich Human Feedback for Text-to-Image Generation ● RAHF を活かして生成品質向上 a. スコアが上がるように生成AIをファインチューニング ■ ファインチューニング後の方が良いと人間が客観的評価 b. ヒートマップをマスクとしてインペインティング Copyright © 2024 Morpho, Inc. All Rights Reserved. 110

112.

まとめ 1. CVPRとは何か、なぜ重要なのか ○ AIブームの最先端を走ってきた CV分野で最高峰の国際学会 ○ 年々増加する論文数、世間のトレンドにマッチした分野の拡大 ○ 今年は生成 AI・3D・Vision-Languageに関する論文が Best paper 2. CVPR2024のトレンド ○ 全論文タイトルからトレンドワード抽出 ○ CVPR2024におけるトレンドワードの動向を紹介 ■ ■ ■ 3D Gaussian-Splatting 基盤モデルの活用生成モデル 3. 注目論文ディープダイブ ○ “Rethinking Inductive Biases for Surface Normal Estimation” (Bae & Davison) ○ “Comparing the Decision-Making Mechanisms by Transformers and CNNs via Explanation Methods” (Mingqi Jiang et al.) ○ “Rich Human Feedback for Text-to-Image Generation” (Youwei Liang et al.) Copyright © 2024 Morpho, Inc. All Rights Reserved. 111

JDLA主催CVPR2024技術報告会ーコンピュータビジョン技術の最前線ー

モルフォ

関連スライド

HiPPO/S4解説

Deep Unrolling ~Learned ISTA (LISTA)~

紹介論文_S. H. Chan, X. Wang, and O. A.Elgendy, ”Plug and Play ADMM for Image RestorationFixed Point Convergence and Applications”

A Brief Survey of Schrödinger Bridge (Part II)

JDLA主催「CVPR2023技術報告会」コンピュータビジョン技術の最前線

紹介論文_S. Baker & T.Kanade (2020)“Limits on Super Resolution and How to Break them”

各ページのテキスト

JDLA主催CVPR2024技術報告会 ー コンピュータビジョン技術の最前線 ー

モルフォ

関連スライド

HiPPO/S4解説

Deep Unrolling ~Learned ISTA (LISTA)~

紹介論文_S. H. Chan, X. Wang, and O. A.Elgendy, ”Plug and Play ADMM for Image RestorationFixed Point Convergence and Applications”

A Brief Survey of Schrödinger Bridge (Part II)

JDLA主催「CVPR2023技術報告会」 コンピュータビジョン技術の最前線

紹介論文_S. Baker & T.Kanade (2020)“Limits on Super Resolution and How to Break them”

各ページのテキスト

JDLA主催CVPR2024技術報告会ーコンピュータビジョン技術の最前線ー

JDLA主催「CVPR2023技術報告会」コンピュータビジョン技術の最前線