13.1K Views
September 20, 24
スライド概要
2024年7月18日に、日本ディープラーニング協会主催(JDLA)の「CVPR2024技術報告会」にてモルフォの技術者が登壇した際の、当日の発表資料です。
詳細はテックブログをご覧ください。
https://techblog.morphoinc.com/
CVPR2024 技術報告会 コンピュータビジョン技術の最前線 2024/07/18 株式会社モルフォ リサーチャー 三宅・鈴木・龍・中川
はじめに 1. はじめに・株式会社モルフォのご紹介 (約10分) 2. CVPRとは何か、なぜ重要か、ビジネスパーソン向け CVPR入門 (約15分) 3. 今年のCVPRのトレンド:モルフォ視点で注目の分野・論文のご紹介 (約30分) 4. モルフォ視点で注目論文ディープダイブ (約30分) ● “Rethinking Inductive Biases for Surface Normal Estimation” (Bae & Davison) ● “Comparing the Decision-Making Mechanisms by Transformers and CNNs via Explanation Methods” (Mingqi Jiang et al.) ● “Rich Human Feedback for Text-to-Image Generation” (Youwei Liang et al.) Copyright © 2024 Morpho, Inc. All Rights Reserved. 1
株式会社モルフォのご紹介 Copyright © 2024 Morpho, Inc. All Rights Reserved. 2
株式会社モルフォについて 2004 2011 創業 代表取締役社長 平賀 督基 5 カ国 海外展開 151 東証マザーズ上場 グループ社員 135 54 特許 海外売上比率 % Masaki Hilaga 画像処理 / AI技術の研究・製品開発 スマートデバイス・車載モビリティ・DX向けソフトウェア事業を グローバルに展開 23.8 19.2 億 グループ売上 % 研究開発費率 2023年10月期時点 Copyright © 2024 Morpho, Inc. All Rights Reserved. 3
事業領域 先進のイメージイング・テクノロジーにより、利便性・安心安全・生産性の向上に貢献する ・スマートフォン ・PC/タブレット端末 スマート デバイス ・車載カメラ ・ドライブレコーダー ・OCR ・監視カメラ 等 車載 モビリティ DX Copyright © 2024 Morpho, Inc. All Rights Reserved. 4
スマートデバイス|画像処理(古典手法 × Deep Learning) 動画手振れ補正 製品紹介動画 URL: https://www.morphoinc.com/technology/vstab_hlapse ナイトモード向けダイナミックレンジ補正 ノイズ除去AI技術 Copyright © 2024 Morpho, Inc. All Rights Reserved. 5
車載モビリティ|自動車向け AI技術 ① 車室外カメラ 自動運転・運転支援 (AD/ADAS) ② 車室内カメラ 乗員状態認識 (DMS/OMS) ③ テレマティクス クラウド連携サービス クラウド サーバー 道路劣化診断(ひび割れ・白線薄れ) AIによるドラレコ動画の要約 危険運転判定 Copyright © 2024 Morpho, Inc. All Rights Reserved. 6
DX|国立国会図書館 OCR OCR処理プログラムの研究開発の委託事業 明治期~昭和期の書籍画像( 2億枚)のテキスト化処理。 モルフォの最新AI技術・画像処理技術を取り入れた OCR処理プログラムの研究開発を実施。 ●多様なレイアウト・文字種に対応し、明治期~昭和期 までの複雑な資料のテキスト化を実現。 ●国立国会図書館デジタルアーカイブで歴史的資料も 全文テキスト検索が可能に。 Copyright © 2024 Morpho, Inc. All Rights Reserved. 7
その他| SoftNeuroによるNeural Networkの高速推論 スーパーコンピュータ「富岳」における深層学習を用いた 3D 銀河形成シミュレーションの推論の約 19倍高速化を実現 東京大学、東北大学、神戸大学が推進するスーパーコンピュータ「富岳」上での高解像 度銀河形成シミュレーションの高速化プロジェクト モルフォのディープラーニング推論エンジン『SoftNeuro』を提供 → シミュレーション中のCNNの推論時間の高速化および電力量削減を実現 項目 時間(ms) 電力量(W*s) 富岳で標準的に利用可能な TensorFlow 2820 130.2 「富岳」に最適化した 『SoftNeuro』を使用 147 93%減 19倍 8.6 本研究を利用した成果は、学術誌”Monthly Notices of the Royal Astronomical Society”の論文として報告 (https://academic.oup.com/mnras/article/526/3/4054/7316686) Copyright © 2024 Morpho, Inc. All Rights Reserved. 8
モルフォは画像処理と AI技術領域に特化した ソフトウェア研究開発カンパニーです Copyright © 2024 Morpho, Inc. All Rights Reserved. 9
CVPRとは何か、なぜ重要か、 ビジネスパーソン向け CVPR入門 Copyright © 2024 Morpho, Inc. All Rights Reserved. 10
CVPRとは? Copyright © 2024 Morpho, Inc. All Rights Reserved. 11
CVPRとは? 初回は1983年にT.KanadeとD.Balladが開催 毎年、6月から7月頃に開催されるComputer Vision系の国際会議 画像:https://cvpr.thecvf.com/media/cvpr-2024/Slides/32147.pdf 開催地は主にアメリカ国内 CVPR Conference on Computer Vision and Pattern Recognition Copyright © 2024 Morpho, Inc. All Rights Reserved. 12
CVPRとは? 人間の目と脳が持つ高次視覚機能 を理解し、 コンピュータによる再現・実証を目指す分野 画像:https://cvpr.thecvf.com/media/cvpr-2023/Slides/23313.pdf CVPR Conference on Computer Vision and Pattern Recognition 国際会議 コンピュータービジョン パターン認識 Copyright © 2024 Morpho, Inc. All Rights Reserved. 13
CVPRとは コンピュータビジョン(CV)の国際学会です。 Copyright © 2024 Morpho, Inc. All Rights Reserved. 14
CVPRはどうして重要なの? Copyright © 2024 Morpho, Inc. All Rights Reserved. 15
AIを学ぶビジネスパーソンに CVPRをおススメする理由 ? 1. AIといえば CV(画像処理)だから 2. AIを扱った学会は数少ないから 3. CVを扱う会社の重要性をアピールしたいから Copyright © 2024 Morpho, Inc. All Rights Reserved. 16
AIを学ぶビジネスパーソンに CVPRをおススメする理由 ? 1. AIといえば CV(画像処理)だから → 部分的に違います(言語や音声、自律行動なども) 2. AIを扱った学会は数少ないから → 違います(後述の通り、沢山あります) 3. CVを扱う会社の重要性をアピールしたいから → 部分的にそうです(が、真っ当な根拠があります) Copyright © 2024 Morpho, Inc. All Rights Reserved. 17
AI関連の国際会議 画像処理の 国内会議だと MIRU が有名 出典:https://www.kamishima.net/archive/MLDMAImap.pdf Copyright © 2024 Morpho, Inc. All Rights Reserved. 18
Google Scholar Metricsによる学術誌ランキング CVPRは論文自体の数・引用数ともに世界トップレベルの学会です! (h5-indexが440→過去5年間で440回以上引用された論文数が440本以上存在) 出版物 Rank h5-index ※ h5-median ※ 488 745 440 689 1. Nature 2. IEEE/CVF Conference on Computer Vision and Pattern Recognition 3. The New England Journal of Medicine 434 897 4. Science 409 633 5. Nature Communications 375 492 6. The Lancet 368 678 7. Neural Information Processing Systems 337 614 8. Advanced Materials 327 420 9. Cell 320 482 10. International Conference on Learning Representations 304 584 CVPR NeurIPS ICLR 出典: https://scholar.google.com/citations?view_op=top_venues Copyright © 2024 Morpho, Inc. All Rights Reserved. 19
第3次AIブームと CVPRの発展 ~画像処理 AIの発展~ 出典: https://scholar.google.com/citations?view_op=top_venues のアーカイブをhttps://web.archive.org/webで取得 他AI系の学会はラン ク外(100位以下) 2012年の CVPRは h5-index97位 Copyright © 2024 Morpho, Inc. All Rights Reserved. 20
第3次AIブームと CVPRの発展 ~画像処理 AIの発展~ 多層のCNN(AlexNet)により、画像分類 タスクで人 間を超える性能を達成(NeurIPS2012) → AI(Deep Learning)ブームの火付け役に 2012年の CVPRは h5-index97位 AlexNet Copyright © 2024 Morpho, Inc. All Rights Reserved. 21
第3次AIブームと CVPRの発展 ~画像処理 AIの発展~ Generative Adversarial Networks(GAN) が従来の想定を大きく超えた高品質の画 像生成に成功(NeurIPS2014) → 「生成AI」が世に知られはじめる AlexNet GAN Copyright © 2024 Morpho, Inc. All Rights Reserved. 22
第3次AIブームと CVPRの発展 ~画像処理 AIの発展~ AI(Deep Learning)の 主役は画像処理! (だった) AlphaGoが人間のトップ棋士に勝つ ※囲碁の盤面を19x19の画像として CNN に入力、局面評価と有効手推定 (Nature 2016にて報告) AlphaGo AlexNet GAN Copyright © 2024 Morpho, Inc. All Rights Reserved. 23
第3次AIブームと CVPRの発展 ~言語処理モデルの急速な発展 ~ 2018年以降: AlexNetから5年経過 →h5-indexが伸び始める Transformerモデルが登場し、言語処理に おいて従来のニューラルネットモデルを 次々と打ち負かす(NeurIPS 2017) 2018年にNeurIPS が初めて100位以内 にランクイン AlphaGo AlexNet GAN Transformer Copyright © 2024 Morpho, Inc. All Rights Reserved. 24
第3次AIブームと CVPRの発展 ~言語処理モデルの急速な発展 ~ 2018年以降: AlexNetから5年経過 →h5-indexが伸び始める 2019年にCVPRが10位に ランクイン! ※2018~はECCV, ICCVも100位 以内にランクイン AlphaGo AlexNet GAN Transformer Copyright © 2024 Morpho, Inc. All Rights Reserved. 25
第3次AIブームと CVPRの発展 ~言語処理モデルの急速な発展 ~ BERT(NAACL 2019)&GPT(OpenAI): 言語処理のTransformerモデルを「自己教 師」で学習するフレームワークにより、言 語の生成およびその他タスクで飛躍的に 性能向上。後に画像分野 でも「自己教師」 学習を後追いする。 2018年以降: AlexNetから5年経過 →h5-indexが伸び始める 2019年にCVPRが10位に ランクイン! ※ 言語の「自己教師」あり学習 人間によるアノテーションを必要とせずに、 データのみから学習可能なタスク (「穴埋め」 や「文と文の連結判定」等 )による学習 AlphaGo AlexNet GAN BERT Transformer GPT-1,2,3 論文URL GPT-1 GPT-2 GPT-3(NeurIPS2020) Copyright © 2024 Morpho, Inc. All Rights Reserved. 26
第3次AIブームと CVPRの発展 ~言語処理と画像処理の融合 ~ 言語・画像のそれぞれ から抽出した 特徴量を共通の次元の下に結びつ ける”CLIP”の登場(OpenAI) →Vision-Language手法の発展、 データセットの確立 AlphaGo AlexNet GAN BERT Transformer GPT-1,2,3 CLIP Copyright © 2024 Morpho, Inc. All Rights Reserved. 27
第3次AIブームと CVPRの発展 ~高性能で利用しやすい生成 AIの登場~ 2位! 画像生成モデルStable Diffusion(元論 文はCVPR2022)&文章生成サービス ChatGPT(OpenAI)の公開 →空前の「生成AI」ブームの到来! AlphaGo AlexNet GAN BERT Stable Diffusion Transformer GPT-1,2,3 CLIP ChatGPT Copyright © 2024 Morpho, Inc. All Rights Reserved. 28
第3次AIブームと CVPRの発展 ~まとめ~ 画像処理AIが中心の時代 出典: https://scholar.google.com/citations?view_op=top_venues のアーカイブをhttps://web.archive.org/webで取得 VisionLanguage 生成AI 言語処理AIの急伸 2位! 2019年に10位! 2012年の CVPRは h5-index97位 2018年にNeurIPSが初めて 100位以内にランクイン AlphaGo AlexNet GAN BERT ※近年(2018~)はECCV, ICCVも 100位以内にランクイン Stable Diffusion Transformer GPT-1,2,3 CLIP ChatGPT Copyright © 2024 Morpho, Inc. All Rights Reserved. 29
CVPRで過去に発表された Deep Learning系研究のピックアップ ● ImageNet: A Large-scale Hierarchical Image Database (2009) 後にAlexNetによって第3次AIブームの火つけ役となるImageNetデータセットを提供。Jia Deng et al. ● Are We Ready For Autonomous Driving? The KITTI Vision Benchmark Suite (2012) 現在でも車載の映像・3D点群のベンチマークに用いられるKITTIデータセットを提供。Andreas Geiger and Philip Lenz and Raquel Urtasun ● Rich feature hierarchies for accurate object detection and semantic segmentation (2014) R-CNNを提案。CNNによる物体検知の先駆け。Ross Girshick et al. ● Fully Convolutional Networks For Semantic Segmentation (2015) セグメンテーションにおける線形層を捨て全てConvolutionで表現。Jonathan Long et al. ● You Only Look Once: Unified, Real-Time Object Detection (2016) いまや物体検知のデファクトスタンダードになりつつあるOne-Stageな物体検知のYOLOを提案。Joseph Redmon et al. ● Deep Residual Learning For Image Recognition (2016) いわゆるResNet。skip connectionにより安定して深いNNの安定的な学習に成功。Kaiming He et al. ● High-Resolution Image Synthesis With Latent Diffusion Models(2022) Stable Diffusionの元論文。特徴量次元で拡散モデルを扱うことで生成画像の品質を向上。Robin Rombach et al. ● Masked Autoencoders Are Scalable Vision Learners(2022) 言語のBERTの成功を参考にした、マスク復元タスクによる画像の自己教師あり事前学習。Kaiming He et al. ● A ConvNet for the 2020s (2022) ResNetをベースにVision Transformerの知見を取り入れTransformerを超える性能を出したCNN。Zhuang Liu et al. Copyright © 2024 Morpho, Inc. All Rights Reserved. 30
CVPRが重要な理由・まとめ Copyright © 2024 Morpho, Inc. All Rights Reserved. 31
AIを学ぶビジネスパーソンに CVPRにとって重要な理由 まとめ 1. CVは長らく AI(Deep Learning)研究の最先端であり、今後 も間違いなくその 1つであり続けるから 2. CVPRはCV分野のトップカンファレンスだから 3. 歴史的に重要な AI系の論文を次々に生み出してきたから Copyright © 2024 Morpho, Inc. All Rights Reserved. 32
CVPR2024の概要 Copyright © 2024 Morpho, Inc. All Rights Reserved. 33
CVPR 2024 開催日時 6/17 - 6/21 @シアトル タイムテーブル 出展:OnTheWorldMap ● 6/17, 6/18 123 の Workshop と 24の Tutorial ● 6/19 - 6/21 Main conference ○ ○ ○ ○ ○ Welcome talk(&Award発表) Oral session Poster session Keynote(基調講演) Panel Discussion Webサイト CVPR 2024 (thecvf.com) 出典:https://cvpr.thecvf.com/Conferences/2024/ProgramOverview Copyright © 2024 Morpho, Inc. All Rights Reserved. 34
CVPRの論文数の推移 CVPR2024 採択率 23.6%! 出典:https://cvpr.thecvf.com/media/cvpr-2024/Slides/32147.pdf Copyright © 2024 Morpho, Inc. All Rights Reserved. 35
CVPRの参加者の推移 CVPR2024は現地参加が増え、活況に 一方オンライン参加組は少し冷遇気味… (Oral発表の配信がないなど) 出典:https://cvpr.thecvf.com/media/cvpr-2024/Slides/32147.pdf Copyright © 2024 Morpho, Inc. All Rights Reserved. 36
Highlights & Award candidates 90 324 Orals + posters 18のセッションに分かれて口頭発表 Highlights posters プログラム中に上位論文として注釈 2305 Copyright © 2024 Morpho, Inc. All Rights Reserved. 37
Highlights & Award candidates 90 324 Award Candidates 24論文 各Talk sessionで用意 ↓ 🏆Award 10論文 2305 Copyright © 2024 Morpho, Inc. All Rights Reserved. 38
Award 2 Best Papers 👑 2 Best Paper Runners-Up(次点) 2 Best Student Papers 4 Best Student Paper Runners-Up(次点) Copyright © 2024 Morpho, Inc. All Rights Reserved. 39
Best papers Generative Image Dynamics GLi, Zhengqi, et al. 生成AI 静止画→動画 動画:https://generative-dynamics.github.io/ Rich Human Feedback for Text-to-Image Generation Liang Youwei et al. 生成AI 改善用データセット 画像は論文より引用 Copyright © 2024 Morpho, Inc. All Rights Reserved. 40
Best Student papers Mip-Splatting: Alias-free 3D Gaussian Splatting Zehao Yu, et al. 3D レンダリング 動画:https://github.com/autonomousvision/mip-splatting BIOCLIP: A Vision Foundation Model for the Tree of Life Stevens et al. Vision-Language 生物専門のCLIP 画像:https://imageomics.github.io/bioclip/ Copyright © 2024 Morpho, Inc. All Rights Reserved. 41
次のパートからは最先端の研究 およびトレンドにフォーカスします! Copyright © 2024 Morpho, Inc. All Rights Reserved. 42
今年のCVPRのトレンド: モルフォ視点で注目の分野・論文のご紹介 Copyright © 2024 Morpho, Inc. All Rights Reserved. 43
CVPR 2024 のトレンド CVPR2024採択論文: 2719本 → 全ては読めない…… ● 2024年現在のCV分野の潮流 ○ 最先端の手法は? ○ 流行の分野は? ○ 多くの論文に共通するトピックは? → CVPR2024全論文のタイトルをテキストマイニング ※ 過去2年の発表(CVPR2022, 2023)と同様の調査を実施 Copyright © 2024 Morpho, Inc. All Rights Reserved. 44
CVPR 2024 のトレンド 下表:CVPR2024の論文タイトルに用いられた単語数のランキング データ参照元: https://openaccess.thecvf.com/CVPR2024?day=all から単語を抽出 Copyright © 2024 Morpho, Inc. All Rights Reserved. 45
CVPR 2024 のトレンド 普遍的な用語の使用率 ● deep, network ○ 激減傾向が継続 ○ Deep Learningアピール は昔の発想 今年の特徴としては、 ● learningが顕著に減少 ● model(s)の大幅な増加 ○ 学習済み「基盤モデル」の 確立の影響か Copyright © 2024 Morpho, Inc. All Rights Reserved. 46
CVPR 2024 のトレンド 論文数増加の著しいタスク ● 画像生成 (generation) ● 再構成 (reconstruction) ○ 生成AI、3Dモデルの発展 増加が落ち着いてきたタスク ● 物体検出 (detection) ● 領域分割 (segmentation) ● 識別 (recognition) ● 姿勢推定 (pose) ● 人物追跡 (tracking) ○ 技術として確立してきたか ○ 今後のブレイクスルーに期待 Copyright © 2024 Morpho, Inc. All Rights Reserved. 47
(参考) CVPR 2023 注目単語のその後 ● CVPR2023のトレンド(昨年の発表で紹介したもの) ○ Diffusion model ○ Masked AutoEncoder ○ 3D、特にNeRF ○ Vision-Language Copyright © 2024 Morpho, Inc. All Rights Reserved. 48
(参考) CVPR 2023 注目単語のその後 ● diffusion ● (vision-)language ○ 今年も大幅増 以下の2つはやや減少 ● masked ○ 自己教師あり表現学習は 確立した感(DINOv2) ● radiance(NeRF) ○ Gaussian Splatting(後述) との競合 ※”3D”自体は順調に増大 Copyright © 2024 Morpho, Inc. All Rights Reserved. 49
CVPR 2024 のトレンド CVPR2024の急上昇ワード 1位~15位 15位~30位 注目すべきは…… ● gaussian, splatting ● foundation, anything ● generation等 ● multi(-)modal ● text-to-image ● (vision-)language ● prompt, text Copyright © 2024 Morpho, Inc. All Rights Reserved. 50
CVPR 2024 のトレンド CVPR2024の急上昇ワード 1位~15位 15位~30位 注目すべきは…… ● Gaussian Splatting ● 基盤モデル(の利用) ● 生成AI ● Vision-Language の流行を示す単語達 Copyright © 2024 Morpho, Inc. All Rights Reserved. 51
CVPR 2024 のトレンド 注目単語の推移 ● gaussian, splatting ● foundation, anything ○ ここ1年で急伸 興味深い点:”learning”系の単語 ● (self, semi-)supervisedが減少 ● “training-free”論文の出現 ○ 基盤モデルの活用が影響? ※ 生成AI、Vision-languageは前 述のとおり、去年から増大 Copyright © 2024 Morpho, Inc. All Rights Reserved. 52
CVPR 2024のトレンド CVPR2024での注目分野は 1. Gaussian Splatting 2. 基盤モデルの活用 3. 生成AI 4. Vision-Language 本日は、1~3の分野について深堀りして紹介 ※4.Vision-Languageに関する内容も、2や3の深堀りに一部含まれます Copyright © 2024 Morpho, Inc. All Rights Reserved. 53
CVPR2024のトレンド 3D Gaussian Splatting Copyright © 2024 Morpho, Inc. All Rights Reserved. 54
CVPR2024の3D関連論文 3D関連の研究は今年も人気が高い - NeRFの改良や応用 - 3次元のセマンティックセグメンテーションが普及 - 3次元モデル・テクスチャの生成 - 3次元再構成 : 3D Gaussian Splatting - etc… Copyright © 2024 Morpho, Inc. All Rights Reserved. 55
NeRF 前提知識: NeRF [1] 2020年に発表されて現在も大流行。 自由視点から被写体を見た結果を再現できる。 (novel view synthesis) [1] Ben Mildenhall, et al., “NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis” Copyright © 2024 Morpho, Inc. All Rights Reserved. 56
3D Gaussian Splatting 前提知識: 3DGS Bernhard Kerbl et al. “3D Gaussian Splatting for Real-Time Radiance Field Rendering” (2023)[1] 2023年に発表され、今年に入り大流行 NeRFとは異なる明示的な表現 により、高品質なレンダリンと高速 な学習、新しい3D再構成手法として急速に普及した ※NeRF について詳しく知りたい方はCVPR 2022技術報告会の動画をご覧ください [2] [1] https://repo-sam.inria.fr/fungraph/3d-gaussian-splatting [2]https://www.youtube.com/watch?v=7NJjAafcfOU#t=3162 Copyright © 2024 Morpho, Inc. All Rights Reserved. 57
3D Gaussian Splatting 前提知識: 3D Gaussian - 空間の表示単位 3D Gaussian (3DG)の 属性 ● ● ● ● position: 楕円体の中心点の座標 color: 点のカラー (球面調和関数で近似的に表現) alpha: 不透明度 covariance: 3x3 Gaussianの共分散行列 2D Gaussian(ガウス分布)の等高線は、平面上で楕円の形 2x2共分散行列が、楕円の方向とサイズを決定 同様に、3D Gaussianは、3x3共分散行列によって 3D 空間の 楕円体の形状が定義される 2D ガウシアン分布 [1,2] [1] https://huggingface.co/blog/gaussian-splatting [2] https://en.wikipedia.org/wiki/Multivariate_normal_distribution Copyright © 2024 Morpho, Inc. All Rights Reserved. 58
3D Gaussian Splatting 前提知識: Splatting - Point-base Rendering ボリュームレンダリングの種類[1] ● Ray casting : カメラから各画素に向かって直線を伸 ばす、空間内をサンプリングする ○ 高品質を保持 ● Splatting : カメラポーズに応じて3D Gaussian を2D に投影し、カメラまでの距離の順番に色を重ねていく ○ 品質を犠牲にして処理速度を優先 volume ray casting[2] レンダリング結果と学習画像のlossに応じて、3D Gaussian の座標、サイズ、あるいは Gaussian の分割・ コピーなどの処理を最適化する [1] https://en.wikipedia.org/wiki/Volume_rendering#Direct_volume_rendering [2] https://en.wikipedia.org/wiki/Volume_ray_casting [3] https://www.youtube.com/watch?v=_wRbq8KnaVg&t=37s splatting rendering[3] Copyright © 2024 Morpho, Inc. All Rights Reserved. 59
3D Gaussian Splatting まとめ - NeRF の欠点: ニューラルネットワークによる学習 - レンダリングと学習が遅い - 物体が何も存在しない領域も暗黙的に学 習するため、非効率 (カメラポーズの精度 が悪い場合、モヤモヤした結果になりや すい) - 解釈できないので編集は困難 - 3D Gaussian Splattingの利点 : Explicit Representation (ニューラルネット ワークを使わない明示的な表現) - Splattingでレンダリングと学習が高速 - 後から編集が可能 Instant-NGP v.s. 3DGS [1] [1] https://repo-sam.inria.fr/fungraph/3d-gaussian-splatting Copyright © 2024 Morpho, Inc. All Rights Reserved. 60
論文紹介 ● 画質改善 ○ Zehao Yu, et al. "Mip-Splatting: Alias-free 3D Gaussian Splatting" ● Mesh再構成 ○ Antoine Guedon & Vincent Lepetit “SuGaR: Surface-Aligned Gaussian Splatting for Efficient 3D Mesh Reconstruction and High-Quality Mesh Rendering” ● SLAM ○ Hidenobu Matsuki, et al. "Gaussian Splatting for SLAM" ● 動的シーン(4D)再構成 ○ Guanjun Wu, et al. "4D Gaussian Splatting for Real-Time Dynamic Scene Rendering" Copyright © 2024 Morpho, Inc. All Rights Reserved. 61
Mip-Splatting: Alias-free 3D Gaussian Splatting CVPR2024 の受賞論文 Best Student Papers 要点:学習データとサンプリング レート(カメラと物体の距離)が異なる場合に発生 するアーティファクトを改善する 原因:シーンの高周波情報を取得するため、小さな3DG も多数生成する。レンダ リング時に2D 平面に投影されると、3DGのサイズが 1 ピクセル未満になる可能 性がある。レンダリング時に投影された小さいガウシアンを拡張する。この拡張に よりゴーストが発生。 改善のためのアイディア: ● ● 信号理論を適用して 3DG のサイズ最小値を決定、無意味な高周波3DG生 成を回避する 投影された3DGが1ピクセルより小さい場合のみ拡張が実行される レンダリング結果 v.s. GT アーティファクトの分析 Zehao Yu, et al. "Mip-Splatting: Alias-free 3D Gaussian Splatting" Copyright © 2024 Morpho, Inc. All Rights Reserved. 62
SuGaR: Surface-Aligned Gaussian Splatting for Efficient 3D Mesh Reconstruction and High-Quality Mesh Rendering 特殊な正規化項を追加することにより、学習された3DGの不透 明度を可能な限り 1 まで最適化し、形状もより平坦にし、メッシュ の特性に合わせる 学習済みシーンの3DGの密度に基づいて、古典的なメッシュ抽 出アルゴリズム[1]を適用 元の3DGはMesh生成に向いていない オプションの後処理として、各メッシュ三角形とその中の3DGに バインドする。メッシュの編集ソフトで、3DGの編集も可能になっ て、3DGSの高品質なレンダリング効果を維持できる 正規化追加後学習された 3DG Mesh Bounding [1] Michael Kazhdan et al. ” Poisson Surface Reconstruction” Meshを通じて高品質なシーンを編集可能 Antoine Guedon & Vincent Lepetit “SuGaR: Surface-Aligned Gaussian Splatting for Efficient 3D Mesh Reconstruction and High-Quality Mesh Rendering” Copyright © 2024 Morpho, Inc. All Rights Reserved. 63
Gaussian Splatting for SLAM 3DGS を使用して単眼 Dense SLAM を実現 1. 2. 3. レンダリング誤差から新フレーム のカメラ姿勢を推定 既存のキーフレームとの視野カ バー量からキーフレームにする かを判定 キーフレームセットを使って全体 マップ(3DGS)を更新 ループ検出 (Loop-closure) なし内で top精度達成 システム全体はオンラインで 3fps で 動作。 SfM を使用せず、改修した3DGSの みを使用して SLAM を実現し、 3D-GS によるカメラのポーズ解決の 可能性を証明。新しい方向性を示し た。 Hidenobu Matsuki, et al. "Gaussian Splatting for SLAM" Copyright © 2024 Morpho, Inc. All Rights Reserved. 64
4D Gaussian Splatting for Real-Time Dynamic Scene Rendering 動くシーンの3DGS再構築 既存の手法では、フレームごとに 3D-GS 再構築 を個別に実行したため、メモリ使用量が時間と線 形に増加していた。 時間の経過に伴う3DGの変形は変形ネットワー クを通じて学習され、同一3DGセットで長い時間 のシーンを学習可能(メモリ使用量減少) 変形された3DGを使って、元の 3DGS 手法と同 じレンダリングする Guanjun Wu, et al. "4D Gaussian Splatting for Real-Time Dynamic Scene Rendering" Copyright © 2024 Morpho, Inc. All Rights Reserved. 65
CVPR2024のトレンド 基盤モデルの活用 Copyright © 2024 Morpho, Inc. All Rights Reserved. 66
基盤モデル (foundation model) とは 基盤モデル ● ● ● 大規模データ で学習され、 多様なタスク汎用性 をもち、 特定の目的への適応 (ファインチューニング)が容易なモデル 基盤モデルの例 ● ● ● ● ● BERT, GPT シリーズ:自然言語処理 ... いわゆる LLM (Large Language Model) CLIP:言語-画像のマルチモーダル SAM:セグメンテーション DINOv2:コンピュータビジョン diffusion (Imagen, stable diffusion, …):画像生成 画像認識モデルの数々 Yang, Gee and Shi, “Brain Decodes Deep Nets”, CVPR2024 Copyright © 2024 Morpho, Inc. All Rights Reserved. 67
基盤モデル活用のトレンド ● 基盤モデル開発は大企業/研究機関に限られる ● 少量のデータで特化して学習するより、基盤モデルの知識を借りる ○ これまでの “pretraining” とは意味合いが変わってきたように感じる 象徴的だったのが🔥❄マーク(これを注釈なしで使う論文が多数!) Lai et al, “LISA: Reasoning Segmentation via Large Language Model”, CVPR2024 Copyright © 2024 Morpho, Inc. All Rights Reserved. 68
基盤モデル活用のアラカルト 拡散モデルで単眼デプス推定 CLIPで生物の学名分類 (Best Student Paper) Ke et al., “Repurposing Diffusion-Based Image Generators for Monocular Depth Estimation” Stevens et al., “BioCLIP: A Vision Foundation Model for the Tree of Life” taxonomy を文字列として扱うのが面白い SAM で心臓エコーのビデオセグメンテーション Deng et al., “MemSAM: Taming Segment Anything Model for Echocardiography Video Segmentation” NeRF に悪影響を及ぼす動物体領域の検出 Chen et al., “NeRF-HuGS: Improved Neural Radiance Fields in Non-static Scenes Using Heuristics-Guided Segmentation” Copyright © 2024 Morpho, Inc. All Rights Reserved. 69
産業別の活用例 医療や自動運転といったクリティカルな分野にも基盤モデル活用のトレンドが興りつつある ● ● 医療 ○ 医療画像セグメンテーション 自動運転 ○ マルチモーダル LLM を導入した路上認識、走路予測、プランニング Deng et al., “MemSAM: Taming Segment Anything Model for Echocardiography Video Segmentation” Ma et al., “LaMPilot: An Open Benchmark Dataset for Autonomous Driving with Language Model Programs” Copyright © 2024 Morpho, Inc. All Rights Reserved. 70
画像・動画合成セッションで起きた基盤モデル活用のトレンド 5本中4本が生成モデルを制御する内容 “便利だが扱いにくい”ことの表れ? ● 学習なしで画像生成モデルを制御する方法 ○ Si et al., FreeU: Free Lunch in Diffusion U-Net ■ 概要:UNet の skip connection と backbone の結合係数を変更してテクスチャ調整 ● 制御しやすくする機構を挟み込む ○ ○ Feng et al., Ranni: Taming Text-to-Image Diffusion for Accurate Instruction Following ■ 概要:ミドルウェアとして制御パネルを導入し Text2Panel, Panel2Image を学習 Hu et al., Instruct-Imagen: Image Generation with Multi-modal Instruction ■ 概要:マルチモーダル制御 (エッジやスタイルなどの指定) が可能なように学習 ● 制御できるアーキテクチャの提案 ○ Zhang et al., Attention Calibration for Disentangled Text-to-Image Personalization ■ 概要:attention map を正確にガイドすることで概念レベルでの Text-to-Image 品質向上 Copyright © 2024 Morpho, Inc. All Rights Reserved. 71
論文紹介:マルチモーダルモデルの性能向上 Eyes Wide Shut? Exploring the Visual Shortcomings of Multimodal LLMs ● ● ● ● Tong et al. 主張:Multimodal LLM の視覚能力に未だ短所があることを指摘 観測:CLIP (画像-言語) と DINOv2 (画像) の特徴量空間を比較し、CLIPで縮退する画像ペアを特定 手法:Mixture-of-Features という特徴量混合手法で DINOv2 の強い画像認識能力を取り入れることで、画 像についての質問回答を性能向上 Copyright © 2024 Morpho, Inc. All Rights Reserved. 72
論文紹介:より良い Reasoning (論理的思考 ) の獲得 ● LISA: Reasoning Segmentation via Large Language Model ○ Lai et al. ○ Questioning なセグメンテーションを予測。 ○ Multimodal LLM と画像モデルを組み合わせ、 LoRA と Decoder を学習 “画像の中で最もビタミンCの多い食べ物をマスクして” ● Visual Program Distillation: Distilling Tools and Programmatic Reasoning into Vision-Language Models ○ Hu et al. ○ vision-language model に Reasoning を蒸留 ○ LLM でタスクを解くプログラムを生成 ○ 正しく解けるプログラムをフィルタリング ○ LLM の Chain-of-Thought (論理の積み重ね) に変換 Copyright © 2024 Morpho, Inc. All Rights Reserved. 73
基盤モデル活用パート まとめ ● CVPR (AI学術最先端) でも基盤モデル活用が潮流 ○ 大規模データ・汎用性に裏打ちされた能力を使う ● 産業活用もあらゆる方向に ○ 医療、車載、自然科学など ● さらに先の認識力へ ○ visual question answering (VQA), reasoning, ... Copyright © 2024 Morpho, Inc. All Rights Reserved. 74
CVPR2024のトレンド 生成 AI Copyright © 2024 Morpho, Inc. All Rights Reserved. 75
CVPR 2024 における拡散モデルの存在感 生成 AI 分野は、拡散モデルが大流行 - 拡散モデルを用いた生成 AI の出現により生成画像のクオリティが著しく向上 Vision-language 基盤モデルと結びついて出力を制御可能に(Text-to-Image) OSS の Text-to-Image モデル Stable Diffusion (SD) が出現し、研究が加速 Chat GPT4o "会議室の象" 拡散モデルの概念図 Text-to-Image の概念図 "Text" … 画像を徐々にデノイズ … 画像より小さい潜在空間でデノイズ Copyright © 2024 Morpho, Inc. All Rights Reserved. 76
CVPR 2024 における拡散モデルの存在感 拡散モデル研究の主観的トレンド - Text-to-Image は順当に増加し、最もホットな話題 より高度な生成 AI が登場 - Text/Image-to-Video、Text-to-3D など 生成以外のタスクでの利用の拡大(SD の基盤モデル化) - 大規模データで事前学習した SD を prior として利用 - 専門タスクに必要な学習データ数を削減し、かつ精度向上 - Diffusion-based や Diffusion prior といった用語の増加 "Diffusion" を含むタイトルの単語内訳 全タイトル内の "X-to-Y" 内訳 Copyright © 2024 Morpho, Inc. All Rights Reserved. 77
CVPR 2024 における拡散モデルの存在感 紹介論文 動画生成 Generative Image Dynamics 3D 生成 基盤利用 RichDreamer Marigold Animate Anyone EscherNet DiffusionLight Copyright © 2024 Morpho, Inc. All Rights Reserved. 78
Generative Image Dynamics | 一枚絵から自然な周期的アニメーションを生成 動画生成の難所:時系列一貫性( Temporal consistency) 解決策:意味のある動きだけを以下の低次元表現として抽出 - Motion field :Optical flow の時系列 Spectral volume :Motion field の周波数成分 各フレームを直接生成するのではなく、Spectral volume を生成することで時系列一貫性を向上 動きの初期値や、ループ制約をつけることが可能(下図左のデモ) 制約:周期的な動きにのみ対応 Li, Zhengqi, et al. "Generative image dynamics." Copyright © 2024 Morpho, Inc. All Rights Reserved. 79
RichHF-18K | 生成 AI による出力を人間が採点し、モデルにフィードバック 生成 AI 出力画像における誤謬 - Distortion Misalignment Low eithetics :不自然な造形(おかしな人の手の形など) :入力テキストにそぐわない画像 :美しくない出力 これらの評価指標に対し、悪い場所も含んだ人間の採点を実施し、結果を公開 数種の生成 AI へのフィードバックを行い、出力の改善を確認 Liang, Youwei, et al. "Rich human feedback for text-to-image generation." Copyright © 2024 Morpho, Inc. All Rights Reserved. 80
Animate Anyone | 骨格の動きを与えて、人物の写真を自由に動かす 骨格(図左下の棒人間)を出発点に拡散モデル(SD の改変版)でフレームを生成する 課題:時系一貫性、骨格による制御 解決策 - 時系列一貫性 → UNet の各段に Temporal-attention を挿入(動画系タスクでは一般的) 骨格による制御 → UNet と合同な "ReferenceNet" の中間層を UNet の各段に連結 出力動画は驚くべきクオリティ(右図) 動画:https://humanaigc.github.io/animate-anyone/ Hu, Li. "Animate anyone: Consistent and controllable image-to-video synthesis for character animation." Copyright © 2024 Morpho, Inc. All Rights Reserved. 81
RichDreamer | Text-to-Image の大規模データを利用した Text-to-3D 3D 生成の難所:幾何的一貫性( Geometric consistency)、データ不足 解決策: - DMTeT や NeRF といった 3D 表現を学習することで幾何的一貫性を持った立体を直接生成 - SD の学習にも使われた 2D の大規模データ LAION を利用することでデータ不足問題を解決 動画:https://github.com/modelscope/richdreamer Qiu, Lingteng, et al. "Richdreamer: A generalizable normal-depth diffusion model for detail richness in text-to-3d." Copyright © 2024 Morpho, Inc. All Rights Reserved. 82
EscherNet | 拡散モデルを用いた新規視点合成 動画:https://kxhit.github.io/EscherNet N 視点-to-M 視点生成 課題 - Target-target consistency :M 個の出力の一貫性 Target-reference consistency :入力と出力の一貫性 Geometric consistency :入出力の幾何的一貫性 Cross attention で見た目の一貫性を向上 幾何的一貫性には三次元のカメラ姿勢が本質的情報 - カメラ姿勢を CaPE エンコードして画像と一緒に入力すること で幾何的一貫性を向上 ただし入力枚数 N を十分増やすと、一貫性が NeRF に劣る - 拡散モデルによるアーティファクトが残る Kong, Xin, et al. "Eschernet: A generative model for scalable view synthesis." Copyright © 2024 Morpho, Inc. All Rights Reserved. 83
Marigold | 拡散モデルを利用した深度推定 単眼深度推定を「入力画像に制約された深度画像生成 」と捉えた - 学習 推論 :SDv2 の fine-tune。ノイズ付き潜在深度を、潜在入力画像と繋ぎ合わせてデノイズ :潜在入力画像とノイズを一緒にデノイズ → 元のノイズ部分をデコードすると深度に 事前学習済み SDv2 には、58 億枚を超える自然画像の prior が内包されている - 7500 枚のシミュレーション データで fine-tune Ke, Bingxin, et al. "Repurposing diffusion-based image generators for monocular depth estimation." Copyright © 2024 Morpho, Inc. All Rights Reserved. 84
DiffusionLight | 拡散モデルを利用した照明環境推定 特撮などで照明環境記録に用いるクロム鋼球を一枚絵からインペイント - クロム鋼球から照明環境を復元 クロム鋼球を安定して生成することが技術的課題 - 入力と同様にマスクした深度画像を ControlNet で条件付け 生成サンプルの中央値にノイズを加えさらにデノイズ(SDEdit)を反復 Prompt engineering → HDR 照明環境に応じたクロム鋼球を復元 基盤モデルとしての利用というより、力技的なヒューリスティック Star Wars: The Making of Episode I, The Phantom Menace Phongthawee, Pakkapon, et al. "Diffusionlight: Light probes for free by painting a chrome ball." Copyright © 2024 Morpho, Inc. All Rights Reserved. 85
生成 AI パートまとめ 拡散モデルの研究動向 - - 拡散モデルが大流行中 - タイトルに "Diffusion" を含む論文は去年の3倍以上 昨年同様、Text-to-Image が最多 - Artifact, misalignment 問題の解決策が多数提案された 今年新たに、より高度な生成「Text-to-3D」「Text/Image-to-Video」が出現 以下の課題が論点。多くの解決策が提案されたが、適用可能ドメインなどに制約がある - 幾何的一貫性(Geometric consistency) - 時系列一貫性(Temporal consistency ) SD が基盤モデルとして定着 - 各専門タスクで成果を上げた Copyright © 2024 Morpho, Inc. All Rights Reserved. 86
モルフォ視点で注目論文ディープダイブ Copyright © 2024 Morpho, Inc. All Rights Reserved. 87
Rethinking Inductive Biases for Surface Normal Estimation Gwangbin Bae Andrew J. Davison Dyson Robotics Lab, Imperial College London
DSINE | Rethinking Inductive Biases for Surface Normal Estimation 法線推定( Surface normal estimation)問題 - 入力画像から法線画像を推論する 弊社オフィス 法線画像 Bae, Gwangbin, and Andrew J. Davison. "Rethinking inductive biases for surface normal estimation." 色 (RGB) が表面の 法線 (XYZ) に対応 Copyright © 2024 Morpho, Inc. All Rights Reserved. 89
DSINE | 法線推定における帰納バイアス 帰納バイアス( Inductive Bias) - データに共通した手がかり 画像だけから表面の方向が分かるのは、三次元的な帰納バイアスがあるから Bae, Gwangbin, and Andrew J. Davison. "Rethinking inductive biases for surface normal estimation." Copyright © 2024 Morpho, Inc. All Rights Reserved. 90
DSINE | 法線推定における帰納バイアス Pixel-wise ray direction ①「見える面」と「見えない面」の境界線上の法線は、カメラへ の投影方向と垂直 - カメラの内部パラメタ既知の下では、そのピクセルにお ける正解が分かる 境界条件として利用 ②すべてのピクセルにおいて、法線は「見える側」の半球上に ある - カメラの内部パラメタ既知の下では、すべてのピクセル について値域が半減 Bae, Gwangbin, and Andrew J. Davison. "Rethinking inductive biases for surface normal estimation." Copyright © 2024 Morpho, Inc. All Rights Reserved. 91
DSINE | 法線推定における帰納バイアス Inter-pixel rotation estimation ③ エッジを中心にして法線が回転する - エッジのベクトルが分かれば、回転角 θ を求めればよ い 任意の 3D ベクトルの回転を考えるより簡単 ④ 曲面上の法線同士の角度は、エッジにおける法線同士の 角度から分かる - エッジにおける法線は①で求まる Bae, Gwangbin, and Andrew J. Davison. "Rethinking inductive biases for surface normal estimation." Copyright © 2024 Morpho, Inc. All Rights Reserved. 92
DSINE | 帰納バイアスの利用方法: Pixel-wise ray direction Ray direction encodings - ネットワークの入力として、position embedding の代わりに、各ピク セルの投影方向を使用 Cu, Cv:中心座標 fu, fv :焦点距離 - CAM-Convs (CVPR 2019) も同様の embedding を使用している が、position embedding も併用している - DSINE は ray direction embedding のみ使用 Bae, Gwangbin, and Andrew J. Davison. "Rethinking inductive biases for surface normal estimation." Copyright © 2024 Morpho, Inc. All Rights Reserved. 93
DSINE | 帰納バイアスの利用方法: Pixel-wise ray direction Ray ReLU activation - カメラに映るはずがない法線をクロップ - 法線と投影方向が必ず直角以上の角をなすよう制約付け 2個のベクトル(n: 法線、r: 投影方向)を受け取り、クロップされた法線ベクトル n' を計算 Bae, Gwangbin, and Andrew J. Davison. "Rethinking inductive biases for surface normal estimation." Copyright © 2024 Morpho, Inc. All Rights Reserved. 94
DSINE | 帰納バイアスの利用方法: Inter-pixel rotation estimation 基本のアイデア:各法線を、近隣法線の合成で求める 同じ画像上の2点が ① 同じ面上にある場合 - 局所的には同一平面にあるとみなせ、なす角は非常に小さい ② 互いに交わる異なる面上にある場合 - 回転軸のベクトルは ③ 互いに交わらない面上の点同士、または不連続面 - どうしようもないので、そのようなペアの重要度を下げる Bae, Gwangbin, and Andrew J. Davison. "Rethinking inductive biases for surface normal estimation." Copyright © 2024 Morpho, Inc. All Rights Reserved. 95
DSINE | ネットワーク構造 - 主に2個のコンポーネントに分かれ、交互に推論する - 深層学習による回転軸、回転角、合成比率の推定 - それらを使って各ピクセルの法線を更新 隠れ状態から推定される3つの量以外は、IronDepth (BMVC 2022) と同様の構造 エッジ抽出 回転軸と回転角、合成比率の推定 近隣 Normal 同士の合成 Bae, Gwangbin, and Andrew J. Davison. "Rethinking inductive biases for surface normal estimation." Copyright © 2024 Morpho, Inc. All Rights Reserved. 96
DSINE | 実験結果 - ベンチマーク用データセットで精度検証 - 比較対象である Omnidata v2 は2週間の学習が必要な のに対し、DSINE は 12 時間 - 帰納バイアスの明示的なモデリング - 軽量なモデルパラメタ(72M) - 特殊なカメラ内部パラメタでの性能が大きく向上 - Ablation 解析により、回転による合成が有効と判 明 Bae, Gwangbin, and Andrew J. Davison. "Rethinking inductive biases for surface normal estimation." Copyright © 2024 Morpho, Inc. All Rights Reserved. 97
DSINE | ビデオ適用の結果例 動画URL:https://www.youtube.com/watch?v=2y9-35c719Y&t=20s Bae, Gwangbin, and Andrew J. Davison. "Rethinking inductive biases for surface normal estimation." Copyright © 2024 Morpho, Inc. All Rights Reserved. 98
DSINE | 結論 まとめ - 法線推定に使える帰納バイアスを洗い出し、重要な特徴量が何かを再考 法線同士の関係性を明示的にモデルして、あとは Deep にお任せ 必要な学習データの削減、モデルの軽量化、出力の安定化、を実現 感想 - 基盤モデルを使った最先端研究に一石を投じる研究 実用性の面では、こういった工夫が必要となることが多い - アノテーションできるデータ量の制約 - 実行環境における計算リソースの制約 汎用 AI ではなくタスク特異的なプロダクト開発が多い現場で参考になるアプローチ 最近では単眼デプス推定と同時に解くことで副次的に法線推定の精度を上げる研究も - そういった手法との比較は不十分(だが自分で試すと DSINE の方が良さそう) 入力 DepthAnything (CVPR 2024) Bae, Gwangbin, and Andrew J. Davison. "Rethinking inductive biases for surface normal estimation." DSINE Copyright © 2024 Morpho, Inc. All Rights Reserved. 99
Comparing the Decision-Making Mechanisms by Transformers and CNNs via Explanation Methods Mingqi Jiang, Saeed Khorram, Li Fuxin Collaborative Robotics and Intelligent Systems (CoRIS) Institute, Oregon State University
Comparing the Decision-Making Mechanisms by Transformers and CNNs via Expalanation Methods ● ● ● Best Student Paper Runner-up 動機:CNN は画像の一部領域だけを見て分類しているかもしれない 成果:画像のどこをみて認識しているかをいくつものモデルにわたり網羅的に調査。2種類の認識メカニズ ムを発見。 Copyright © 2024 Morpho, Inc. All Rights Reserved. 101
Comparing the Decision-Making Mechanisms by Transformers and CNNs via Expalanation Methods ● 結果 ○ 2種類の認識メカニズムと、モデル構造ごとに認識メカニズムが異なることを発見 ■ Compositional(全体像を見て判断):ConvNeXT, 蒸留していない transformer ■ Disjunctive(一部でもバッチリヒントがあると認識):CNN, 蒸留した transformer Copyright © 2024 Morpho, Inc. All Rights Reserved. 102
Comparing the Decision-Making Mechanisms by Transformers and CNNs via Expalanation Methods ● 提案手法:MSE (Minimal Sufficient Explanation) ○ ビームサーチ的にブラー領域を広げてモデル認識率を比較 Copyright © 2024 Morpho, Inc. All Rights Reserved. 103
Comparing the Decision-Making Mechanisms by Transformers and CNNs via Expalanation Methods ● 報告:normalization layer の影響も受ける Copyright © 2024 Morpho, Inc. All Rights Reserved. 104
Comparing the Decision-Making Mechanisms by Transformers and CNNs via Expalanation Methods ● 結果:2種の認識メカニズムの発見 ○ Compositional(全体像を見て判断):ConvNeXT, 蒸留していない transformer ○ Disjunctive(一部でもバッチリヒントがあると認識):CNN, 蒸留した transformer ● ● normalization の種類が影響 モデルごとに認識に用いる特徴量が異なる Copyright © 2024 Morpho, Inc. All Rights Reserved. 105
Rich Human Feedback for Text-to-Image Generation Youwei Liang, Junfeng He 他 University of California San Diego, Google Research 他
Rich Human Feedback for Text-to-Image Generation ● ● Best Paper 背景:画像生成モデルの生成画像にはまだ不完全な点 がある ○ artifact / implausibility ○ テキストとの misalignment ● 論文概要: ○ 人間がフィードバックをかけたデータセット を提案 ○ 当データセットを用いて生成画像の不完全な箇所とスコアを予測するモデルを提案 ○ 生成モデルをチューニングすることで画像生成品質を向上 Copyright © 2024 Morpho, Inc. All Rights Reserved. 107
Rich Human Feedback for Text-to-Image Generation ● 先行研究:Reinforcement Learning with Human Feedback ○ モデル出力に対して人間がスコアを付ける(フィードバック) ○ そのスコアをもとにモデルを強化学習 ● 本研究の新規性 ○ よりリッチな Human Feedback を与える: ■ 生成画像のおかしな点と、文章中の合わない箇所にマーク ■ 3項目+1総評で 4種類のスコア評価 ■ RichHF-18k データセットを作成 Copyright © 2024 Morpho, Inc. All Rights Reserved. 108
Rich Human Feedback for Text-to-Image Generation ● Human Feedback を学習 ○ ViT と text embed の比較的シンプルなモデル、 RAHF (Rich Automatic Human Feedback) を提案 ○ 人間がマークした(画像上とテキスト上の)位置とスコアを予測 Copyright © 2024 Morpho, Inc. All Rights Reserved. 109
Rich Human Feedback for Text-to-Image Generation ● RAHF を活かして生成品質向上 a. スコアが上がるように生成AIをファインチューニング ■ ファインチューニング後の方が良いと人間が客観的評価 b. ヒートマップをマスクとしてインペインティング Copyright © 2024 Morpho, Inc. All Rights Reserved. 110
まとめ 1. CVPRとは何か、なぜ重要なのか ○ AIブームの最先端を走ってきた CV分野で最高峰の国際学会 ○ 年々増加する論文数、世間のトレンドにマッチした分野の拡大 ○ 今年は生成 AI・3D・Vision-Languageに関する論文が Best paper 2. CVPR2024のトレンド ○ 全論文タイトルからトレンドワード抽出 ○ CVPR2024におけるトレンドワードの動向を紹介 ■ ■ ■ 3D Gaussian-Splatting 基盤モデルの活用 生成モデル 3. 注目論文ディープダイブ ○ “Rethinking Inductive Biases for Surface Normal Estimation” (Bae & Davison) ○ “Comparing the Decision-Making Mechanisms by Transformers and CNNs via Explanation Methods” (Mingqi Jiang et al.) ○ “Rich Human Feedback for Text-to-Image Generation” (Youwei Liang et al.) Copyright © 2024 Morpho, Inc. All Rights Reserved. 111