10.5K Views
February 15, 24
スライド概要
南大阪 MRI 研究会 (2024/02/15)
2024/2/12 Update
診療放射線技師です.
2024/02/15 115 回 南⼤阪 MRI 研究会 ⼈⼯知能技術による 放射線画像処理の基本から 最先端 (⽣成 AI) まで ⼤阪公⽴⼤学医学部附属病院 中央放射線部 ⽚⼭豊 • 注釈のない画像はスライド作成時点の 2023 年 12 ⽉に DALL·E 3 で⽣成した画像となります. • Prompt: Generates images for Magnetic Resonance Imaging (画像を⽣成した⾔葉を記載)
本講演の内容に関連する利益相反事項 ☑ ありません Prompt: Image of Magnetic Resonance Imaging
講演スライドについて • 公演スライドは Docswell と SlideShare で公開中 Docswell (新) SlideShare (旧)
⾃⼰紹介 [職歴] ⇒ 就職氷河期世代なので施設を転々としています. • 1998 年: オートバイ⽤マフラーの開発・製造 • 2003 年: ⼤阪⼤学医学部附属病院 • 2004 年: 市⽴泉佐野りんくう総合医療センター (現: 地⽅独⽴⾏政法⼈りんくう総合医療センター) • 2006 年: 社会医療法⼈仙養会 北摂総合病院 • 2007 年: ⼤阪市⽴⼤学医学部附属病院 (現: ⼤阪公⽴⼤学医学部附属病院) [取り組んでいる課題] ⇒ 画像処理関連が多いです. • • • • • • • • • • 2006 年: モンテカルロシミュレーションを⽤いた医療被ばくの線量評価 2010 年: スパースコーディングを⽤いたステレオマッチング ⇒ 競争的研究費 (19K09533) 2013 年: バイラテラルフィルタを⽤いたデノイズ処理 ⇒ ⾻シンチの画質改善@放射線技術学会誌 2014 年: スパースコーディングを⽤いた超解像 ⇒ PET の画質改善@放射線技術学会誌 2017 年: 深層学習を⽤いた超解像 ⇒ マンモグラフィーの画質改善@European Radiology 2018 年: 超解像を⽤いたデノイズ処理 ⇒ PET 画像のノイズ低減処理@放射線技術学会誌 2019 年: 敵対的⽣成ネットワークを⽤いた放射線画像の⽣成 ⇒ DA から DSA の⽣成@Radiology 2020 年: ⾮参照画質メトリクスを⽤いた放射線画像の評価 ⇒ 評価モデルの作成@RSNA 2022 年: ⼤規模⾃然⾔語処理を⽤いた⽂章⽣成 ⇒ ⼤規模⾔語モデルを⽤いた⽇本語⽂章要約の可能性 2023 年: 基盤モデルを使った⽣成 AI の医⽤活⽤
本⽇の内容 (要約) • Artificial Intelligence (AI) とは • AI を⽤いた⾃験例の紹介 • ⽣成 AI • まとめ Prompt: A book is open on the desk and the table of contents is displayed
本⽇の内容 • Artificial Intelligence (AI) とは • AI を⽤いた⾃験例の紹介 • ⽣成 AI • まとめ Prompt: Digital art of training data for artificial intelligence training
AI とは • 「“学習・推論・判断” といった⼈間の知能のもつ機能を備えた コンピュータシステム (広辞苑第三版より)」という定義 • 医療への AI の応⽤を考えた場合も同じ定義 ウマ イヌ Prompt: Illustration of Artificial Intelligence
AI の歴史 • 技術の歴史: ルールベース → 機械学習 → 深層学習 ⇒取り扱えるデータ量の増加が各ブームのきっかけ • 2014 年 敵対的⽣成ネットワーク (GAN) • 2018 年 ⾃然⾔語処理 (BERT) • 2020 年 Vision Transformer (ViT) • 2021 年 Multimodal AI (text2image) ⇒ 拡散モデル (Diffusion model) 引⽤: 総務省 HP 第 1 部 特集 IoT・ビッグデータ・AI 〜ネットワークとデータが創造する新たな価値〜 (http://www.soumu.go.jp/johotsusintokei/whitepaper/ja/h28/html/nc142120.html)
AI ≒ DL? ルールベース “A の場合 B” 形式の 論理ルールで表現し 与えられた問題に対して ルールを適⽤し解を発⾒ ⽣成 AI ⼈⼯知能 (Artificial Intelligence: AI) 総合的な概念と技術 機械学習 (Machine Learning: ML) 明⽰的にプログラムせずとも 学習能⼒をコンピュータに与える技術 深層学習 (Deep Learning: DL) 機械学習技術の⼀つである Neural Network の多層化により実現した技術
AI の種類 • 理想: ⼈間のように考えて⾏動できる AI ⇒ 汎⽤的な AI = AGI: Artificial General Intelligence ⇒ 強い AI (Strong AI) • ex) ドラえもん • 現実: ⼈より巧みに⾏える物事が予め定義された⼀つに限定 ⇒ 弱い AI (Narrow AI) • ex) iPhone & Siri,Android & Google アシスタント “強い AI” と⾔う⾔葉の定義が複数タスクで⼈に近いスコアを出すことができる AI に変化 • ex) Gemini (Google) 2023/12 発表
機械学習の分類 • 教師あり学習 • ラベリング済みのデータが与えられる学習⽅法 • 初期はこの分野の開発が最も発達 • 医⽤画像領域 (画像解析) では主流 Prompt: Conceptual Diagram of Supervised Learning • 教師なし学習 • ラベリング済みのデータが与えられない学習⽅法 • ⼊⼒データから規則性を発⾒していくのが特徴 • 強化学習 ⇒ OpenAI の Q* Prompt: Conceptual Diagram of Unsupervised Learning • 報酬を与えて AI モデルの判断を強化させる⽅法 • AI が⾃律的に学ぶことを⽬的とした技術 • 正解を与えなくても試⾏錯誤を繰り返し 最適な⾏動を⾏うように学習 • AI が複雑なタスクを⾃⼰学習でこなすことできる Prompt: Conceptual Diagram of Reinforcement Learning
AI ができること・していること • ⼊⼒に対して適切な出⼒を出すシステム • 膨⼤な計算を膨⼤なエネルギーを使って 膨⼤な半導体を動作させて 解答または選択肢を絞り込む ⇒ 強引なやり⽅ ⇒ 数を撃てば当たるの総当たり戦略 • Machine learning is just statistics ! Prompt: Generate a image of the data set Prompt: needed for artificial intelligence
⼈と AI の⽐較 多様な情報から学習 判断 複数の情報が複合的に関連付けられる 順⽅向,逆⽅向に解決可能 Prompt: The face of a smiling doctor in a white coat . データ セット Prompt: Imagine a futuristic robot that embodies Prompt: the essence of artificial intelligence. 機械 学習 判断 複数の情報が複合的に関連付けられていない 順⽅向に解決可能,逆⽅向は解決不可能
Scikit-Learn Algorithms Cheat-Sheet • Scikit-Learn: Python のオープンソース機械学習ライブラリ (https://scikit-learn.org/stable/tutorial/machine_learning_map/) ⇒ どの様な AI Model を作るときにどれ位のデータ量が必要かをまとめたチートシート
⼤規模データセットの登場 ‒ ImageNet RUSSAKOVSKY, Olga, et al. Imagenet large scale visual recognition challenge. International journal of computer vision, 2015, 115.3: 211-252.
⼤規模データセットの登場 ‒ ImageNet • 物体認識ソフトウェアの研究で ⽤いるために設計された ⼤規模な画像データベース • 1400 万を超える画像に⼿作業で アノテーションを⾏い, 画像に写っている物体を提⽰ • 100 万枚以上の画像に バウンディングボックスが付与 • 2 万を超えるカテゴリを有す • カテゴリの中には ⼀般的な物体カテゴリである “balloon” や “strawberry” などの 数百枚の画像で構成されている RUSSAKOVSKY, Olga, et al. Imagenet large scale visual recognition challenge. International journal of computer vision, 2015, 115.3: 211-252.
RadImageNet の登場 • ImageNet の画像は⾃然画像 • ⾃然画像を医⽤画像のタスクに 使うことに対する問題点 • RadImageNet は ImageNet の放射線画像版 • RadImageNet は 135 万枚の CT/MR/US と学習済モデル • 事前学習に RadImageNet を 使うことで ImageNet に⽐べ, 精度 (AUC) が上昇 (1~10%) Mei, Xueyan, et al. "RadImageNet: An Open Radiologic Deep Learning Research Dataset for Effective Transfer Learning." Radiology: Artificial Intelligence (2022): e210315.
⽇本医⽤画像データベース (Japan Medical Image Database: J-MID) • ⽇本医学放射線学会,順天堂⼤学,富⼠フイルム株式会社は, 国内の医療機関で撮影された医⽤画像を集約し⼀元管理するデータベース 「⽇本医⽤画像データベース (Japan-Medical Image Database: J-MID)」向けに 次世代クラウド管理基盤を構築 (https://www.radiology.jp/j-mid/) • 収集されているデータは CT が主だが MR もある
Transfusion: Understanding Transfer Learning for Medical Imaging • Transfusion: Understanding Transfer Learning for Medical Imaging https://arxiv.org/ abs/1902.07208 • 医⽤画像の 分類タスクの精度 向上に対して 転移学習は効果が 薄い
オープンデータ・データセットの利⽤ • ⽶マサチューセッツ⼯科⼤学 (MIT) は 2020 年 6 ⽉ 29 ⽇, ⼈種差別⽤語や⼥性差別を助⻑するとして,“Tiny Images” と ⾔う⼤規模なデータセットをオフラインにした • “Tiny Images” は,⾼度な物体検出技術を開発するために 8000 万枚以上の画像で成り⽴ち,2008 年に作成された • データセット内に問題のあるラベルのついた画像の例 • AI が⼈種や性別の偏⾒や差別を⽰す例は多数ある • 学習させるデータを如何に 公平公正な品質に保つことが課題 • マイノリティが AI によって不利益になってはならない Prabhu, Vinay Uday, and Abeba Birhane. "Large image datasets: A pyrrhic win for computer vision?." arXiv preprint arXiv:2006.16923 (2020). Figure 1 より引⽤
合成データ (Synthetic Data) の登場 • AI の主流である深層学習では膨⼤な教師データが必要不可⽋ • 現実世界に⾜りないデータを補うために “合成データ” を⽤いる • 実際に撮影された “本物” のデータとは異なり, GAN や Diffusion Model などにより⽣成した “偽物” のデータ “ICCV2021” で Microsoft が発表した “Fake it till you make it” は 合成データのみを⽤いて ⼈間の顔を解析できることを実証 ←図11 学習データとして使⽤するために ランダムに⽣成しレンダリングした合成顔 WOOD, Erroll, et al. Fake it till you make it: face analysis in the wild using synthetic data alone. In: Proceedings of the IEEE/CVF international conference on computer vision. 2021. p. 3681-3691.
脳画像合成データのオープンソース • AI を⽣成する教師データとなる医⽤画像は世界的に不⾜ • 英国キングス・カレッジ・ロンドンが脳の合成画像を 10 万枚⽣成しオープンソースとして公開すると発表 • 合成技術が普及すれば, 教師データを必要とする 関連研究を前進し得ると期待 TUDOSIU, Petru-Daniel, et al. Morphology-Preserving Autoregressive 3D Generative Modelling of the Brain. In: International Workshop on Simulation and Synthesis in Medical Imaging. Cham: Springer International Publishing, 2022. p. 66-78. Fig. 3 Synthetic samples より引⽤ TUDOSIU, Petru-Daniel, et al. Morphology-Preserving Autoregressive 3D Generative Modelling of the Brain. In: International Workshop on Simulation and Synthesis in Medical Imaging. Cham: Springer International Publishing, 2022. p. 66-78.
合成データの危険性 • ⼈間によるデータで構築された⽣成 AI を ⽣成 AI が⽣み出したデータで学習させると ⼈間によるデータで構築された⽣成 AI のモデルが崩壊 • 現状では, ⼤量のデータを集める⽅が 効率的にモデルを作成可能 SHUMAILOV, Ilia, et al. The Curse of Recursion: Training on Generated Data Makes Models Forget. arXiv preprint arxiv:2305.17493, 2023. Figure 1: Model Collapse refers to a degenerative learning process where models start forgetting improbable events over time, as the model becomes poisoned with its own projection of reality. より引⽤ SHUMAILOV, Ilia, et al. The Curse of Recursion: Training on Generated Data Makes Models Forget. arXiv preprint arxiv:2305.17493, 2023.
⼤量の実画像データの収集が不要な AI • 2022 年 6 ⽉ 13 ⽇に産業技術総合研究所 (産総研) は 数理モデルから⾃動で学習できる画像認識 AI の開発と発表 https://www.aist.go.jp/aist_j/press_release/pr2023/pr20230929_2/pr20230929_2.html • 2023 年 9 ⽉ 29 ⽇に画像中の物体を認識する画像識別に加えて, 物体の範囲情報など画像中の詳細内容を把握できる画像領域分割を ⾏う AI の学習に成功し,画像領域分割を含む基礎的な 視覚に関する能⼒を持つ AI を実現たと発表
環境 ‒ ハードウェア • AI モデルの学習は多くの演算処理が⾏われる ⇒ “演算時間の短縮” が最重要課題 ⇒ ⾼速演算処理が⾏える Graphic Processor Unit (GPU) が必須 • クラウドにある GPU インスタンス • GPU カードが搭載されたコンピュータの利⽤ 開発ボード ゲーミング PC AI 専⽤機 安価 低性能 ⾼価 ⾼性能 Jetson Nano LEVEL∞ Deep Learning Box
環境 ‒ OS • Linux ⇒ フレームワーク/ライブラリなどが豊富 Prompt: Linux, Windows, macOS • Windows ⇒ Neural Network Console (SONY) などが利⽤可能 • macOS ⇒ 2023 年 12 ⽉に Apple M シリーズに最適化された 深層学習フレームワーク mlx が登場 MLX: An array framework for Apple silicon ⇒ https://github.com/ml-explore/mlx
環境 ‒ 機械学習ライブラリ • scikit-learn ⇒ Python で実装されたオープンソースの機械学習ライブラリ • TensorFlow ⇒ Google が開発した ⇒ オープンソースの機械学習ライブラリ • PyTorch ⇒ Facebook が開発した ⇒ Python 向けの機械学習ライブラリ Prompt: machine learning library
環境 ‒ TensorFlow.js • TensorFlow.js は 機械学習⽤ JavaScript ライブラリ • ML モデルを JavaScript で開発し, ブラウザなどで使⽤ (https://www.tensorflow.org/) • JavaScript だから汎⽤性が⾼い • 動作速度は? • TensorFlow (Python) で 学習したモデルを読み込んで, ブラウザ側で推論することも可能
環境 ‒ imageJ (deepImageJ) • Segmentation • Denoising • Super-Resolution ⇒ (ImageJ)/FIJI のプラグイン https://deepimagej.github.io/
環境 ‒ deepImageJ の超解像を適⽤した画像 元画像 超解像適⽤画像
環境 ‒ AI の導⼊ • 機械学習の課題は再現性の確認のために コードが公開されていることが多い (特にプレプリントの arXiv) ⇒ ⾃分の⾏いたい課題に類似したコードを探して実⾏/改良 ⇒ AI は適⽤範囲が広範なので⽬的を決めないと続かない ⇒ アップデートが⾮常に早く,系統⽴てた勉強では学習しきれない ⇒ 必要な時に必要な知識を得る必要がある
本⽇の内容 • Artificial Intelligence (AI) とは • AI を⽤いた⾃験例の紹介 ⇒ 画像解析/画像処理 (画像評価は公開している資料を参照下さい.) • ⽣成 AI • まとめ Prompt: Abstract painting symbolizing artificial intelligence
医⽤画像領域で⽤いられる AI 敵対的⽣成ネットワーク (Generative Adversarial Networks: GAN) 物体検出 (Detection) 画像認識 (Segmentation) 画像分類 (Classification) 画像解析 超解像 (Super-Resolution) ノイズ低減 (Denoise) 画像処理 ⾃然⾔語 処理 (Natural Language Processing)
医⽤画像領域で⽤いられる AI ‒ 画像解析 敵対的⽣成ネットワーク (Generative Adversarial Networks: GAN) 物体検出 (Detection) 画像認識 (Segmentation) 画像分類 (Classification) 画像解析 超解像 (Super-Resolution) ノイズ低減 (Denoise) 画像処理 ⾃然⾔語 処理 (Natural Language Processing)
検出モデル Daiju Ueda, Akira Yamamoto, Masataka Nishimori, Taro Shimono, Satoshi Doishita, Akitoshi Shimazaki, Yutaka Katayama, Shinya Fukumoto, Antoine Choppin, Yuki Shimahara, Yukio Miki. Deep learning for MR angiography: automated detection of cerebral aneurysms. Radiology, 2019, 290.1: 187-194.
AI の判断基準の可視化 • Grad-CAM Selvaraju, R. R., Cogswell, M., Das, A., Vedantam, R., Parikh, D., & Batra, D. (2017). Grad-cam: Visual explanations from deep networks via gradient-based localization. In Proceedings of the IEEE international conference on computer vision (pp. 618-626).
胸部エックス線写真 (⾃験例) DCNN を利⽤した撮影画像と依頼オーダーの整合性判定@JRC2021 • 撮影された画像と依頼内容が⼀致しているかを判断する AI ⇒ 胸部エックス線写真の撮影⽅向を判断 ⇒ 判断根拠を Grad-CAM で表⽰ AP: 98.6 % の分類精度で判断可能 PA: 99.6 %の 分類精度で判断可能
Grad-CAM の評価 • Grad-CAM を使⽤して得られたカラーマップを 6 領域に分割 • カテゴリ毎にどの領域が影響したかにより評価 AP PA 0.8 % 24.6 % 24.4 % 5.0 % 55.4 % 8.0 % 1.6 % 36.6 % 12.0 % 2.6 % 27.4 % 1.6 % • 縦隔領域が判断に強く影響 ⇒ 判断根拠を数値化しモデルを評価
⾻シンチグラフィ (⾃験例) Differentiation of trauma and bone metastasis in the ribs of bone scintigraphy using AI, and visualization of the site of interest of AI by Grad-CAM@RSNA2021 • ⾻転移の検索や治療効果判定に広く⽤いられている • 肋⾻の⾻転移は,肋⾻に沿った接線⽅向に RI 異常集積が認められるため, 斜位像の追加を⾏うことが多い • 正⾯像のみから肋⾻転移を判断するモデルの作成 • 教師データは 402 例の打撲の症例と 437 例の肋⾻転移の症例の Static 像 • 打撲と転移は 90.0 % 以上の精度で判断 (分類) 可能 Differentiation of trauma and bone metastasis in the ribs of bone scintigraphy using AI, and visualization of the site of interest of AI by Grad-CAM@RSNA2021
医⽤画像領域で⽤いられる AI ‒ 画像処理 敵対的⽣成ネットワーク (Generative Adversarial Networks: GAN) 物体検出 (Detection) 画像認識 (Segmentation) 画像分類 (Classification) 画像解析 超解像 (Super-Resolution) ノイズ低減 (Denoise) 画像処理 ⾃然⾔語 処理 (Natural Language Processing)
画像処理の課題 • 画像処理の教師データには統計ノイズの少ない画像や⾼解像度画像が必要 • 装置の幾何学的な制約や撮像時間の最適化のため, 臨床検査以上の画質の画像を取得することが困難 ⇒ ⾃然画像* を教師データに⽤い放射線画像の画質改善を実現 * AGUSTSSON, Eirikur; TIMOFTE, Radu. Ntire 2017 challenge on single image super-resolution: Dataset and study. In: Proceedings of the IEEE conference on computer vision and pattern recognition workshops. 2017. p. 126-135.
ノイズ低減処理 (DnCNN) • Denoising Convolutional Neural Network (DnCNN) は 15 層のノイズ除去⽤ CNN Model ZHANG, Kai, et al. Beyond a gaussian denoiser: Residual learning of deep cnn for image denoising. IEEE transactions on image processing, 2017, 26.7: 3142-3155. Fig.1 から引⽤ • Grayscale に変換した⾃然画像 (DIV2K) と ガウシアンノイズを付加した DIV2K のペアからモデルを作成 AGUSTSSON, Eirikur; TIMOFTE, Radu. Ntire 2017 challenge on single image super-resolution: Dataset and study. In: Proceedings of the IEEE conference on computer vision and pattern recognition workshops. 2017. p. 126-135. DIV2K (ノイズなし) DIV2K (ノイズあり)
Noise reduction processing using DnCNN Study of noise reduction for MRI by Deep Learning@JRC2023 Nex 1 Original deNoise Nex 3 Nex 5 Nex 10 … Field of view (FOV) 256 mm TR 5000 msec TE 100 msec Slice thickness 3 mm Matrix 512×512 NEX of Target Images 1〜9 NEX of Reference Image 10
Noise reduction processing using DnCNN Study of noise reduction for MRI by Deep Learning@JRC2023 • Signal to Noise Ratio (SNR) 𝑆𝐼 𝑆𝑁𝑅 = 2 × 𝑆𝐷 SI: Signal Intensity in ROI SD: Standard Deviation in ROI 22 SNR Reference (NEX: 10) 21 20 19 18 1 2 3 4 5 NEX Original: ー,deNoise: ー,Reference: …
超解像 (SRGAN) • GAN を⽤いて敵対的な学習を可能にした超解像モデル. • ResNet をベースにした Generator を採⽤ • 過度な情報損失を抑えつつ過学習を防⽌ • 勾配喪失防⽌のため Discriminator に複数の畳み込み層と 活性化関数に Leaky ReLU が使⽤ Photo-Realistic Single Image Super-Resolution Using a Generative Adversarial NetworkFigure 4 (https://arxiv.org/abs/1609.04802)
Super-Resolution using SRGAN Physical Assessment of Super Resolution for MRI@JRC2023 Reference (448×448) Target (224×224) SRGAN (448×448) Field of View (FOV) Slice Orientation TR TE Slice Thickness Band Width Target of Matrix Reference of Matrix 224 mm Axial 49.4 msec 1.92 msec 3 mm 438 Hz/pix 224×224 448×448
超解像技術 (Real-ESRGAN) Real-ESRGAN: Training Real-World Blind Super-Resolution with Pure Synthetic Data Xintao Wang1 Liangbin Xie2,3 Chao Dong2,4 Ying Shan1 Codes 1ARC Lab, Tencent PCG 2Shenzhen Institutes of Advanced Technology, Chinese Academy of Sciences 3University of Chinese Academy of Sciences 4Shanghai AI Laboratory Introduction Challenges in Real-World Blind Super-Resolution Real-ESRGAN High-Order Degradation Process Results and Open Source Qualitative Comparisons • Unknown and complex degradations • Different and various contents • Deal with them in one unified network The sinc Filters to Model Common Ringing and Overshoot Artifacts. Optimize for Anime Images Contributions • • • Propose a high-order degradation process to model practical degradations, and utilize sinc filters to model common ringing and overshoot artifacts. Employ several essential modifications (e.g., U-Net discriminator with spectral normalization) to increase discriminator capability and stabilize the training dynamics. Real-ESRGAN trained with pure synthetic data is able to restore most real-world images and achieve better visual performance than previous works, making it more practical in real-world applications. Network Architecture • We employ the same generator architecture as ESRGAN • U-Net discriminator with spectral normalization is used to increase discriminator capability and stabilize the training dynamics Motivation of Practical Degradation Modelling Open Source In the GitHub, we provide: • Full training and testing codes • Colab Demo for Real-ESRGAN • Portable Windows / Linux / MacOS executable files for Intel/AMD/Nvidia GPU, which is based on Tencent ncnn Classical degradation model Complicated combinations of degradation processes for real images on the Internet We also incorporate the face restoration method – GFPGAN, to improve the face performance. BasicSR Codes & Models
Ultra Sharp 標準画像に Real-ESRGAN を適⽤ 元画像 Real-ESRGAN
画像の⽐較 (Open Datasets T2-Axial) Original Real-ESRGAN
Real-ESRGAN を⽤いた⾼解像度化 ⾼解像度化@第51回 ⽇本放射線技術学会秋季学術⼤会 128 画素 512 画素 (処理後) 256 画素 1024 画素 (処理後) 512 画素
Real-ESRGAN を⽤いた品質改善 画質改善@第67回 近畿⽀部学術⼤会 Body Array Coil 処理画像 Ultra Flex (L) Coil 処理画像 Ultra Flex (S) Coil
Unpublished Issue. Real-ESRGAN を⽤いたノイズ低減処理 元画像 Real-ESRGAN
Unpublished Issue. デノイズ@教師なし⼿法 (Noise2Void) • Noise2Noise は, あるノイズなし画像に独⽴にノイズが 乗ったペア画像が必要だった. ⇒ 教師データに相当するものが必要 • Noise2Void では, 単⼀のノイズ画像について, あるピクセルを周囲のピクセルから 推論するというネットワークを学習 ⇒ Noise2Noise と同じ枠組みで学習 • LEHTINEN, Jaakko, et al. Noise2Noise: Learning image restoration without clean data. arXiv preprint arXiv:1803.04189, 2018. • Krull, A., Buchholz, T. O., & Jug, F. (2019). Noise2void-learning denoising from single noisy images. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition (pp. 2129-2137).
標準画像に Noise2Void を適⽤ 元画像 元画像にノイズを付与 元画像に ノイズを付与した画像に Noise2Void を適⽤ 元画像に ノイズを付与した画像に Gaussian Filter を適⽤ • Noise2Void を適⽤した画像はボケの少ない統計ノイズが低減された画像が出⼒されている 標準画像に対してノイズを付与しノイズ低減を⾏った例 ⼈⼯知能技術を⽤いたノイズ低減処理は, 従来の平滑化フィルタに⽐べて統計ノイズを選択的に低減することができ, Gaussian Filter 適⽤画像に⽐べて先鋭度が保持されている. Noise2Void は教師なし⼿法であるゆえ,汎⽤性が⾼いノイズ低減アルゴリズムであると⾔える.
Unpublished Issue. Noise2Void を⽤いたノイズ低減処理 (NM) 元画像 元画像に Noise2Void を適⽤ 元画像に Gaussian Filter を適⽤ • Noise2Void を適⽤した画像はボケの少ない統計ノイズが低減された画像が出⼒されている
Unpublished Issue. Noise2Void を⽤いたノイズ低減処理 (MR) 元画像 元画像に Noise2Void を適⽤
学習データに対する画像処理の可能性 • 統計ノイズが多い ⇒ 正則化に悪影響 • 分解能が悪い ⇒ 画像の特徴 (形状) を得難い • 画像処理を適⽤ ⇒ 画質の均⼀化 ⇒ 教師データの品質が揃う • 前処理として画像処理を利⽤ Prompt: Draws on the possibilities of image processing for supervised data.
本⽇の内容 • Artificial Intelligence (AI) とは • AI を⽤いた⾃験例の紹介 • ⽣成 AI ⇒ text2text/text2image… • まとめ Prompt: The face of a smiling doctor in a white coat .
ChatGPT - 対話を実現する AI • OpenAI は 2022 年 11 ⽉ 30 ⽇に対話型⾔語モデル “ChatGPT” を発表 (https://chat.openai.com/) • ⼊⼒されたの質問に回答,誤りを認めたり,間違った前提に異議を唱えたり,不適切な要求を拒否できる
Unpublished Issue. MRI 検査前の問診を実現する AI • ファインチューニングで 核医学にも対応可能 • ⼀問⼀答で問診を⾏える • 回答に応じて出⼒が変わる • シングルボードコンピュータで 実現できるモデルも登場 Jetson Nano
Unpublished Issue. MRI 検査前の指⽰を実現する AI 髄膜腫 (Meningioma) ミオパチー (Myopathy)
⼊⼒された画像に対する会話 • Google の Bard に PET 画像を⼊⼒ • ⾼品質の PET 画像なので,MRI と勘違いした? ⇒ 学習データに核医学画像少ない (含まれていない) • 病気の発⾒も可能だとする報告もある
⼊⼒された画像に対する会話 • 以前は今川焼きと断定していましたが, 御座候や回転焼きと⾔う名称も挙げています.
DALL·E 3 により⽣成した MRI • “Image of magnetic resonance imaging.” と⼊⼒して⽣成した画像 • (何とも⾔い難いコントラストだが) MRI ⾵の画像が⽣成できた
DALL·E 3 により⽣成した胸部 X 線画像 • “Image of a Chest X-Ray. ” と⼊⼒し⽣成した画像 • ⽣成画像はユーモアのある画像が出⼒されることがあるが, 学習データと同じ分布の画像を出⼒ ⇒ データ拡張と同等と捉えて良いのか疑問
⼊⼒された画像を⽣成するプロンプト ⼊⼒画像
⼊⼒された画像を⽣成するプロンプト ⼊⼒画像 確かに、ここにあなたが送った画像を⽣成するためのプロンプトがあります: ⼿前に⻘い⾖椅⼦があり、その上に⽝が仰向けに寝ている。 ⽝は茶⾊で⽩い斑点があり、⾜を宙に浮かせている。 ビーンバッグの椅⼦はリビングルームにあり、背景にはテレビ、部屋の反対側にはソファがある。 このプロンプトは、希望するイメージを⽣み出すのに⼗分具体的ですが、まだ創造性の余地を残しています。 例えば、⽝は違う⽝種や⾊でもいいし、リビングルームは違うスタイルで装飾されていてもいい。 以下は、イメージを⽣成するために使⽤できる、より詳細なプロンプトです: ⼿前に⻘い⾖椅⼦があり、その上に茶⾊と⽩の⽝が仰向けに寝ている。 ⽝はラブラドール・レトリーバーで、体重は約60キロ。⽝は⾜を宙に浮かせ、⾆を出している。 ビーンバッグの椅⼦はリビングルームにあり、背景には55インチのテレビ、 反対側には⿊いソファが置かれている。壁は⽩く塗られ、床にはラグが敷いてある。 このプロンプトは、⽝とリビングルームに関するより多くの情報を提供し、より現実的なイメージにつながる可能性があります。 お役に⽴てれば幸いです!
画像から動画を⽣成 (Img2Mov) Prompt: A video of the beauty of the sky. (空の美しさを伝える動画)
画像から動画を⽣成 (Img2Mov) Prompt: A video of the Four-leaf clover of happiness, slow motion. (幸せの四つ葉のクローバーのスローモーション動画)
テキストから動画を⽣成 (Text2Mov) Prompt: Beach at sunset. (⼣暮れのビーチ)
テキストから動画を⽣成 (Text2Mov) Prompt: Dachshund taking a walk in the park. (公園を散歩するダックスフンド)
MagicAnimate: Temporally Consistent Human Image Animation https://showlab.github.io/magicanimate/
MagicAnimate: Temporally Consistent Human Image Animation https://showlab.github.io/magicanimate/
MagicAnimate: Temporally Consistent Human Image Animation https://showlab.github.io/magicanimate/
⽣成 AI の登場でプログラマは不要? • Text2Program が実⽤レベルになれば, コーディングを⾏う時間を捻出する必要がなくなるのですが, Text2Program で⽣成したコードは⼤幅な⼿直しが必要です. ⇒ コードの⼤枠を Text2Program で⽣成することで効率向上 https://ja.m.wikipedia.org/wiki/ファイル:ChatGPT_logo.svg https://ja.m.wikipedia.org/wiki/ファイル:Google_Bard_logo.svg
本⽇の内容 • Artificial Intelligence (AI) とは • AI を⽤いた⾃験例の紹介 • ⽣成 AI • まとめ Prompt: Imagine a futuristic robot that embodies Prompt: the essence of artificial intelligence. Prompt: The face of a smiling doctor in a white coat .
医療に AI ⾰命が起きつつある@Nature • 2016 年に⼈⼯知能研究の第⼀⼈者であるジェフリー・ヒントンが AI が直ぐに放射線科医に取って代わるため 放射線科医になるための訓練をやめるべきだと宣⾔ (Proclaimed) ⇒ AI が放射線画像を⼈間以上に読影できるようになると予測 ⇒ FDA が医療での使⽤を許可した AI ツールは 500 以上 • 多くの医師が AI ツールを認識 ⇒ 実際に使⽤したことがあるのは 10 ~ 30% ⇒ AI のミスが⼈間の診断に悪い影響を与えるとする報告 ⇒ 判断根拠の明⽰化の必要性 • 放射線医学の分野で AI の役割が拡⼤し続けることに疑いの余地はない ⇒ AI が放射線科医に取って代わるのではなく, ⇒ AI をツールとして使⽤する訓練が必要 ⇒ AI を⾮神秘化し,AI の現実と誇⼤広告を管理することが重要 PERCHIK, Jordan. AN AI REVOLUTION IS BREWING IN MEDICINE. WHAT WILL IT LOOK LIKE?. Nature, 2023, 622: 687. https://www.nature.com/articles/d41586-023-03302-0
メール: [email protected]
Twitter: https://twitter.com/EzoeRyou
GitHub: https://github.com/EzoeRyou
アマゾンの江添のほしい物リストを著者に送るとブログ記事のネタになる
筆者にブログのネタになる品物を直接送りたい場合、住所をメールで質問して
ください。
金持ちの研究所から出てきた機械学習の論文なんてゴミだ
[D] I don't really trust papers out of "Top Labs" anymore : MachineLearning
⾦持ちの研究所から出てきた
機械学習の論⽂なんてゴミだ
• GESMUNDO, Andrea; DEAN, Jeff.
An evolutionary approach to dynamic introduction
of tasks in large-scale multitask learning systems.
arXiv preprint arXiv:2205.12755, 2022.
• 複雑で進化的なマルチタスク学習のアルゴリズムについて
書いてあって興味深い
• ⺠間のクラウドサービスを使い学習を⾏うコストは
700 万円程度必要
⇒ 既存のベンチマークで先⾏研究より精度が 0.03 %向上
⇒ 重箱の隅をつつくような研究
⇒ 学習リソースを別のことに使うべきだと⾔う主張
• 企業さまの取り扱う課題は学習データが臨床検査と乖離
⇒ 臨床の現場からは取得できないデータ
https://arxiv.org/abs/2205.12755
https://ezoeryou.github.io/blog/article/2022-05-28-no-trust-from-top-labs-paper.html
あのさ。書いてある数字は事実だろうし実際書いてある研究は
やったんだと思うよ。そこんとこは認めてやるよ。でもそれだけ
だ。例えば最近の"An Evolutionary Approach to Dynamic Introduction
of Tasks in Large-scale Multitask Learning Systems"(巨大マルチタス
ク学習システムに対するタスクの動的追加における進化的アプ
ローチ、著者Andrea Gesmundo, Jeff Dean、GoogleのAI部署所属)っ
て論文だがな。この18ページの論文は超複雑で進化的なマルチタ
スク学習アルゴリズムについて書いてあって興味深いし、実際問
題を解決してるさ。でも二点ツッコミどころがある。
ツッコミその一、奴らが主張する成功指数とやらはCIFAR-10に対
して99.43。SotAの99.40。ミジンコみたいな改善率じゃねーか。
ツッコミその二、奴らの論文の最後んとこにあるグラフに、この
最終結果をトレーニングするために使ったTPUコア時が書かれて
るんだが、それがなんと合計17810コア時。お前がGoogleで働いて
いないとしよう。お前が3.22米ドル/時(409円/時)のオンデマンド価
格でその計算力を買ったとしたら、このモデルをトレーニングす
るコストは57348米ドル(728万円)だ。
言ってしまえばだな。十分な計算力を十分に汎用的な遺伝的アル
ゴリズムにつぎ込んだらお望みの精度ぐらい出せらぁ。この論文
を読んで、「遺伝的アルゴリズムでマルチタスク学習をそれぞれ
の新しい追加タスクの学習優先度を以前のタスクから学習した既
存のモデルからの差分変更から推定して」って部分はだな、もう
ちょっとわかりやすく言い換えてやると、「(この論文著者で
Google社員の)Jeff Deanは4人家族を5年ぐらい養えるほどのカネを
つぎ込んでCIFAR-10の精度を0.03%向上させました」ってこった
な。
OpenAIが特にこの手のバカをやらかしているが、今やみんな同じ
ことをしてやがる。クソほどバカでかい計算力をチリ程度の新規
性あるアイディアに注ぎ込んだら、既存の問題と既存のデータと既
存のベンチマークで、先行者よりごく僅かにいい数字が出せまし
たってんで嬉々として研究成果として履歴書に書くって寸法だろ
おめでてーな。お前の研究成果、本当に意味あるのか? だって
(俺はお前ほどカネがないから)検証できないんだぜ。使い物になら
ん。
お前ら機械学習業界はこれを放置していていいのか? ひと握り
の巨大企業らとたまに大学とかがチンポよろしく俺の計算力は
でっかいしコキ捨てるほどあるぜ、でもお前らの計算力チンポは
小せぇから実験すらできねぇだろざまあみろとほくそ笑んでいる
んだぜ。この問題に対処する新しい論文誌が必要だろ。実験を単
一のコンシューマーグレードのGPUで8時間以内に再現できる論文
しか掲載しない論文誌が。
まあ、実際728万円あれば人間を一人雇って機械学習以上の精度で仕事をさ
せることができるわけだ。カネに物言わせて莫大な計算力をぶん回せば雑な
ニューラルネットワークでもそこそこの結果は出せるわけで、そんなものを
成果として誇っている研究者ばかりの業界は果たして科学なのだろうか。
CC BY-SA 4.0: This work is licensed under a Creative Commons AttributionShareAlike 4.0 International License.
まとめ • ⼀般的に⼈⼯知能技術は教師データの Bias が⾼い ⇒ 医⽤画像は施設により画質が⼤きく異なる ⇒ 他施設で作成したモデルでは⾃施設で性能が発揮できないことが多い • 画像処理を適⽤することで, 画像の品質 (知的品質) が近づき⼈⼯知能技術の精度が向上する可能性 ⇒ ⼈⼯知能技術を適⽤する⾯からも撮像の標準化が望まれる • 診療放射線技師は提供されたモデルや教師データを理解できなくとも, ⾃施設のデータが提供されたモデルに適⽤できる状態なのかを 判断できる知識や技術が必要 • 病院で働く診療放射線技師は, 臨床検査で撮像している以上の画質の画像を得ることができない ⇒ 画像処理の課題を解決する場合, ⇒ ⾼品質の画像を使えないので課題の捉え⽅に⼯夫が必要
謝辞 • 本講演を終えるにあたり, このような発表の機会を与えて頂いた ⼤阪公⽴⼤学医学部附属病院 佐原朋広先⽣ 南⼤阪 MRI 研究会 世話⼈の先⽣⽅,深く感謝申し上げます.