分子記述子とは何か

156 Views

April 29, 26

スライド概要

本スライドでは、分子記述子が分子の記号的表現を数値や標準化された実験結果に変換する論理的手順であることを説明します。記述子は類似性検索、分類、物性やスペクトルの予測といった定量的モデル構築に利用され、スカラー、ベクトル、行列といった形で表現されます。また、0次元から4次元までの階層的な次元分類があり、0次元は構成原子のカウント、2次元はトポロジカル情報、3次元は幾何学的配座、4次元は複数配座や確率情報を含みます。多数の記述子が開発されており、固定長ベクトルが比較や解析に適しています。

簡単な記事は以下に書いています。
https://zenn.dev/poclab_techblog/articles/what_is_molecular_discriptor
より詳細について記載した記事
https://zenn.dev/poclabweb/books/chemoinfomatics_theory_descriptor/viewer/lesson05_001_chemicaldescriptor

profile-image

横浜国立大学化学生命系学科にて、化学と情報科学に関わる研究(ケモインフォマティクス)を行っています。 無料で読めるケモインフォマティクス入門書を執筆中です。 https://zenn.dev/poclabweb?tab=books データ駆動型のアプローチを通じて、新しい分子と材料の発見と設計を加速することを目指し、化学構造の情報を整理し世界中の人々がアクセスして使えるようにしていきます。

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

各ページのテキスト
1.

1 分子記述子とは何か? What are molecular descriptors? Hiroaki Gotoh

2.

分子記述子や構造記述子とは何か? 分子記述子は、分子の記号的表現にコード化された化学情報を、有用な数値や 標準化された実験結果に変換する論理的・数学的手順の最終結果である。 Handbook of Molecular Descriptors https://doi.org/10.1002/9783527613106.fmatter • 分子記述子は分子特性の解釈により深い洞察を与えることができる、あるいは 他の分子の興味深い特性を予測するためのモデルの一部となることができる。 • 分子記述子(molecular descriptors)と構造記述子(structure descriptors)は、同じ意味 で使われている。 • 決定論的値が多い(一部分で予測値が用いられる) 2

3.

分子記述子の使われ方 3 • 分子記述子には、基本的に類似性検索、分類、予測のための定量的モデル構築用がある。 構造 情報 ベクトル(bector)や行列(matrix) スカラー(scalar ) 大きさのみで表され、方向をもたない量。 要素を(縦または横に)一列や長方形や 正方形に並べたもの。 分子量: 165.19g/mol 検索 全く同じものがデータベー スに登録されているか? 似たものが市販され ているか? 分類 (グループ分け) ビットベクトル: 原子や官能基の有無 予測 物性? 融点 272℃ スペクトル? 2925 cm -1 強 1562 cm -1 強

4.

どのような記述子が得られるかは想像力次第 4 分子は、(i) 記述子のデータ型と(ii) 化合物の分子表現に関して、階層的な分子記述子 で表現することが可能である。 物理 0から4次元空間 統計学 線型代数学 グラフ理論 化学 電子密度, 軌道, 原子間相互作用 数学 分子記述子は、 • 物理学(幾何学的分解能) • 化学(原子の物理化学的性質) • 数学(数学的変換) の手法から構成されている。 分子記述子の化学問題への応用と活用は、想像力によってのみ制限される

5.

開発された分子記述子は膨大 • 2000年に出版されたHandbook of Molecular Descriptorsでは、 約3,300種類の記述子が報告されている。 • 2009年、これらの著者による新版Molecular Descriptors for Chemoinformaticsは、すでに2巻1,300ページ、 3,000項目、6,400文献、7,000人の引用者、から構成されている。 • 開発されている分子記述子は、分子のどこを見ているかによって 0, 1, 2, 3, 4 D (次元: Dimenthon)のものに分類できる。 Author(s):Prof. Dr. Roberto Todeschini, Dr. Viviana Consonni First published:22 September 2000 Print ISBN:9783527299133 |Online ISBN:9783527613106 |DOI:10.1002/9783527613106 Copyright © 2000 WILEY‐VCH Verlag GmbH 5

6.

分子から得られる情報色々 構造 情報 計算元 0次元 1次元 2次元 構成原子 している原子 部分構造 の情報 2次元の配座 や接続情報 分子式 C6H5O 部分的な 接続表 接続表 or 2次元の 配座 計算コスト が低い 6 3次元 4次元 3次元の配座 3次元の配座 と存在確率 3次元の 配座 3次元の 複数配座 情報量が多い 計算コスト が高い 情報量が少ない 注意)これらの次元の定義は、完全に定まっておらず区別は曖昧(人によって分類方法が異なるものもある)

7.

構造から得られるスカラー、ベクトル、行列 スカラー(scalar ) 大きさのみで表され、 方向をもたない量。 行列(matrix) 数字・文字を長方形や 正方形に並べたもの ベクトル(bector) 要素を(縦または横に) 一列に並べたもの。 結合-電子行列 (Bond Electron matrix) ビットベクトル 原子や官能基の有無 分子量: 165.19g/mol 1 1 0 融点: 283℃ 分子の代表値の把握 分子の官能基の有無を把握 →ベクトル等のサイズは固定長が好まれる 原子間の関係性の把握 7

8.

分子記述子のベクトルは、固定長が好まれる 8 • データセットの各分子は数学的データ解析を可能にするために同じ数の記述子に よって表現が好まれる。 • 検索や予測のための数学的データ解析法を適用するためには、分子の表現は分子の サイズや原子数に対して不変である方が都合が良い。 • 各構造が同じ数の記述子を持つように、分子構造を数学的に変換する必要がある。 固定長でないと比較しにくい 固定長で比較 ビット ベクトル の例 1 0 1 1 0 0 1 0 0 1 0 0 この部分だけ異なる 1 1 0 0 1 1 0 1 1 0 1 どのように比べるかの検討も必要 InChIKeyは COLNVLDHVKWLRT-QMMMGPOBSA-N InChIは InChI=1S/C9H11NO2/c10-8(9(11)12)6-7-4-2-1-3-5-7/h1-5,8H,6,10H2,(H,11,12) RC INICO NZNJ XQF -M ZXODV ADSA -N 可変長 InChI=1S/C47H51NO14/c1-25-31(60-43(56)36(52)35(28-16-10-7-11-17-28)48固定長 41(54)29-18-12-8-13-19-29)23-47(57)40(61-42(55)30-20-14-9-15-21-30)38大きな分子で 45(6,32(51)22-33-46(38,24-58-33)62-27(3)50)39(53)37(5926(2)49)34(25)44(47,4)5/h7-21,31-33,35-38,40,51-52,57H,22-24H2,1も変わらない 6H3,(H,48,54)/t31-,32-,33+,35-,36+,37+,38-,40-,45+,46-,47+/m0/s1 同じ文字数だと比較しやすい 分子サイズが大きくなると長くなる。

9.

分子の次元とスカラー、ベクトルのまとめ 次元 説明や別称 0 構成記述子 カウント記述子 1 計算元 スカラー ベクトル, 行列など 分子式 C6H5O 分子量 等 C,H,O,N等の構成原子数の配列 フラグメント数 (Fingerprints) 部分的な 接続表 回転可能結合数 等 フラグメントの数(MACCSキーなど) ECFP(Extended-Connectivity Fingerprints) 等 2 トポロジカル記述子 (Topological index) 接続表 or 2次元の 配座 Wiener 指数, TPSA 等 Estate index 等 3 幾何学記述子 (Geometrical descriptor) 3次元の 配座 Sterimol の L Sterimol の w 等 動径分布関数(RDFコード) 比較分子場解析(COMFA) 等 4 配座記述子 (conformer descriptor) 3次元の 複数配座 を考慮 wSterimol の L wSterimol の w 等 4D COMFA 等 2次元の情報を使って、3次元の情報を得るものなどは2.5次元と呼ばれることがある。 これらの次元の定義は、完全に定まっておらず区別は曖昧な部分もある(人によって分類方法が異なる) 9

10.

化合物と0から4次元の記述子 10 0次元 1次元 2次元 3次元 4次元 構成原子 している原子 部分構造 の情報 2次元の配座 や接続情報 3次元の配座 3次元の配座 と存在確率 計算コスト が低い 情報量が多い 情報量が少ない 0と1次元 の記述子 原子や部分構造に関するもの、 またはそれを組み合わせたもの を数えることが多い 計算コスト が高い 2次元や2.5次元 の記述子 3次元と4次元 の記述子 分子全体の2次元や3次元の 情報に関わるものを計算したもの 分子の配座に関わるものから 計算したもの