04_統計学・機械学習

化学系深層学習入門:Tensorflow2で始めるディープラーニング

これまでケモインフォマティクス用ライブラリであるRDKitを用いて,分子記述子やフィンガープリントを用いた化合物のベクトル化方法を学んできました. また分子のベクトル表現を入力として,いくつかの機械学習アルゴリズムを用いた変異原性や溶解度の予測モデル作成も行いました. 今回も機械...
02_ケモインフォマティクス

Tox21は米国の大規模毒性学プロジェクト:HTSによるアッセイ結果は機械学習コンペで用いられたデータセット

これまで本ブログでは, 「ケミカルスペースプロジェクトとGDBデータベース」 「QM9は量子化学計算に基づいた機械学習用の大規模データセット」 「DrugBankは承認済み医薬品のデータベース:主成分分析によるドラッグライクケミカルスペースの可視化」 などの記事で,ケモインフォマ...
01_計算化学

計算化学における電荷:Psi4を用いた電子密度解析

「計算手法とエネルギー・最適化構造の関係:コンフォメーション探索における注意点」という記事では,Psi4を用いて様々な計算手法を用いてエネルギー計算を行うことで, 計算手法によって考慮できる相互作用が異なる ことを説明しました。その結果 構造最適化できないことがある コンフォマー...
01_計算化学

計算手法とエネルギー・最適化構造の関係:コンフォメーション探索における注意点

「RDKitを用いたコンフォメーション探索:MMFFによる配座異性体生成とクラスタリング」という記事では, RDKitに実装されているディスタンス・ジオメトリー法による配座発生 MMFFによる構造最適化と同一構造の除去 取得した多数のコンフォマーをDBSCANを用いてクラスタリン...
02_ケモインフォマティクス

DrugBankは承認済み医薬品のデータベース:主成分分析によるドラッグライクケミカルスペースの可視化

創薬化学研究では合成・試験される化合物のほとんどは医薬品にはなりません.そのため研究開発の成功率をあげるために,実際に医薬品になる化合物がどのような特徴を有するかを明らかとすべく多くの試みがなされてきました. このような「薬らしさ(ドラッグライクスネス)」について,これまで本ブロ...
02_ケモインフォマティクス

QM9は量子化学計算に基づいた機械学習用の大規模データセット

「ケミカルスペースプロジェクトとGDBデータベース」という記事では,Jean-Louis Reymondの研究グループによって進められているGDBデータベースについて紹介しました.GDBはある原子数以下の存在しうる低分子化合物を網羅したもので,数多くの未知化合物を含むデータベース...
02_ケモインフォマティクス

ケミカルスペースプロジェクトとGDBデータベース

ケモインフォマティクスでは考えられる化合物全ての集合を「ケミカルスペース」と呼びます.その数は実に1060以上にも及ぶと言われています.また化合物を何らかの特徴量をもとに投影したものをケミカルスペースと言うこともあります. 実験的にケミカルスペースの全てを網羅するのは無理のあるス...
02_ケモインフォマティクス

RDKitを用いたコンフォメーション探索:MMFFによる配座異性体生成とクラスタリング

「RDKitによるコンフォマーの生成」という記事では,RDKitを用いたコンフォマーの生成方法について説明しました. 我々が興味のある分子は大抵いくつかの回転可能な結合を持っていることから,一連の配座異性体に関する情報が重要になります. このように様々なコンフォマーを取得する試み...