02_ケモインフォマティクス

ケミカルスペースプロジェクトとGDBデータベース

ケモインフォマティクスでは考えられる化合物全ての集合を「ケミカルスペース」と呼びます.その数は実に1060以上にも及ぶと言われています.また化合物を何らかの特徴量をもとに投影したものをケミカルスペースと言うこともあります. 実験的にケミカルスペースの全てを網羅するのは無理のあるス...
02_ケモインフォマティクス

RDKitを用いたコンフォメーション探索:MMFFによる配座異性体生成とクラスタリング

「RDKitによるコンフォマーの生成」という記事では,RDKitを用いたコンフォマーの生成方法について説明しました. 我々が興味のある分子は大抵いくつかの回転可能な結合を持っていることから,一連の配座異性体に関する情報が重要になります. このように様々なコンフォマーを取得する試み...
02_ケモインフォマティクス

量子化学計算を利用した記述子:統計モデルにおける立体因子と電子的効果

ある化学現象に対して,分子構造から得られる性質を入力として予測モデルを組み立てることがケモインフォマティクスではよく行われます.その際に使われる分子記述子としては「分子量」などの簡単なものから,「芳香族度合」「天然物らしさ」などを表現するように化学者が工夫を凝らして作成したものま...
02_ケモインフォマティクス

Google ColabでRDKit:ケモインフォマティクス用のpython環境を手軽に構築

本ブログでは「有機合成化学者のためのケモインフォマティクス入門」を掲げて,特にpythonを用いてケモインフォマティクスを行う際に必要となる環境構築方法から解説してきました.例えば「RDKitでケモインフォマティクスに入門」という記事では,pythonのケモインフォマティクス用ラ...
02_ケモインフォマティクス

QSARにおける立体因子の記述:Sterimolパラメータを用いた線形モデル

分子の構造を入力として,反応の選択性や生理活性など何らかの現象を出力とする予測モデルの作成はケモインフォマティクスにおける重要課題です.モデルの入力としては,分子の性質を表現する「記述子」がよく用いられ, 分子量やlogPなどの分子全体の特徴を表現する記述子 ある部分構造の電子的...
04_統計学・機械学習

pythonで一般化線形モデル:statsmodelsを用いたロジスティック回帰で化合物の変異原性予測

「pythonのstatsmodelsを使った重回帰分析で溶解度予測:AICによるモデル選択」という記事では,溶解度を推定する線形モデルとして以下のような記述子の一次結合を考えました. $$ 溶解度 = \beta_{0} + \beta_{1} \times x_{1} + \...
04_統計学・機械学習

pythonのstatsmodelsを使った重回帰分析で溶解度予測:AICによるモデル選択

これまで本ブログでは,pythonの機械学習用ライブラリであるscikit-learnを用いて,回帰タスクである化合物の溶解度予測に取り組むことで,機械学習について学んできました. 線形モデルを用いた化合物の溶解度予測:通常最小二乗法,Ridge回帰,Lasso回帰 交差検証を用...
02_ケモインフォマティクス

RDKitを用いて制約付きで立体構造を生成する

我々が興味のある分子のほとんどは3次元構造を有していますから,分子の立体構造の理解は大切です. 本ブログではこれまで,「RDKitによる3次元構造の生成」という記事ではRDKitを用いて立体構造をどのように発生させるかについて扱いました.その際いくつかのアルゴリズムについて学び,...