化学の新しいカタチ

RDKitでOpen3DALIGNを用いた立体構造の重ね合わせ

異なる分子の立体構造を重ね合わせて眺めることで得られる知見が多くあります．これまで本ブログでは「RDKitによるコンフォマーの生成」という記事で，同じ分子のコンフォマーを重ね合わせて表示することを行いました．その際には鋳型となる原子の番号を指定することで重ね合わせの中心骨格を決め...

2019.06.24

02_ケモインフォマティクス

本ブログではJupyter Notebook上で分子構造を描画するためのライブラリーとして「py3Dmolを使って化学構造をJupyter上で美しく表示する」という記事でpy3Dmolについて説明しました．一方で生命科学の分野で，分子構造を可視化する際に使われるポピュラーなソフト...

2019.06.10

02_ケモインフォマティクス

「RDKitでケモインフォマティクスに入門」や「RDKitの分子Molオブジェクトを扱う」という記事では，RDKitのMolオブジェクトはSMILESなどから生成しただけでは各原子の座標情報を保持していないこと（注：下記の囲みも参照）座標情報は2Dまたは3Dの対応するメソッドを用...

02_ケモインフォマティクス

これまでAmes試験と呼ばれるテストの結果を用いて，化合物の変異原性の有無を予測する機械学習モデルを構築してきました．「RDKitとscikit-learnで機械学習：変異原性をk-最近傍法で予測」ではk-最近傍法「scikit-learnの決定木でAmes試験データセットを機械...

04_統計学・機械学習

これまで化合物の変異原性データや溶解度データを用いて，いくつかの機械学習アルゴリズムでモデルを構築してきました．これらのモデルは分子の構造・特徴を何らかの形で入力情報として与えることで，変異原性の有無や溶解度の値が出力される「教師あり学習」モデルでした．その際，分子の入力情報とし...

04_統計学・機械学習

「線形モデルを用いた化合物の溶解度予測：通常最小二乗法，Ridge回帰，Lasso回帰」という記事では，線形モデルと呼ばれる手法を用いて化合物の溶解度を予測する機械学習モデルを構築しました．特に特徴量が多い場合には通常最小二乗法では容易に訓練用データに過剰適合してしまうこと過剰適...

04_統計学・機械学習

これまで「RDKitとscikit-learnで機械学習：変異原性をk-最近傍法で予測」という記事から3回に渡り，化合物の変異原性の有無を予測する「2クラス分類」の機械学習モデルを構築してきました．今回は教師あり学習のもう1つの柱である「回帰」と呼ばれる問題を扱います．具体的には...

2019.03.31

04_統計学・機械学習

「scikit-learnの決定木でAmes試験データセットを機械学習」という記事では「決定木」と呼ばれる手法について説明しました．決定木はモデルの可視化が容易その内容が理解しやすい特徴量の前処理を必要としないといった長所がありました．一方で決定木は，容易に過剰適合を起こすデータ...

04_統計学・機械学習