化学

化学

交差検証を用いてElastic Netを化合物の溶解度データに対して最適化

「線形モデルを用いた化合物の溶解度予測:通常最小二乗法,Ridge回帰,Lasso回帰」という記事では,線形モデルと呼ばれる手法を用いて化合物の溶解度を予測する機械学習モデルを構築しました. 特に 特徴量が多い場合には通常最小二乗法では容易に訓練用データに過剰適合してしま...
2019.04.21
化学

線形モデルを用いた化合物の溶解度予測:通常最小二乗法,Ridge回帰,Lasso回帰

これまで「RDKitとscikit-learnで機械学習:変異原性をk-最近傍法で予測」という記事から3回に渡り,化合物の変異原性の有無を予測する「2クラス分類」の機械学習モデルを構築してきました. 今回は教師あり学習のもう1つの柱である「回帰」と呼ばれる問題を扱います.具体...
化学

RDKitでランダムフォレスト:機械学習でも「みんなの意見」は案外正しい

「scikit-learnの決定木でAmes試験データセットを機械学習」という記事では「決定木」と呼ばれる手法について説明しました.決定木は モデルの可視化が容易 その内容が理解しやすい 特徴量の前処理を必要としない といった長所がありました.一方で決定木は, 容易に...
化学

scikit-learnの決定木でAmes試験データセットを機械学習

「RDKitとscikit-learnで機械学習:変異原性をk-最近傍法で予測」という記事では,まず「教師あり学習」と「教師なし学習」,「回帰」と「分類」といった基本的な機械学習の用語を学びました. その後,最も単純な機械学習手法とも言われるk-最近傍法を用いて,RDKitとs...
2019.03.19
化学

RDKitとscikit-learnで機械学習:変異原性をk-最近傍法で予測

ケモインフォマティクスにおけるモデル構築は 分子を特徴ベクトルへと変換する(encoding) 特徴ベクトルと目的とする分子の性質との関係を記述する(mapping) という2段階に分けられます. 本サイトではこれまでケモインフォマティクス用ライブラリーのRDKitを用...
2019.03.21
化学

色々な薬らしさの指標

低分子の医薬品(特に経口医薬品)の物理化学的パラメーターを調べてみると,比較的狭い範囲に分布していることが知られています.この範囲を「薬らしい(drug-like)」と呼びます. また数多くの低分子化合物を対象とした研究から,分子量,水素結合ドナーの数,疎水性といった指標が...
化学

RDKitのPAINSフィルターで化合物をスクリーニング

化合物ライブラリー中の大量の化合物から,どれをスクリーニングにかけるかはケモインフォマティクスにおける重要な課題です.本サイトでもこれまで 「RDKitで薬らしさを定量的に評価する」という記事で,開発可能性が高まるような化合物の基準 「ケモインフォマティクスで多様な化合物ライ...
化学

RDKitで薬らしさを定量的に評価する

1060以上と言われる広大なケミカルスペースの中から,なんらかの基準を用いることでより医薬品になりやすそうな化合物を選択し,優先的に評価を行っていくことが創薬研究においては大切です. 例えば「RDKitにおける記述子の扱い方をリピンスキーの法則を通して学ぶ」という記事で扱った「...
タイトルとURLをコピーしました