04_統計学・機械学習

統計の知識は現代社会を生き抜く上で必須になりつつあります.統計学や機械学習の基礎的な内容について記事を書いています.

04_統計学・機械学習

化学系深層学習入門:Tensorflow2で始めるディープラーニング

これまでケモインフォマティクス用ライブラリであるRDKitを用いて,分子記述子やフィンガープリントを用いた化合物のベクトル化方法を学んできました. また分子のベクトル表現を入力として,いくつかの機械学習アルゴリズムを用いた変異原性や溶解度の予測モデル作成も行いました. 今回も機械...
04_統計学・機械学習

pythonで一般化線形モデル:statsmodelsを用いたロジスティック回帰で化合物の変異原性予測

「pythonのstatsmodelsを使った重回帰分析で溶解度予測:AICによるモデル選択」という記事では,溶解度を推定する線形モデルとして以下のような記述子の一次結合を考えました. $$ 溶解度 = \beta_{0} + \beta_{1} \times x_{1} + \...
04_統計学・機械学習

pythonのstatsmodelsを使った重回帰分析で溶解度予測:AICによるモデル選択

これまで本ブログでは,pythonの機械学習用ライブラリであるscikit-learnを用いて,回帰タスクである化合物の溶解度予測に取り組むことで,機械学習について学んできました. 線形モデルを用いた化合物の溶解度予測:通常最小二乗法,Ridge回帰,Lasso回帰 交差検証を用...
04_統計学・機械学習

機械学習モデルの評価方法:化合物の変異原性の有無を題材に

これまでAmes試験と呼ばれるテストの結果を用いて,化合物の変異原性の有無を予測する機械学習モデルを構築してきました. 「RDKitとscikit-learnで機械学習:変異原性をk-最近傍法で予測」ではk-最近傍法 「scikit-learnの決定木でAmes試験データセットを...
04_統計学・機械学習

データ分析と前処理:パイプライン処理で化合物の溶解度を推定

これまで化合物の変異原性データや溶解度データを用いて,いくつかの機械学習アルゴリズムでモデルを構築してきました.これらのモデルは分子の構造・特徴を何らかの形で入力情報として与えることで,変異原性の有無や溶解度の値が出力される「教師あり学習」モデルでした. その際,分子の入力情報と...
04_統計学・機械学習

交差検証を用いてElastic Netを化合物の溶解度データに対して最適化

「線形モデルを用いた化合物の溶解度予測:通常最小二乗法,Ridge回帰,Lasso回帰」という記事では,線形モデルと呼ばれる手法を用いて化合物の溶解度を予測する機械学習モデルを構築しました. 特に 特徴量が多い場合には通常最小二乗法では容易に訓練用データに過剰適合してしまうこと ...
04_統計学・機械学習

線形モデルを用いた化合物の溶解度予測:通常最小二乗法,Ridge回帰,Lasso回帰

これまで「RDKitとscikit-learnで機械学習:変異原性をk-最近傍法で予測」という記事から3回に渡り,化合物の変異原性の有無を予測する「2クラス分類」の機械学習モデルを構築してきました. 今回は教師あり学習のもう1つの柱である「回帰」と呼ばれる問題を扱います.具体的に...
04_統計学・機械学習

RDKitでランダムフォレスト:機械学習でも「みんなの意見」は案外正しい

「scikit-learnの決定木でAmes試験データセットを機械学習」という記事では「決定木」と呼ばれる手法について説明しました.決定木は モデルの可視化が容易 その内容が理解しやすい 特徴量の前処理を必要としない といった長所がありました.一方で決定木は, 容易に過剰適合を起...