04_統計学・機械学習

04_統計学・機械学習

scikit-learnの決定木でAmes試験データセットを機械学習

「RDKitとscikit-learnで機械学習:変異原性をk-最近傍法で予測」という記事では,まず「教師あり学習」と「教師なし学習」,「回帰」と「分類」といった基本的な機械学習の用語を学びました.その後,最も単純な機械学習手法とも言われるk-最近傍法を用いて,RDKitとsci...
04_統計学・機械学習

RDKitとscikit-learnで機械学習:変異原性をk-最近傍法で予測

ケモインフォマティクスにおけるモデル構築は分子を特徴ベクトルへと変換する(encoding)特徴ベクトルと目的とする分子の性質との関係を記述する(mapping)という2段階に分けられます.本サイトではこれまでケモインフォマティクス用ライブラリーのRDKitを用いて,第1段階であ...
03_python

Scipyの統計モジュールstatsで統計分布を使いこなす

「NumPyのrandomルーチンでいろいろな乱数を生成する」という記事では,numpy.randomに実装されている統計分布からのサンプリングについて扱いました.統計分布についてにはscipy.statsに一通り確率密度関数から検定までが実装されています.今回はその中から統計分...
04_統計学・機械学習

pythonで統計学基礎:03 検定・分散分析

前回までに引き続き,ハンバーガー統計学をもとにした分析をpythonで進めることで,基本的な統計学の内容をどのようにpythonで表現していくかを学びます.具体的には今回はscipy.statsとstatsmodelを用いて,χ二乗検定t検定一元配置分散分析二次元配置分散分析多重...
04_統計学・機械学習

pythonで統計学基礎:02 信頼区間・t分布

前回の「pythonで統計学基礎: 01 平均と分散」という記事では平均・分散などの基本的な統計量をpythonを用いて,特にpandasを使うことでどのように扱うかを学びました.続いてpandasの機能を使うことで度数分布表やヒストグラムが容易に作成できることを見てきました.同...
04_統計学・機械学習

pythonで統計学基礎: 01 平均と分散

統計学が大事だとはわかっていても,どこから勉強をはじめたらよいかわかりにくいと感じる人が多いのではないでしょうか?この記事から数回に渡って,pythonを使いながら統計学の基本的な考え方を頭にすり込んでいくこと目指します.数式を理解することは応用力をつけるという点では大事ですが,...