Tox21は米国の大規模毒性学プロジェクト:HTSによるアッセイ結果は機械学習コンペで用いられたデータセット

02_ケモインフォマティクス

これまで本ブログでは,

などの記事で,ケモインフォマティクスで用いられるいくつかの大規模データベースについて説明してきました.

今回は米国の公的研究機関が主導している大規模毒性学プロジェクト「Toxicology in the 21st Century (Tox21)」について説明していきます.

Tox21に関する論文は公式サイトのPublicationsの欄にまとまっています.

Tox21とは

Tox21(Toxicology in the 21st Century)は米国EPA,NTP,NIEHS,NCATS,FDA間で行われている史上最大規模の毒性学に関する共同研究プロジェクトです.

2008年にNIHとEPA間で開始された本プロジェクトは徐々に規模を広げ,公式ウェブサイトからもわかるように現在も精力的に活動しています.

プロジェクトは多数のマイルストーンを掲げており,

  • 毒性化合物の生理作用メカニズムの解明・評価
  • HTSを用いた網羅的な実験と予測モデルの構築

を目指しています.

Tox21データチャレンジ2014とは

HTSにより集められた種々の核内受容体やストレス応答パスウェイに関するアッセイ結果を用いて,NIHの主催により行われた計算毒性学の機械学習コンペです.

具体的には毒性評価に適切と判断された約10000化合物(Tox21 10K)の構造データを用いて,

  • 核内受容体:7種類
  • ストレス応答パスウェイ:5種類

の,計12種類のアッセイ結果に対する予測モデルの精度が競われました.

核内受容体
AhR 芳香族炭化水素受容体
Aromatase アロマターゼ
AR アンドロゲン受容体,全配列
AR-LBD アンドロゲン受容体,リガンド結合部位
ER エストロゲン受容体α,全配列
ER-LBD エストロゲン受容体α,リガンド結合部位
PPAR-γ ペルオキシソーム増殖因子活性化受容体γ
ストレス応答パスウェイ
ARE 転写因子Nrf2/アンチオキシダント応答配列
ATAD5 ATPaseファミリー,AAAドメイン含有タンパク質5
HSE 熱ショック因子応答配列
MMP ミトコンドリア膜電位
p53 p53

コンペの結果はディープラーニングを利用したオーストリアの大学チームが6種類のアッセイで優勝を飾りました.また明治薬科大学の植沢芳広先生がER-LBD部門で優勝しています.

本コンペの詳細については,

  • 主催者のコメント
  • 各部門の優勝者のモデルの詳細

などが,Front. Environ. Sci.誌でeBookとしてまとめられています.興味がある方は眺めてみるといいと思います.

Tox21アッセイデータの入手方法

公式サイト

アッセイデータはPubChemに登録されている他,公式サイトからもダウンロードが可能です.

Tox21 overview

公式サイトのダウンロードタブをクリックすることで,下記のように色々なアッセイ結果がダウンロード可能です.

Tox21 dowload

またはデータ一覧からクリックすることでもデータのダウンロードが可能です.先のTox21データチャレンジで用いられたデータ以外にも多くの結果が記載されており,新しいデータが追加されています.

Tox21 assaylist

MoleculeNet

Tox21関連のデータセットはDeepChemライブラリーの一部であるMoleculeNetにも収載されています.

MoleculeNet

Tox21は先のコンペで用いられた12種類のターゲットに対する毒性の有無が記載された2クラス分類用のデータセットです.

ToxCastは同様にTox21プロジェクトで測定されたアッセイ結果について,8615個の化合物について600以上のアッセイ結果の毒性有無を含む2クラス分類用のデータセットです.

何れのデータセットも化合物はSMILESとして与えられています.

終わりに

計算毒性学はCBI学会の研究会として「計算毒性学」研究会が設立されているなど,日本でも研究が活発な分野です.

今回は「Tox21は米国の大規模毒性学プロジェクト:HTSによるアッセイ結果は機械学習コンペで用いられたデータセット」という話題について,

  • Tox21とはどんなプロジェクトか
  • Tox21データチャレンジ2014とはどんな機械学習コンペか
  • Tox21データの入手方法

などについて説明してきました.

これまで数回に渡り,ケモインフォマティクスの論文でよく用いられる大規模データセットについて見てきました.次回からはこういったデータセットを用いて,ディープラーニング(深層学習)を用いた予測モデルの構築法について見ていきたいと思います.

>>次の記事:「化学系深層学習入門:Tensorflow2で始めるディープラーニング

コメント

タイトルとURLをコピーしました