これまで本ブログでは,
- 「ケミカルスペースプロジェクトとGDBデータベース」
- 「QM9は量子化学計算に基づいた機械学習用の大規模データセット」
- 「DrugBankは承認済み医薬品のデータベース:主成分分析によるドラッグライクケミカルスペースの可視化」
などの記事で,ケモインフォマティクスで用いられるいくつかの大規模データベースについて説明してきました.
今回は米国の公的研究機関が主導している大規模毒性学プロジェクト「Toxicology in the 21st Century (Tox21)」について説明していきます.
Tox21とは
Tox21(Toxicology in the 21st Century)は米国EPA,NTP,NIEHS,NCATS,FDA間で行われている史上最大規模の毒性学に関する共同研究プロジェクトです.
2008年にNIHとEPA間で開始された本プロジェクトは徐々に規模を広げ,公式ウェブサイトからもわかるように現在も精力的に活動しています.
プロジェクトは多数のマイルストーンを掲げており,
- 毒性化合物の生理作用メカニズムの解明・評価
- HTSを用いた網羅的な実験と予測モデルの構築
を目指しています.
Tox21データチャレンジ2014とは
HTSにより集められた種々の核内受容体やストレス応答パスウェイに関するアッセイ結果を用いて,NIHの主催により行われた計算毒性学の機械学習コンペです.
具体的には毒性評価に適切と判断された約10000化合物(Tox21 10K)の構造データを用いて,
- 核内受容体:7種類
- ストレス応答パスウェイ:5種類
の,計12種類のアッセイ結果に対する予測モデルの精度が競われました.
核内受容体 | |
---|---|
AhR | 芳香族炭化水素受容体 |
Aromatase | アロマターゼ |
AR | アンドロゲン受容体,全配列 |
AR-LBD | アンドロゲン受容体,リガンド結合部位 |
ER | エストロゲン受容体α,全配列 |
ER-LBD | エストロゲン受容体α,リガンド結合部位 |
PPAR-γ | ペルオキシソーム増殖因子活性化受容体γ |
ストレス応答パスウェイ | |
---|---|
ARE | 転写因子Nrf2/アンチオキシダント応答配列 |
ATAD5 | ATPaseファミリー,AAAドメイン含有タンパク質5 |
HSE | 熱ショック因子応答配列 |
MMP | ミトコンドリア膜電位 |
p53 | p53 |
コンペの結果はディープラーニングを利用したオーストリアの大学チームが6種類のアッセイで優勝を飾りました.また明治薬科大学の植沢芳広先生がER-LBD部門で優勝しています.
本コンペの詳細については,
- 主催者のコメント
- 各部門の優勝者のモデルの詳細
などが,Front. Environ. Sci.誌でeBookとしてまとめられています.興味がある方は眺めてみるといいと思います.
Tox21アッセイデータの入手方法
公式サイト
アッセイデータはPubChemに登録されている他,公式サイトからもダウンロードが可能です.
公式サイトのダウンロードタブをクリックすることで,下記のように色々なアッセイ結果がダウンロード可能です.
またはデータ一覧からクリックすることでもデータのダウンロードが可能です.先のTox21データチャレンジで用いられたデータ以外にも多くの結果が記載されており,新しいデータが追加されています.
MoleculeNet
Tox21関連のデータセットはDeepChemライブラリーの一部であるMoleculeNetにも収載されています.
Tox21は先のコンペで用いられた12種類のターゲットに対する毒性の有無が記載された2クラス分類用のデータセットです.
ToxCastは同様にTox21プロジェクトで測定されたアッセイ結果について,8615個の化合物について600以上のアッセイ結果の毒性有無を含む2クラス分類用のデータセットです.
何れのデータセットも化合物はSMILESとして与えられています.
終わりに
計算毒性学はCBI学会の研究会として「計算毒性学」研究会が設立されているなど,日本でも研究が活発な分野です.
今回は「Tox21は米国の大規模毒性学プロジェクト:HTSによるアッセイ結果は機械学習コンペで用いられたデータセット」という話題について,
- Tox21とはどんなプロジェクトか
- Tox21データチャレンジ2014とはどんな機械学習コンペか
- Tox21データの入手方法
などについて説明してきました.
これまで数回に渡り,ケモインフォマティクスの論文でよく用いられる大規模データセットについて見てきました.次回からはこういったデータセットを用いて,ディープラーニング(深層学習)を用いた予測モデルの構築法について見ていきたいと思います.
>>次の記事:「化学系深層学習入門:Tensorflow2で始めるディープラーニング」
コメント