ケモインフォマティクスにおいてコンピュータで化合物を扱うためには,コンピュータが理解しやすい形式で化合物情報を伝える必要があります.
通常我々が使っている構造式は,人間の眼には視覚的にわかりやすい表現方法ですが,コンピュータにとってはわかりにくいため,別の表現方法が必要になります.
コンピュータを使って何をしたいかという目的によって,最適な形式は異なります.またあまりディスクスペースがあまりなかった際には最小限の情報を完結に記録できる形式が好まれていたなど歴史的な背景もあり,ケモインフォマティクスの分野では構造情報を表す形式がたくさん存在します.
この記事ではケモインフォマティクスにおいて
- 構造情報をどのように収納するか
- 構造情報をどのように表現するか
という点について見ていきます.
ケモインフォマティクスで使われるファイル形式
化学構造を表す際に,
- 分子の構造を原子の繋がりを中心に考える方法
- 分子内の原子の空間における位置を中心に考える方法
が考えられます.各々について見ていきましょう.
線形表記法をもとにしたフォーマット
まずは「線形表記法」と呼ばれるフォーマットを見ていきましょう.これらの形式はその名の通り,化学構造を「1行の文字列」にて表現する方法になります.
- 欠点:原子の座標位置・結合距離といった情報が失われる
- 利点:データサイズを小さくできる
- 利点:データベースでの運用に適している
といった特徴があります.
化合物のグラフ表現
分子は原子をノード,結合をエッジと見なした「グラフ」と考えられます.グラフではある原子が他の原子とどのように繋がっているかを表現することができます.なお原子間の結合数がわかれば水素原子は後から付加可能ですので,コンピュータ上で分子を表現する際には水素原子は省略されることが多いです.
例えばプロパンは以下のように表すことができます.
グラフ構造においては原子の位置は考慮せず,原子間の繋がりだけが重要ですので,「CCC」のように省略して書いても問題ありません.
このように分子の構造をある一定のルールに沿って,1行で表記するようにしたものが「線形表記法」と呼ばれる表現方法になります.
「SMILES記法は化学構造の線形表記法」という記事では,
- SMILES記法
- SMARTS記法
- InChI記法
などの線形表記法について解説しています.
結合リストと座標情報をもとにしたフォーマット
結合リスト(コネクションテーブル)
分子構造をグラフ構造に見立てた場合の表現方法にコネクションテーブルと呼ばれるものがあります.線形表記法では原子間の繋がりを1行で表記していきました.
それでは以下のように原子に番号が付いている場合はどうでしょう?
ある原子と原子との結合の有無を
のようなフォーマットで表すとすると下記のように表すことができます.
1 2 1 2 3 1 2 4 1
このような表現方法を「結合リスト」と呼びます.
結合リストに,各原子の位置をxyz座標で表したものが手に入れば分子の構造情報を表現することが可能になります.
「MOLファイル・SDFとはどんな化学情報ファイルなのか?」という記事では,
- 結合リスト
- 各原子の座標
の2つの情報をもとに,最も一般的なフォーマットである,MOLファイルやSDFについて解説しています.
量子化学計算で用いられるフォーマット
量子化学計算では原子の位置関係のみが大切で,原子同士の結合情報は分子構造を表現する際には必要ありません.そのため,量子化学計算用の入力ファイルでは原子が3次元空間内のどこに位置しているかを表現する方法として,
- 直交座標系に沿った表現
- 内部座標に基づいた表現
の2つの座標系のうちいずれかが用いられることが多いです.
「XYZ形式とZ-マトリックスは分子の立体構造を表す入力フォーマット」という記事では
- 直交座標系を用いたXYZ形式
- 内部座標系を用いたZ-マトリックス
という,量子化学計算プログラムでよく用いられる2つの形式について解説しています.
特定分野で使われるフォーマット
その他にも分子の3次元構造(原子の座標)を表現するファイル形式がいくつか存在します.特に化学の特定分野で使われることの多いフォーマットになります.
PDB形式
タンパク質構造データバンク(PDB; Protein Data Bank)という,タンパク質や核酸の3次元構造が登録されているデータベースがあります.PDB形式とは,このデータベースに登録されているファイル形式になります.
PDBに登録されている構造データは,
- X線結晶構造解析
- NMR
- 電子顕微鏡
などによって実験的に決定されたデータです.PDBに登録されている構造を初期構造として計算を行うことも多いです.
PDB形式のデータはJMolやPyMOLをはじめとして色々なソフトで読み込むことが可能です.「py3Dmolを使って化学構造をJupyter上で美しく表示する」という記事では,py3Dmolを用いた可視化方法を紹介しています.
CIF形式
CIF形式はX線構造を表現するために用いられている形式になります.PDBは特にタンパク質のような生体高分子の3次元構造が集められたデータベースでした.CCDC (Cambridge Crystallographic Data Centre)は特に低分子のX線構造データが集められたデータベースで,CIF形式を標準ファイル形式として用いています.
多くの化学罫学術誌がX線構造を発表する際にはCCDCに登録することを推奨または義務づけているため,みなさんにもなじみ深い形式なのではないかと思います.低分子の固体構造は計算化学においてはやはり重要な初期構造となりますので,よく使うファイル形式になります.
構造の読み込み・解析にはCCSDが提供するMercuryの他,Olex2やCrystalViewerなど様々な無償・有償専用ソフトが存在しています.
ファイル形式の相互変換
これまで見てきたようにケモインフォマティクスでは,用途に合わせて多数のファイル形式が使われています.とはいえ,基本的には化学構造とそれに付随する情報を異なるフォーマットで記載しているに過ぎません.
毎回毎回一からファイルを作成して,情報を処理していったら大変ですが,世の中にはこういったファイル形式の相互変換を行ってくれるソフトウェアが存在します.
「Open Babelを使って化学情報のファイル形式を変換」という記事では,ケモインフォマティクスの分野でファイル形式の変換に最も使われているソフトであるOpen Babelの使い方を解説しています.
化合物の描画方法
これまで化合物の構造情報をどのようにコンピュータがわかりやすいように表記するかについて説明してきました.
一方で,化合物の構造を人間に対してわかりやすいように表現する方法も大切です.ほとんどの化合物は3次元に広がっていますが,多くの人にとっては立体構造を頭の中で理解することは困難です.そのため立体化学をわかりやすく視覚化する手法がとても重要になります.
ケモインフォマティクス・計算化学の分野では,コンピュータを用いて分子の構造を立体的に理解する助けるとなる分子モデルの方法が開発されてきました.
「分子モデルの種類:CPKから針金モデルまで」という記事では代表的なモデルについて説明しています.
終わりに
今回は「ケモインフォマティクスで使われるファイル形式と化合物の描画方法」という主題について,
- コンピュータにわかりやすい構造表現の仕方についての概略
- 化学構造のグラフ構造や原子の立体座標といった表現方法
- SMILES記法,MOLファイル,Z-マトリックスなどの具体的なファイル形式
- 人間にとってわかりやすい立体表現の仕方
といった点について説明してきました.化学構造を表現する方法にはさまざまなものがあることがわかって頂けたと思います.
コンピュータにどのように化学構造を理解させるかを学んだので,次は実際にコンピュータを用いてどんなことができるかを学んでいくのがよいでしょう.
本サイトでは「有機合成化学者のためのケモインフォマティクス入門」を掲げて,高価なソフトウェアを用意することなく学習がはじめられるようにプログラミング言語pythonとそのケモインフォマティクス用ライブラリーであるRDKitを用いた解説をおこなっています.
>>次の記事:「RDKitでケモインフォマティクスに入門」
コメント