Aritalab:Lecture/Compchem/MOL
m (→MDL MOL Format) |
m (→環構造) |
||
Line 116: | Line 116: | ||
! 化合物名 || 構造 || SMILES | ! 化合物名 || 構造 || SMILES | ||
|- | |- | ||
− | | proline || [[File: | + | | proline || [[File:BMACPL--0008.png]] || N1CCCC1C(=O)O |
|- | |- | ||
− | | tryptophan || [[File: | + | | tryptophan || [[File:BMACID--0003.png]] || C1=CC=CC2=C1NC=C2CC(N)C(=O)O |
|} | |} | ||
Latest revision as of 15:04, 12 October 2011
Contents |
[edit] 化学構造の表記
[edit] MDL MOL Format
MOLファイルは化学構造を記述する標準的なフォーマットです。MDL Information Systemsという会社が提唱し、ほぼ世界中で利用されています。古い仕様のため計算機言語Fortranの書式で記述されます。各値をあらわす文字数が決まっている点がFortran formatの特徴です。詳細はCTFile formatというガイドに記述されていますが、ここではその概略を紹介します。
6 5 0 0 1 0 3 V2000 <-- counts line -0.6622 0.5342 0.0000 C 0 0 2 0 0 0 <-- atom block start 0.6622 -0.3000 0.0000 C 0 0 0 0 0 0 -0.7207 2.0817 0.0000 C 1 0 0 0 0 0 -1.8622 -0.3695 0.0000 N 0 3 0 0 0 0 0.6220 -1.8037 0.0000 O 0 0 0 0 0 0 1.9464 0.4244 0.0000 O 0 5 0 0 0 0 <-- atom block end 1 2 1 0 0 0 <-- bond block start 1 3 1 1 0 0 1 4 1 0 0 0 2 5 2 0 0 0 2 6 1 0 0 0 <-- bond block end M CHG 2 4 1 6 -1 <-- M line M ISO 1 3 13 M END
[edit] Atom Block, Bond Block
MOLフォーマットは、先頭のcounts lineと呼ばれる行、各原子を記述するatom block, 各化学結合を記述するbond block, 補足説明をするM行の 4 つからなります。
- counts line ... 原子数と結合数を記述する1行です。始めの3文字で原子数、次の3文字で結合数を示します。その後のフィールドは本質的に重要ではありません。 上の例では、原子数が6個、結合数が5個であることが記されています。残りのフィールドについてはCTFile formatを参照してください。
- atom block ... counts lineで指定された原子の数だけ行を繰り返します。各行は、x座標(10文字), y座標(10文字), z座標(10文字), 元素記号(3文字), 質量の差違(-3, -2, ... +3, +4), 電荷(0=none, 1=+3, 2=+2, 3=+1, 4=radical, 5=-1, 6=-2), 不斉情報(0=no stereo, 1 or 2 = stereo)を意味します。上の例では6つの原子が記述されており、行番号の順にC, C, C, N, O, Oです。各原子には以下の情報が記述されています。
- 炭素 ... パリティ2の不斉炭素 (パリティに関しては別ページで解説します。)
- 炭素 ... 何もなし
- 炭素 ... 質量が+1 (よって13Cに相当)
- 窒素 ... +1の電荷を持つ
- 酸素 ... 何もなし
- 酸素 ... -1の電荷を持つ
- bond block ... counts lineで指定された結合の数だけ行を繰り返します。各行は、結合元の行番号(3文字), 結合先の行番号(3文字), 結合のタイプ(1=single, 2=double, 3=triple, 4=aromatic), 描画した際の結合の上下(0=none, 1=up, 4=either, 6=down)となります。上の例でbond blockの2行目(1 3 1 1 0 0 )は、Atom block1行目の炭素と3行目の炭素が単結合で結ばれて、その結合は上向き(黒いくさび)に描くことを意味します。
- M lines ... さまざまな表記法があります。詳しくはCTFile formatを読んでください。
- "M CHG 2 4 1 6 -1" ... 電荷を変更する原子が2つ、それぞれ位置4が電荷+1、位置6が電荷-1という意味です。
- "M ISO 1 3 13" ... 同位体元素が1つあり、位置3が質量13になるという意味です。
- "M END" ... M行による指定の終わりを意味します。
[edit] MOLフォーマット表記の特徴
[edit] 水素は省略する
明示的に水素原子を記述しても問題はありませんが、通常、水素原子はMOLフォーマットに記入しません。水素の数は各原子における結合の数と価数から割り出します。
[edit] 原子の順番、結合の順番は任意
Atom block, bond block内の順番には規則はありません。したがって構造が同一の物質が、同じMOLフォーマット表記になるとは限りません。
[edit] 文字の桁数は固定
原子のxyz座標は10桁の小数表記、bond blockでの原子番号は3桁、という風に各フィールドの文字数は固定です。よって原子数が1000を超える分子はMOLファイルで記述できません。
[edit] 絵としての情報と構造情報が混在
不斉炭素の種類(D,LまたはR,S)は、atom blockのパリティと、bond blockのup/downの2通りの指定法があります。Atom blockのパリティは原子座標に依存しませんが、bond blockのup/downは依存します。たとえば分子のx座標に全て-1をかけたとき(左右反転)、bond blockのup/downも全て反転しなくてはなりません。Atom blockのパリティはこの必要がありませんが、ブロック内の原子の順番に依存するため、atom blockの並び順を変えるときパリティが変化する場合があります。
[edit] 立体異性
[edit] 鏡像異性体
MOL formatでは、原子の立体情報(stereo information)を記述するのにパリティ1または2を指定します。このパリティは、以下のようにして定めます。
- 立体情報を指定する原子に接続する原子のatom blockにおける行番号を調べる。
- MOLフォーマットで暗黙のうちに表現されている水素、または、行番号が一番大きい要素を紙面の裏側におく。
- 残りの側鎖を紙面の表から見て、行番号の順に時計回りになっている場合はパリティ1、半時計回りになっている場合はパリティ2
- 注意点
- パリティはatom blockにおける原子の並び順に依存するので、D,L表記やR,S表記との対応はありません。
- 化学結合の上向き下向き(黒いくさびか、点線かという表記法)をbond blockにおいて指定できますが、これはxy座標に依存した表記法です。MOL formatにおいては、上記のパリティとは独立に記述されます。
[edit] 幾何異性体
MOL formatでは、cis, transをシステマティックに記述する方法はありません。xy座標を用いて表現するしかありません。( Bond Block に結合が Zusammen か Entgegen かを記述するオプションはありますが、図として記述するだけです。)
[edit] DayLight SMILES Format
SMILES記法は化学構造を簡潔に表現することを目標に開発された文字列表記法(linear notation)です。
[edit] 記述の基本
- 化学構造に含まれる環をラベルをつけながら適当な位置で切断
- できた木構造を、適当な位置から( )を用いて書き下す
- 単結合、二重結合、三重結合はそれぞれ、'-','=', '#'を用いる
というステップで記述します。原子とそれに付属する水素は[ ] を用いて[CH4] (メタン)、[CH2]=[O] (ホルムアルデヒド)のように記述しますが、有機化学でよく使う原子
B, C, N, O, P, S, F, Cl, Br, and I
は[ ] と水素を省略できます。そのとき、価数は一般的な値に従うとします。単結合をあらわす'-'も省略可能です。
以下に簡単な例を記します。
化合物名 | 構造式 | SMILES |
---|---|---|
ethanol | CH3CH2OH | CCO |
alanine | CH3CH(NH2)COOH | CC(N)C(=O)O |
hexose | HOCH2-(CHOH)4-CHO | C(O)C(O)C(O)C(O)C(O)C=O |
hydrogen sulfide | H2S | S |
ammonium cation | NH4+ | [NH4+] |
[edit] 環構造
構造に環がある場合、環の単結合部分を切断し、その両側の原子に数字でラベルをつけます。数字は何番でもかまいません。環をN個持つ構造は、N対の数字ラベルをつけることになります。ラベルのつけ方は、DayLightのウェブページ にある画像を見るのが手っ取り早いでしょう。
以下に簡単な例を記します。
化合物名 | 構造 | SMILES |
---|---|---|
proline | ![]() |
N1CCCC1C(=O)O |
tryptophan | ![]() |
C1=CC=CC2=C1NC=C2CC(N)C(=O)O |
環のラベルは1と1、2と2を単結合で結びます。
[edit] 立体異性
SMILESでalanineを書くと、CC(N)C(=O)Oとなります。ここで、不斉炭素に接続する3つの側鎖が、-CH3, 不斉炭素とH, -NH2, -COOHの順で書かれています。不斉炭素の前に来るCH3側から見て、不斉炭素につながる残りの側鎖が反時計回りになるとき、不斉炭素に@をつけます。時計回りの場合は@@をつけます。
同じ構造でも側鎖を書く順番によって@または@@になる点に注意してください。以下のSMILESは全て同じL-alanineをあらわしています。
- N[C@@H](C)C(O)=O
- C[C@H](N)C(=O)O
- [H][C@@](C)(N)C(=O)O
- N[C@H](C(O)=O)C
- C[C@@H](C(=O)O)N
- [H][C@](N)(C)C(=O)O
- N[C@]([H])(C(O)=O)C
- C[C@@]([H])(C(=O)O)N
- [C@H](N)(C)C(=O)O
- N[C@@](C(O)=O)([H])C
- C[C@](C(=O)O)([H])N
- [C@@H](N)(C(=O)O)C
[edit] 芳香環
芳香環はベンゼン環のように単結合と二重結合の繰り返しで表記するか、芳香環に属するC, N, Oをそれぞれ小文字で記述します。
化合物名 | 構造 | SMILES |
---|---|---|
benzene | ![]() |
C1=CC=CC=C1 または c1ccccc1 |
[edit] SMILES記法の特徴
- 同一構造でもさまざまに記述できる
基本的にどこから一筆書きしてもよいため、表記法は一意に定まりません。しかし、原子に何らかの順序付け(order)がなされている場合、順序を崩さぬように一筆書きすることで、構造を一意に書き下すことができます。これはunique SMILESと呼ばれます。Unique SMILESを計算するには構造の正規化が必要です。