Aritalab:Lecture/Biochem/ProteinStructure

From Metabolomics.JP
< Aritalab:Lecture | Biochem(Difference between revisions)
Jump to: navigation, search
(Created page with "{| style="float:right" |__TOC__ |} ==タンパク質の構造== タンパク質は20種類のアミノ酸から構成され、アミノ酸どうしはアミノ基とカルボキ...")
 
(予測法)
Line 60: Line 60:
  
 
====初期====
 
====初期====
; Chou-Fasman 法 <ref>Chou P, Fasman G "Prediction of protein conformation" Biopolymers 1974; 13:211</ref>
+
* Chou-Fasman 法 <ref>Chou P, Fasman G "Prediction of protein conformation" Biopolymers 1974; 13:211</ref>
 
: 各アミノ酸について '''H''', '''E''', '''C''' の中での存在比を求めます。そして '''H''' らしいアミノ酸が続く部分を ヘリックスと予測する方法です。例えばグリシンが多いから '''C'''、のように予測します。
 
: 各アミノ酸について '''H''', '''E''', '''C''' の中での存在比を求めます。そして '''H''' らしいアミノ酸が続く部分を ヘリックスと予測する方法です。例えばグリシンが多いから '''C'''、のように予測します。
  
; Garnier-Osguthorpe-Robson 法 <ref>Garnier J, Osguthorpe D, Robson B "Analysis and implications of simple methods for predicting the secondary structure of globular proteins" J Mol Biol 1978; 120:97</ref>
+
* Garnier-Osguthorpe-Robson 法 <ref>Garnier J, Osguthorpe D, Robson B "Analysis and implications of simple methods for predicting the secondary structure of globular proteins" J Mol Biol 1978; 120:97</ref>
 
: 17アミノ酸残基のウィンドウを利用し、各アミノ酸の左右8残基の位置にくるアミノ酸の存在比を利用します。(ヘリックスなら左右4, 8 番目のアミノ酸が同じ側に来るので17残基をとります。)'''H''', '''E''', '''C''' のクラス毎に 20 x 17 パラメータを用意して存在比を求めなくてはなりません。
 
: 17アミノ酸残基のウィンドウを利用し、各アミノ酸の左右8残基の位置にくるアミノ酸の存在比を利用します。(ヘリックスなら左右4, 8 番目のアミノ酸が同じ側に来るので17残基をとります。)'''H''', '''E''', '''C''' のクラス毎に 20 x 17 パラメータを用意して存在比を求めなくてはなりません。
  
Line 70: Line 70:
 
その後、ニューラルネットワーク (NN) を用いた予測法が大流行します。NN は17 や 13 といったウィンドウ幅のアミノ酸残基に対応するセルをもち、それらのセルが中間レイヤを介して  '''H''', '''E''', '''C''' のいずれかを支持します。この手法は、NN を例題によってトレーニングしておき、その結果を用いて予測する方法であることから配列のローカルな類似性を用いた予測といえます。
 
その後、ニューラルネットワーク (NN) を用いた予測法が大流行します。NN は17 や 13 といったウィンドウ幅のアミノ酸残基に対応するセルをもち、それらのセルが中間レイヤを介して  '''H''', '''E''', '''C''' のいずれかを支持します。この手法は、NN を例題によってトレーニングしておき、その結果を用いて予測する方法であることから配列のローカルな類似性を用いた予測といえます。
  
結論としてこれらの手法(初期のものを含む)で予測率 70 % を達成することはできず、ホモロジー検索結果をアライメントしてプロファイルを作成し、そのプロファイルを NN で学習させる手法になって初めて 70 % を超えるようになりました。
+
結論として、これらの手法(初期のものを含む)で予測率 70 % を達成することはできませんでした。ホモロジー検索によって近縁の配列をデータベースから集め、そのマルチプルアライメント結果(プロファイル)を NN で学習させる手法になって初めて 70 % を超えるようになりました。<ref>Rost B, Sander C (1993) "Prediction of protein secondary structure at better than 70%" J Mol Biol 232:584</ref> この70%超えを達成したのが B. Rost という人です。この仕事で博士号を取得し、今は国際計算生物学会 (ISCB) の会長をしています。
  
 
====進化的情報の利用====
 
====進化的情報の利用====
  
二次構造の予測には今もニューラルネットワークや隠れマルコフモデルが使われます。精度の向上は主に psi-BLAST など配列アライメント(プロファイル)の性能が上がったことに依拠します。
+
二次構造の予測には今もニューラルネットワークや隠れマルコフモデルが使われます。ただし、ニューラルネットワークが特にこの問題に適しているわけではありません。おそらくSVM などの他手法でも同様の精度は達成できるでしょう。歴史とともに精度が向上するのは主に psi-BLAST など配列アライメント(プロファイル)の性能が上がったことに依拠します。
  
予測ツールでは[http://www.ebi.ac.uk/Tools/pfa/iprscan/ InterProScan] がよく知られています。これは既存のツール 10 種以上による予測結果をまとめてE-mailで返してくれるシステムで、メタツールと呼ばれます。メタツールの登場により、 80 % 程度の精度で二次構造が予測できると考えられています。
+
いまのところ予測ツールでは[http://www.ebi.ac.uk/Tools/pfa/iprscan/ InterProScan] がよく知られています。これは既存のツール 10 種以上による予測結果をまとめてE-mailで返してくれるシステムで、メタツールと呼ばれます。メタツールの登場により、 80 % 程度の精度で二次構造が予測できると考えられています。
 +
 
 +
====予測の限界====
 +
 
 +
今後、より多くの情報が集まったら二次構造は完全に予測できるのでしょうか。現在はそう考えられていません。
 +
まず、タンパク質の立体構造から二次構造への変換が必ずしも一意ではありません。有名な二次構造データベースに[http://swift.cmbi.ru.nl/gv/dssp/ DSSP]や[http://webclu.bio.wzw.tum.de/stride/ STRIDE]がありますが、両者でも二次構造の割り当ては異なっています。結局、立体構造をきちんと予測できなければ二次構造の予測精度も80~85%から上がらないだろうというのが大方の見解です。これをうけて、最近は特定の部分構造(例えば、ディスオーダー領域と呼ばれる構造不定部分や特徴的なターン構造)を予測する方向に研究の興味が移っています。
  
 
==三次構造==
 
==三次構造==

Revision as of 23:20, 12 June 2012

Contents

タンパク質の構造

タンパク質は20種類のアミノ酸から構成され、アミノ酸どうしはアミノ基とカルボキシル基の間にペプチド結合を形成します。 この結合は共鳴によって二重結合性を帯びるので平面構造をとります。 Cα(アミノ酸の中心炭素)の間に炭素と窒素が1個ずつ入りますが、平面が固定されるのでCα-N結合角(φ ファイ)とCα-C結合角は(ψ プサイ)の二結合ぶんで立体配置を決定できます。

ペプチド結合 (Wikipediaより)

二面角

アミノ酸の中心に位置する炭素 (Cα) に注目すると、側鎖の他にそれぞれがペプチド結合に関わる -C(=O)- と -N(H)- が接続しています。 ペプチド結合は平面構造をとりますが、それぞれが -C-Cα 軸と Cα-N- 軸を中心に回転できます。 その回転角度 φ, ψ は ±180 ° の間をとることができ、二面角と呼ばれます[1]

一次構造

ペプチド結合によって連結されたアミノ酸の配列を一次構造といいます。コドンの並び順で最初にくるアミノ酸側がアミノ基末端 (N末端)、最後のアミノ酸側がカルボキシル末端 (C末端) となります。

代表的な一次構造のデータベースには以下のものがあります。いずれも特徴的なアミノ酸配列という形式で機能や構造を表現しています。

  • Prosite ... タンパク質のドメインや機能モチーフ
  • Smart ... ドメインやタンパク質相互作用の計算機による予測サーバー
  • CDD ... 機能、構造ドメインのメタデータベース

二次構造

タンパク質のドメインは、二次構造という単位で理解されます。二次構造は水素結合や分子間力で構成されるため、加熱や pH、尿素などの変性剤、界面活性剤などで変化します。

水素結合のエネルギーは、1結合あたり 2 ∼ 10 kcal/mol と見積もられており、共有結合と比較すると 1/10 以下になります。

α-へリックス (H) β-シート (E) ループ、ターン (C)
Lecture-Biochem-Protein-alpha.jpg

(画像はCATHより)

Lecture-Biochem-Protein-beta.jpg Lecture-Biochem-Protein-turn.jpg
アミノ酸が平均3.6残基で右巻きにらせんを巻いた構造です。(左巻きもありますが、数は少なくなります。)

n 番目のアミノ酸におけるペプチド結合の -C(=O)- 部分が、n + 4 番目のアミノ酸におけるペプチド結合の -N(H)- と水素結合して形成されます。この一般系を 4-α へリックスと呼びます。 このほか 3 アミノ酸、5 アミノ酸で一周する構造もあり、それぞれ 310 へリックス、π へリックスと呼ばれます。 グリシンやプロリンをあまり含みません(らせんを妨げる)。電荷を持つアミノ酸や大きなアミノ酸も比較的少ないです。

伸長したアミノ酸が並行に並んだストランド構造です。

シートの間で-C(=O)- 部分が -N(H)- と水素結合して形成されます。 ストランドが同じ向きに並んだ場合を並行 β シート、互い違いに並んだ場合を逆並行 β シートといいます。イソロイシンやバリンのような疎水性残基が使われます。多くは親水性の側と疎水性の側を作ります。

α-へリックスやβ-シートは、特定の構造をとるループや、構造が不定のディスオーダー領域で連結されます。細胞外にある多くのタンパク質では、硫黄を含むシステインどうし間にS-S架橋をつくったジスルフィド結合が立体構造を安定化させます[2]。急な角度を形成するためにグリシンやプロリンが多くなります。

二次構造の分布

二次構造を H, E, C の3種に分けるとそれぞれ 30, 20, 50% の割合になります。二次構造の予測ツールとして常に C と予測するプログラムを作成したら正解率は 50 % です。この正解率を上げるのは簡単にみえて難しく、予測率が 70 % を初めて超えたのは 1993年 B. Rost による予測法でした。70%を超えたことを論文タイトルにした位です。[3] 現在でも予測率は 80 % 程度で、配列アライメントに基づくツールがよく使われています。

予測法

初期

  • Chou-Fasman 法 [4]
各アミノ酸について H, E, C の中での存在比を求めます。そして H らしいアミノ酸が続く部分を ヘリックスと予測する方法です。例えばグリシンが多いから C、のように予測します。
  • Garnier-Osguthorpe-Robson 法 [5]
17アミノ酸残基のウィンドウを利用し、各アミノ酸の左右8残基の位置にくるアミノ酸の存在比を利用します。(ヘリックスなら左右4, 8 番目のアミノ酸が同じ側に来るので17残基をとります。)H, E, C のクラス毎に 20 x 17 パラメータを用意して存在比を求めなくてはなりません。

配列類似性を用いたもの

その後、ニューラルネットワーク (NN) を用いた予測法が大流行します。NN は17 や 13 といったウィンドウ幅のアミノ酸残基に対応するセルをもち、それらのセルが中間レイヤを介して H, E, C のいずれかを支持します。この手法は、NN を例題によってトレーニングしておき、その結果を用いて予測する方法であることから配列のローカルな類似性を用いた予測といえます。

結論として、これらの手法(初期のものを含む)で予測率 70 % を達成することはできませんでした。ホモロジー検索によって近縁の配列をデータベースから集め、そのマルチプルアライメント結果(プロファイル)を NN で学習させる手法になって初めて 70 % を超えるようになりました。[6] この70%超えを達成したのが B. Rost という人です。この仕事で博士号を取得し、今は国際計算生物学会 (ISCB) の会長をしています。

進化的情報の利用

二次構造の予測には今もニューラルネットワークや隠れマルコフモデルが使われます。ただし、ニューラルネットワークが特にこの問題に適しているわけではありません。おそらくSVM などの他手法でも同様の精度は達成できるでしょう。歴史とともに精度が向上するのは主に psi-BLAST など配列アライメント(プロファイル)の性能が上がったことに依拠します。

いまのところ予測ツールではInterProScan がよく知られています。これは既存のツール 10 種以上による予測結果をまとめてE-mailで返してくれるシステムで、メタツールと呼ばれます。メタツールの登場により、 80 % 程度の精度で二次構造が予測できると考えられています。

予測の限界

今後、より多くの情報が集まったら二次構造は完全に予測できるのでしょうか。現在はそう考えられていません。 まず、タンパク質の立体構造から二次構造への変換が必ずしも一意ではありません。有名な二次構造データベースにDSSPSTRIDEがありますが、両者でも二次構造の割り当ては異なっています。結局、立体構造をきちんと予測できなければ二次構造の予測精度も80~85%から上がらないだろうというのが大方の見解です。これをうけて、最近は特定の部分構造(例えば、ディスオーダー領域と呼ばれる構造不定部分や特徴的なターン構造)を予測する方向に研究の興味が移っています。

三次構造

いわゆるタンパク質の立体構造を三次構造といい、原子の座標であらわします。三次構造の形成にはアミノ酸側鎖どうしの疎水結合力が大きな役割を果たし、疎水性アミノ酸がタンパク質のコアを形成します。

Protein Data Bank (PDB) は代表的な立体構造のデータベースで、およそ 10 万のタンパク質構造が登録されています。 正確な立体構造はX線結晶解析やNMRで決定するしかありませんが、進化の観点から、構造既知の配列に似ている配列は、立体構造も似ていると仮定できます。

アミノ酸の保存率 検出できる代表的ソフトウェア 進化的な考察
30% 以上 殆どの配列解析ソフト 同一祖先由来のホモロジーを持つ
25%近辺 Blast (E-value 10-4) トワイライトゾーン。配列解析ソフトの限界
20%以下 PSI-Blast (E-value 10-4) 立体構造比較が必須。


四次構造

複数のタンパク質サブユニットの空間配置を四次構造といいます。

  1. タンパク質の構造を表現する二面角に対するギリシャ文字は常に
    アミノ基側の結合がファイ φ ... C(i-1)−N(i)−Cα(i)−C(i)
    カルボキシル基側の結合がプサイ ψ ... N(i)−Cα(i)−C(i)−N(i+1)
    を用います。
  2. 細胞内のタンパク質はS-S架橋をほとんど作りません。
  3. Rost B, Sander C "Prediction of protein secondary structure at better than 70%" J Mol Biol 1993; 232:584 B. Rost はこの仕事で学位を取り、2012年現在は国際学会ISCBの会長も務めています。
  4. Chou P, Fasman G "Prediction of protein conformation" Biopolymers 1974; 13:211
  5. Garnier J, Osguthorpe D, Robson B "Analysis and implications of simple methods for predicting the secondary structure of globular proteins" J Mol Biol 1978; 120:97
  6. Rost B, Sander C (1993) "Prediction of protein secondary structure at better than 70%" J Mol Biol 232:584
Personal tools
Namespaces

Variants
Actions
Navigation
metabolites
Toolbox