Aritalab:Lecture/Bioinformatics/Phylogeny
Contents |
配列の進化
配列進化を考える際は、配列にランダムに変化が入るマルコフモデルを用います。配列の置換やギャップは出生死亡過程としてモデルします[1]。
進化系統樹
生物の進化にそった種分岐を樹状に表現したものが系統樹 (phylogenetic tree) です。樹の葉(末端部分)が現存する生物種にあたり、遡った頂点ほど祖先にあたる(現存しない)生物種を意味します。根つき (rooted) で描く方法と、根を仮定しない (unrooted) 方法があり、根を求めるには、対象とする生物種とおおきくかけ離れた種をひとつ加えます。これを外群 (outgroup) と呼び、この種と残りすべてを結ぶ頂点を根とみなします。
系統樹を作成するには、アライメント等で求めた配列間の距離から作る場合と、配列そのものを用いて作る場合の二通りがあります。距離から作る場合の代表例が NJ法、配列から作る場合の代表例が MP法です。
距離から作る場合
平均距離法 UPGMA
UPGMA は Unweighted Pair Group Method with Arithmetic Means の略です。複数生物種間の進化距離を与えられた時、以下の手順で系統樹を作成します。
- 距離が最小のペア i, j を選ぶ (距離を di,j とします)
- 生物種 i と j を、距離 di,j/ 2 に位置する分岐点 u を用いてつなぎ、この点を新しい種とみなす
- 他の種 k から u までの距離を dk,u = (dk,i + dk,j)/2 (つまり i までと j までの距離の平均)として再計算
- このステップを、全生物種がまとまるまで繰り返す
UPGMAは配列進化の速度が一定であると仮定しているため、ステップ 1 では i , j から等距離のところに分岐点 u を作成します。これを繰り返すと、各分岐点から葉頂点(各生物種)までの長さが揃った有根系統樹が作成されます(一番最後に作成した分岐点が最古の生物種)。
進化速度一定という仮定は正しいとは思えません。その理由はUPGMA法がタンパク質などの電気泳動パターンを分類するために開発された手法だからです。計算は早くて便利ですが、UPGMA法を進化系統樹の作成法として広めたのが良くなかったと思います。教科書には載っていますが実際には使われない(使ってはいけない)手法です。
近隣結合法 NJ
NJ は Neighbor Joining 法の略称で、日本の斎藤成也と根井正利によって無根の進化系統樹を作成するために1987年に発表されました。ソフトウェアは、Felsenstein グループが1980年から Phylipを公開し、よく利用されています。
- 各生物種 i に対し、他からの距離の総和 を求める
- を最小にするペア i , j を選ぶ
- 生物種 i と j を
i から
j から の分岐点 u を用いてつなぐ - 他の種 k からの距離を として再計算
- このステップを全生物種がまとまるまで繰り返す
ステップ 2 の部分では、生物種全てで星状の系統樹を作ったときに一番中心に近い生物種を選んでいます。ステップ 3 の部分では、i と j をまとめる点として新しい頂点 u を設定しますが、その i と j からの距離は du,i + du,j = di,j を満たし、Di と Dj の差を考慮して設定されています。
距離が近いものから順次つなぐために全枝長を最小にする系統樹が得られる保証はありませんが、実用上はこれで十分です。
配列を直接作る場合
最大節約法 MP
MP 法は maximum parsimony を意味し、最節約法とも呼ばれます。塩基の置換数を最低にするように、最尤法 (maximum likelihood method) で系統樹を作成します。計算時間が長いため、少数の配列についてしか適用できません。
ツール、ソフトウェア
ナショナルバイオデータベースセンターによるツールの紹介は こちら。 国内で開発されるソフトとして、実験医学増刊「使えるデータベース・ウェブツール」では、MEGA を薦めています。
- 参考
- ↑ JL Thorne, H Kishino, J Felsenstein (1992) "Inching toward reality: an improved likelihood model of sequence evolution" J Mol Biol 34, 3-16