Aritalab:Lecture/Bioinformatics/Homology

Revision as of 13:14, 13 December 2011

配列の相同性

進化の観点から似ている配列どうしを相同である (homologous) といいます。配列の相同性 (homology) という概念は、単なる類似性 (similarity) とは異なります。進化的に関係なくたまたま似ている場合は、相同であるとは言いません。配列比較をおこなうときに、生物学的に意味のある類似性を見出すことは重要なテーマです。

以下の 2 つのDNA配列 (27塩基) は相同でしょうか？

例1. 塩基配列
g	c	t	a	g	g	a	t	c	a	c	g	g	c	c	a	t	g	g	c	a	a	g	c	g	c	g
a	a	t	t	g	a	a	g	g	a	t	t	g	c	t	c	g	g	a	t	a	a	t	c	g	c	c

2 つの塩基がランダムだとすると、DNA配列は 1/4 の確率で一致し、3/4 の確率で不一致になります。ですから 12 塩基が一致するのはランダムな配列よりも似ているように思えます。ただし、上の揃え方では連続して一致する部分配列は長くても 3 つしか続きません。これを似ていると言ってよいのでしょうか。ここでは、相同性を判断するための様々な「指標」を考えましょう。

配列の組成、GC含量

配列がランダムであるかどうかの単純な指標は、塩基の組成をみることです。例1 の塩基配列組成は以下のようになっています。

	a	c	g	t
上の配列	6	8	10	3
下の配列	8	5	7	7

	a + t	c + g
上の配列	9	18
下の配列	15	12

長さが 27 塩基の場合、a, c, g, t のそれぞれは 6 ∼ 8 個ずつありそうなものですが、上の配列は t が 3 個しかありません。これはどのくらいの確率で生じる現象なのでしょうか。話を簡単にするため、gc 含量という概念を使います。塩基配列は常に相補鎖があり、a は t と、g は c と対合しています。ですから単純に t だけの量を議論するのは不正確で、a + t, g + c を比較します。

全部で 27 箇所に、at または gc がランダムに配置されるとき、平均して 13 または 14 箇所が at になると考えられます。では at が 9 箇所にしか現れない確率は、その平均的な場合に比較してどれくらい珍しいのでしょうか。それは二項係数の比を求めればわかります。

$\binom{27}{9} \Big/ \binom{27}{13} = \frac{13! 14!}{9! 8!} = 0.2336$

それほど大差ないことがわかりました。同じ計算で at が 5 箇所にしか出てこない確率は 0.004 ほどであることがわかります。

@@ Line 16: / Line 16: @@
 </big></center>
-つの塩基がランダムだとすると、DNA配列は 1/4 の確率で一致し、3/4 の確率で不一致になります。ですから 12 塩基が一致するのはランダムな配列よりも似ているように思えます。ただし、上の揃え方では一番長い共通部分配列が長さ 3 しかありません。こ
+つの塩基がランダムだとすると、DNA配列は 1/4 の確率で一致し、3/4 の確率で不一致になります。ですから 12 塩基が一致するのはランダムな配列よりも似ているように思えます。ただし、上の揃え方では連続して一致する部分配列は長くても 3 つしか続きません。これを似ていると言ってよいのでしょうか。ここでは、相同性を判断するための様々な「指標」を考えましょう。
-れを似ていると言ってよいのでしょうか。ここでは、相同性を判断するための様々な「指標」を考えます。
 ==配列の組成、GC含量==

Aritalab:Lecture/Bioinformatics/Homology

Revision as of 13:14, 13 December 2011

配列の相同性

配列の組成、GC含量

最長共通部分列

Personal tools

Namespaces

Variants

Views

Actions

Search

Navigation

metabolites

Toolbox