Aritalab:Lecture/Bioinformatics/MotifFinding

モチーフ

DNA配列の中で転写制御部位や生体分子の結合部位など、決まったパターンを持つ部分配列をモチーフと呼びます。決まったパターンといっても全く同じ部分配列が存在することは稀で、多くは「ほとんど」一致する部分配列となります。モチーフを表現するのに、正則表現やプロファイル行列がよく用いられます。

プロファイル行列とコンセンサス

固定長 (l とします) の配列を n 本そろえて n × l 行列の形に表現し、各列における各塩基配列の出現頻度を記した 4 × l 行列をプロファイルと呼びます。プロファイルの (i, j) 要素 (i ∈ {A,C,G,T}, j ∈ Z) には、もとの行列で塩基 i が出現する確率が入ります。

それぞれの位置で代表的な塩基が定まる場合、それをコンセンサス配列と呼びます。

例

アライメント行列
1	2	3	4	5	6	7	8
A	T	C	C	A	G	C	T
C	T	G	G	A	T	T	C
G	G	G	C	A	A	C	T
A	T	G	G	A	T	C	T
A	A	G	C	A	A	C	C
T	T	G	G	A	A	C	T
A	T	G	C	C	A	T	T
A	T	G	G	C	A	C	T

⇒

頻度行列
位置	1	2	3	4	5	6	7	8
A	5	1	0	0	6	5	0	0
C	1	0	1	4	2	0	2	6
G	1	1	7	4	0	1	0	0
T	1	6	0	0	0	2	6	2

⇒

プロファイル行列
位置	1	2	3	4	5	6	7	8
A	0.625	0.125	0	0	0.750	0.625	0	0
C	0.125	0	0.125	0.5	0.250	0	0.250	0.750
G	0.125	0.125	0.875	0.5	0	0.125	0	0
T	0.125	0.750	0	0	0	0.250	0.750	0.250
コンセンサス	A	T	G	C/G	A	A	T	C

モチーフ発見問題

ここでは長いDNA配列 n 本を与えられたとき、配列それぞれの位置 s = (s₁, s₂, ... s_n) にから長さ　l の部分配列を取り出してできるプロファイル行列を考えます。

問題. スコア関数　S(s, DNA) = − Σ^l_j Σ_i^A,T,G,C p_i,j log p_i,j を最小化する位置の配列 s を求めよ。

これをモチーフ発見問題といいます。スコア関数は − ΣΣ p log p の形をとっており、プロファイルのエントロピーといいます。このエントロピーとはシャノンの平均情報量を意味し、分布の偏りを示す指標です。全ての塩基が等確率で出てくるときに平均情報量は最も大きく、塩基の出現確率に偏りがあればあるほど、平均情報量は小さくなります。このスコア関数をハミング距離にしても問題は変わりません。

Aritalab:Lecture/Bioinformatics/MotifFinding

モチーフ

プロファイル行列とコンセンサス

モチーフ発見問題

Personal tools

Namespaces

Variants

Views

Actions

Search

Navigation

metabolites

Toolbox