Aritalab:Lecture/Bioinformatics/MotifFinding

From Metabolomics.JP
< Aritalab:Lecture | Bioinformatics(Difference between revisions)
Jump to: navigation, search
m (プロファイル行列)
Line 4: Line 4:
 
モチーフを表現するのに、[[Aritalab:Lecture/Automata/Regular|正則表現]]やプロファイル行列がよく用いられます。
 
モチーフを表現するのに、[[Aritalab:Lecture/Automata/Regular|正則表現]]やプロファイル行列がよく用いられます。
  
===プロファイル行列===
+
===プロファイル行列とコンセンサス===
 
固定長 (''l'' とします) の配列を ''n'' 本そろえて ''n'' &times; ''l'' 行列の形に表現し、各列における各塩基配列の出現頻度を記した 4 &times; ''l'' 行列をプロファイルと呼びます。
 
固定長 (''l'' とします) の配列を ''n'' 本そろえて ''n'' &times; ''l'' 行列の形に表現し、各列における各塩基配列の出現頻度を記した 4 &times; ''l'' 行列をプロファイルと呼びます。
 
プロファイルの (''i'', ''j'') 要素 (''i'' &isin; {A,C,G,T}, ''j'' &isin; Z) には、もとの行列で塩基 ''i'' が出現する確率が入ります。
 
プロファイルの (''i'', ''j'') 要素 (''i'' &isin; {A,C,G,T}, ''j'' &isin; Z) には、もとの行列で塩基 ''i'' が出現する確率が入ります。
 +
 +
それぞれの位置で代表的な塩基が定まる場合、それをコンセンサス配列と呼びます。
  
 
;例
 
;例
Line 52: Line 54:
 
| &nbsp;<big>&rArr;</big>&nbsp;
 
| &nbsp;<big>&rArr;</big>&nbsp;
 
| style="vertical-align:top"|
 
| style="vertical-align:top"|
{| class="wikitable"
+
{| class="wikitable" style="text-align:center"
 
|+ プロファイル行列
 
|+ プロファイル行列
 
|-
 
|-
Line 62: Line 64:
 
|-
 
|-
 
! C
 
! C
| 0.125 || 0 || 0.125 || 0.5 || 0.250 || 0 || 0.250 || 0.625
+
| 0.125 || 0 || 0.125 || 0.5 || 0.250 || 0 || 0.250 || 0.750
 
|-
 
|-
 
! G
 
! G
Line 69: Line 71:
 
! T
 
! T
 
| 0.125 || 0.750 || 0 || 0 || 0 || 0.250 || 0.750 || 0.250
 
| 0.125 || 0.750 || 0 || 0 || 0 || 0.250 || 0.750 || 0.250
 +
|-
 +
! コンセンサス
 +
| A || T || G || C/G || A || A || T || C
 
|}
 
|}
 
|}
 
|}

Revision as of 02:11, 7 November 2011

モチーフ

DNA配列の中で転写制御部位や生体分子の結合部位など、決まったパターンを持つ部分配列をモチーフと呼びます。 決まったパターンといっても全く同じ部分配列が存在することは稀で、多くは「ほとんど」一致する部分配列となります。 モチーフを表現するのに、正則表現やプロファイル行列がよく用いられます。

プロファイル行列とコンセンサス

固定長 (l とします) の配列を n 本そろえて n × l 行列の形に表現し、各列における各塩基配列の出現頻度を記した 4 × l 行列をプロファイルと呼びます。 プロファイルの (i, j) 要素 (i ∈ {A,C,G,T}, j ∈ Z) には、もとの行列で塩基 i が出現する確率が入ります。

それぞれの位置で代表的な塩基が定まる場合、それをコンセンサス配列と呼びます。

アライメント行列
位置 1 2 3 4 5 6 7 8
A T C C A G C T
C T G G A T T C
G G G C A A C T
A T G G A T C T
A A G C A A C C
T T G G A A C T
A T G C C A T T
A T G G C A C T
  
頻度行列
位置 1 2 3 4 5 6 7 8
A 5 1 0 0 6 5 0 0
C 1 0 1 4 2 0 2 6
G 1 1 7 4 0 1 0 0
T 1 6 0 0 0 2 6 2
  
プロファイル行列
位置 1 2 3 4 5 6 7 8
A 0.625 0.125 0 0 0.750 0.625 0 0
C 0.125 0 0.125 0.5 0.250 0 0.250 0.750
G 0.125 0.125 0.875 0.5 0 0.125 0 0
T 0.125 0.750 0 0 0 0.250 0.750 0.250
コンセンサス A T G C/G A A T C

モチーフ発見問題

ここでは長いDNA配列 n 本を与えられたとき、配列それぞれの位置 s = (s1, s2, ... sn) にから長さ l の部分配列を取り出してできるプロファイル行列を考えます。

問題. スコア関数 S(s, DNA) = − Σlj ΣiA,T,G,C pi,j log pi,j を最小化する位置の配列 s を求めよ。

これをモチーフ発見問題といいます。スコア関数は − ΣΣ p log p の形をとっており、プロファイルのエントロピーといいます。 このエントロピーとはシャノンの平均情報量を意味し、分布の偏りを示す指標です。全ての塩基が等確率で出てくるときに平均情報量は最も大きく、塩基の出現確率に偏りがあればあるほど、平均情報量は小さくなります。このスコア関数をハミング距離にしても問題は変わりません。

Personal tools
Namespaces

Variants
Actions
Navigation
metabolites
Toolbox