Aritalab:Lecture/Bioinformatics/MotifFinding
From Metabolomics.JP
< Aritalab:Lecture | Bioinformatics(Difference between revisions)
m (→プロファイル行列) |
|||
Line 4: | Line 4: | ||
モチーフを表現するのに、[[Aritalab:Lecture/Automata/Regular|正則表現]]やプロファイル行列がよく用いられます。 | モチーフを表現するのに、[[Aritalab:Lecture/Automata/Regular|正則表現]]やプロファイル行列がよく用いられます。 | ||
− | === | + | ===プロファイル行列とコンセンサス=== |
固定長 (''l'' とします) の配列を ''n'' 本そろえて ''n'' × ''l'' 行列の形に表現し、各列における各塩基配列の出現頻度を記した 4 × ''l'' 行列をプロファイルと呼びます。 | 固定長 (''l'' とします) の配列を ''n'' 本そろえて ''n'' × ''l'' 行列の形に表現し、各列における各塩基配列の出現頻度を記した 4 × ''l'' 行列をプロファイルと呼びます。 | ||
プロファイルの (''i'', ''j'') 要素 (''i'' ∈ {A,C,G,T}, ''j'' ∈ Z) には、もとの行列で塩基 ''i'' が出現する確率が入ります。 | プロファイルの (''i'', ''j'') 要素 (''i'' ∈ {A,C,G,T}, ''j'' ∈ Z) には、もとの行列で塩基 ''i'' が出現する確率が入ります。 | ||
+ | |||
+ | それぞれの位置で代表的な塩基が定まる場合、それをコンセンサス配列と呼びます。 | ||
;例 | ;例 | ||
Line 52: | Line 54: | ||
| <big>⇒</big> | | <big>⇒</big> | ||
| style="vertical-align:top"| | | style="vertical-align:top"| | ||
− | {| class="wikitable" | + | {| class="wikitable" style="text-align:center" |
|+ プロファイル行列 | |+ プロファイル行列 | ||
|- | |- | ||
Line 62: | Line 64: | ||
|- | |- | ||
! C | ! C | ||
− | | 0.125 || 0 || 0.125 || 0.5 || 0.250 || 0 || 0.250 || 0. | + | | 0.125 || 0 || 0.125 || 0.5 || 0.250 || 0 || 0.250 || 0.750 |
|- | |- | ||
! G | ! G | ||
Line 69: | Line 71: | ||
! T | ! T | ||
| 0.125 || 0.750 || 0 || 0 || 0 || 0.250 || 0.750 || 0.250 | | 0.125 || 0.750 || 0 || 0 || 0 || 0.250 || 0.750 || 0.250 | ||
+ | |- | ||
+ | ! コンセンサス | ||
+ | | A || T || G || C/G || A || A || T || C | ||
|} | |} | ||
|} | |} |
Revision as of 02:11, 7 November 2011
モチーフ
DNA配列の中で転写制御部位や生体分子の結合部位など、決まったパターンを持つ部分配列をモチーフと呼びます。 決まったパターンといっても全く同じ部分配列が存在することは稀で、多くは「ほとんど」一致する部分配列となります。 モチーフを表現するのに、正則表現やプロファイル行列がよく用いられます。
プロファイル行列とコンセンサス
固定長 (l とします) の配列を n 本そろえて n × l 行列の形に表現し、各列における各塩基配列の出現頻度を記した 4 × l 行列をプロファイルと呼びます。 プロファイルの (i, j) 要素 (i ∈ {A,C,G,T}, j ∈ Z) には、もとの行列で塩基 i が出現する確率が入ります。
それぞれの位置で代表的な塩基が定まる場合、それをコンセンサス配列と呼びます。
- 例
|
⇒ |
|
⇒ |
|
モチーフ発見問題
ここでは長いDNA配列 n 本を与えられたとき、配列それぞれの位置 s = (s1, s2, ... sn) にから長さ l の部分配列を取り出してできるプロファイル行列を考えます。
- 問題. スコア関数 S(s, DNA) = − Σlj ΣiA,T,G,C pi,j log pi,j を最小化する位置の配列 s を求めよ。
これをモチーフ発見問題といいます。スコア関数は − ΣΣ p log p の形をとっており、プロファイルのエントロピーといいます。 このエントロピーとはシャノンの平均情報量を意味し、分布の偏りを示す指標です。全ての塩基が等確率で出てくるときに平均情報量は最も大きく、塩基の出現確率に偏りがあればあるほど、平均情報量は小さくなります。このスコア関数をハミング距離にしても問題は変わりません。