Aritalab:Lecture/NetworkBiology/Zipf

From Metabolomics.JP
< Aritalab:Lecture | NetworkBiology(Difference between revisions)
Jump to: navigation, search
m (ランダムな分割)
m (線分を s 個に分割する場合)
Line 77: Line 77:
 
==ランダムな分割==
 
==ランダムな分割==
  
===線分を s 個に分割する場合===
+
===線分を s 個に分割したときの長さの期待値===
 
線分 [0,1] をランダムに s 分割するとき、得られる線分の長さを短いものから長いものに並べ替えて <math>l_1, l_2, \cdots, l_s</math> と書きましょう。ここで <math>l_1< l_2 < \cdots < l_s </math> また <math>\textstyle \sum^s_{i=1} l_i =1</math> です。
 
線分 [0,1] をランダムに s 分割するとき、得られる線分の長さを短いものから長いものに並べ替えて <math>l_1, l_2, \cdots, l_s</math> と書きましょう。ここで <math>l_1< l_2 < \cdots < l_s </math> また <math>\textstyle \sum^s_{i=1} l_i =1</math> です。
  

Revision as of 09:37, 21 July 2011

Contents

Zipf の法則とランク・サイズ則

都市毎の人口や会社の規模、個人の所得を大きさの順に並べて順位 r をつけ、その大きさを x_r とおくと


x_r = C r^{-(1+\alpha)}\ \,(C, \alpha: const.)

の形になります(α の値は小さい)。一般には Zipf の法則として知られる関係は、Rank-Size Rule とも呼ばれます。

ランダムな区画取り

ランダムに 2 点をとったとき、 2 点間の距離の分布

線分 [0,1] 上にランダムにとる点を y とします。一般性を失わずに 0 \leq y \leq 1/2 とします。 y から距離 x と x + dx の間に 2 点目を取る確率を計算します。

  • 0 または 1 から幅 x 以内に y をとるとき

確率 2 xy から x 離れた地点は片側にしかとることができません。2 番目の点が xx + dx の間に落ちる確率は 2 x \cdot dx です。

  • 残りの範囲に y をとるとき

確率 1 - 2 xy から x 離れた地点を両側にとることができます。2 番目の点が xx + dx の間に落ちる確率は  (1-2x) \cdot 2 dx となります。

結局、2 点間の距離の確率は \,f(x) dx = 2 x dx + 2 (1-2x) dx = 2(1-x)dx で与えられます。平均値は 1/3 になります。


\int^1_0 x f(x) dx = \int^1_0 -2x^2 + 2x dx = 1/3

ランダムに 2 点をとる作業を n 回繰り返したとき、r 番目の距離の分布

ランダムにとった区間長が w より長い確率 p 、短い確率 q はそれぞれ


\begin{align}
p(w) &= \int^1_{w} f(x) dx = (1 - w)^2 \\
q(w) &= 1 - p(w)
\end{align}

となります。n 回繰り返したときに、r 番目の区間長が x_r である確率 g_r(x)r-1 個が x_r より短く、n - r 個が x より長い区間を得ることに相当します。


\begin{align}
g_r(x) &= \frac{n!}{(n-r)!(r-1)!}p(x)^{r-1}q(x)^{n-r} f(x) \\
&= \frac{n!}{(n-r)!(r-1)!} (1 - x)^{2(r-1)}[1-(1 - x)^2]^{n-r} \cdot 2(1-x)
\end{align}

期待値を計算するのに (1-x)^2 = z と変数変換します。 微分すると dz/dx = 2(x-1) です。


\begin{align}
E[g_r(x)] &= \int^1_0 x g_r(x) dx\\
&= \frac{n!}{(n-r)!(r-1)!} \int^0_1 (1-z^{1/2}) z^{r-1}(1-z)^{n-r} \cdot 2(1-x) dz (dx/dz) \\
&= \frac{n!}{(n-r)!(r-1)!} \int^1_0 (1-z^{1/2}) z^{r-1}(1-z)^{n-r} dz \\
&= \frac{n!}{(n-r)!(r-1)!}\big[ \int^1_0 z^{r-1}(1-z)^{n-r} dz - \int^1_0 z^{r-1/2}(1-z)^{n-r} dz\big] \\
&= \frac{n!}{(n-r)!(r-1)!}\big[ \frac{\Gamma(r)\Gamma(n-r+1)}{\Gamma(n+1)} - \frac{\Gamma(r+\frac{1}{2})\Gamma(n-r+1)}{\Gamma(n+\frac{3}{2})} \big] \\
&= \frac{n!}{(n-r)!(r-1)!}\big[ \frac{(r-1)!(n-r)!}{n!} - \frac{\Gamma(r+\frac{1}{2})}{\Gamma(n+\frac{3}{2})} (n-r)! \big] \\
&= 1 - \frac{n!}{(r-1)!}\frac{\Gamma(r+\frac{1}{2})}{\Gamma(n+\frac{3}{2})}
\end{align}

一番長い区間の期待値


\begin{align}
E[g_1(x)] &= 1 - n! \cdot \frac{\Gamma(3/2)}{\Gamma((n+1)+ 1/2)} \\
&= 1 - \frac{ 2^{2n+1} n! (n+1)!}{(2n + 2)!}\\
\end{align}

一番短い区間の期待値


\begin{align}
E[g_n(x)] &= 1 - n \cdot \frac{\Gamma(n+\frac{1}{2})}{\Gamma(n+\frac{3}{2})}\\
&= 1 - \frac{2n}{2n+1}
\end{align}

ランダムな分割

線分を s 個に分割したときの長さの期待値

線分 [0,1] をランダムに s 分割するとき、得られる線分の長さを短いものから長いものに並べ替えて l_1, l_2, \cdots, l_s と書きましょう。ここで l_1< l_2 < \cdots < l_s また \textstyle \sum^s_{i=1} l_i =1 です。

ここで r 番目の線分と r+1 番目の線分の差を d_r と書きます。


d_1 = l_2 - l_1,\ d_2 = l_3 - l_2,\ \cdots d_{s-2} = l_{s-1} - l_{s}, d_{s-1} = l_s - l_{s-1}

このとき \textstyle l_r = l_1 + \sum^{r-1}_{i=1} d_i です。全ての線分を足し合わせると長さは 1 になります。


\begin{align}
1 &= l_1 + l_2 + l_3 + \cdots + l_{s-1} + l_s\\
&= sl_1 + (s-1)d_1 + (s-2)d_2 + \cdots + 2 d_{s-2} + d_{s-1}
\end{align}

ここで全ての線分は等しい仮定の下に置かれていて期待値が等しいことを利用します[1][2]

\textstyle
E[sl_1] = E[(s-1)d_1] = E[(s-2)d_2] = \cdots = E[d_{s-1}] = \frac{1}{s}

ここから

\textstyle
E[l_1] = \frac{1}{s^2},\ E[d_1] = \frac{1}{s(s-1)},\ E[d_2] = \frac{1}{s(s-2)},\ \cdots E[d_i] = \frac{1}{s(s-i)},\ \cdots E[d_{s-1}] = \frac{1}{s}

初めに仮定した l の形に戻しましょう。


\begin{align}
E[l_2] &= \textstyle l_1 + d_1 = \frac{1}{s^2} + \frac{1}{s(s-1)}\\
E[l_3] &= \textstyle l_1 + d_1 + d_2 = \frac{1}{s^2} + \frac{1}{s(s-1)} + \frac{1}{s(s-2)}\\
\cdots \\
E[l_i] &= \textstyle \frac{1}{s}\sum^{i-1}_{j=0}\frac{1}{s-j}
\end{align}

同様に長いほうから順番に並べた場合は i 番目の長さは

\textstyle
E[l_i] = \frac{1}{s}\sum^{s-i}_{j=0}\frac{1}{s-j}

以上をまとめます。

各線分の長さの期待値 \textstyle \frac{1}{s}
一番短い線分の期待値 \textstyle \frac{1}{s^2}
一番長い線分の期待値 \textstyle \frac{1}{s}\sum^{s}_{j=1}\frac{1}{j} \sim \frac{1}{s}\log s


  1. Whitworth WA (1934) Choice and Chance Steicher New York
  2. Pielou (1975) Ecologial Diversity Wiley New York
Personal tools
Namespaces

Variants
Actions
Navigation
metabolites
Toolbox