Aritalab:Lecture/NetworkBiology/Zipf

Revision as of 13:31, 21 July 2011

1 Zipf の法則とランク・サイズ則
2 ランダムな区画取り
- 2.1 ランダムに 2 点をとったとき、 2 点間の距離の分布
- 2.2 ランダムに 2 点をとる作業を n 回繰り返したとき、r 番目の距離の分布
3 ランダムな分割
- 3.1 線分を s 個に分割したときの長さの期待値

Zipf の法則とランク・サイズ則

都市毎の人口や会社の規模、個人の所得を大きさの順に並べて順位 r をつけ、その大きさを $x_r$ とおくと

$x_r = C r^{-(1+\alpha)}\ \,(C, \alpha: const.)$

の形になります（α の値は小さい）。一般には Zipf の法則として知られる関係は、Rank-Size Rule とも呼ばれます。

ランダムな区画取り

ランダムに 2 点をとったとき、 2 点間の距離の分布

線分 [0,1] 上にランダムにとる点を y とします。 y から距離 x と x + dx の間に 2 点目を取る確率を計算しましょう。

0 または 1 から幅 x 以内に y をとるとき (確率 2 x)

y から x 離れた地点は片側にしかとることができません。2 番目の点が x と x + dx の間に落ちる確率は 2x dx です。

残りの範囲に y をとるとき (確率 1 - 2x)

y から x 離れた地点を両側にとれます。2 番目の点が x と x + dx の間に落ちる確率は 2(1-2x) dx です。

結局、2 点間の距離の確率は $\,f(x) dx = 2 x dx + 2 (1-2x) dx = 2(1-x)dx$ で与えられます。平均値は 1/3 になります。

$\int^1_0 x f(x) dx = \int^1_0 -2x^2 + 2x dx = 1/3$

ランダムに 2 点をとる作業を n 回繰り返したとき、r 番目の距離の分布

ランダムにとった区間長が w より長い確率 p 、短い確率 q はそれぞれ以下のようになります。

$\begin{align} p(w) &=\textstyle \int^1_{w} f(x) dx = (1 - w)^2 \\ q(w) &= 1 - p(w) \end{align}$

n 回繰り返したときに、r 番目に長い区間が x である確率 $g_r(x)$ は r−1 個が x より短く、n − r 個が、より長い区間であることに相当します。

$\begin{align} g_r(x) &= \frac{n!}{(n-r)!(r-1)!}p(x)^{r-1}q(x)^{n-r} f(x) \\ &= \frac{n!}{(n-r)!(r-1)!} (1 - x)^{2(r-1)}[1-(1 - x)^2]^{n-r} \cdot 2(1-x) \end{align}$

期待値を計算するのに $(1-x)^2 = z$ と変数変換します。微分すると $dz/dx = 2(x-1)$ です。

$\begin{align} E[g_r(x)] &= \int^1_0 x g_r(x) dx\\ &= \frac{n!}{(n-r)!(r-1)!} \int^0_1 (1-z^{1/2}) z^{r-1}(1-z)^{n-r} \cdot 2(1-x) dz (dx/dz) \\ &= \frac{n!}{(n-r)!(r-1)!} \int^1_0 (1-z^{1/2}) z^{r-1}(1-z)^{n-r} dz \\ &= \frac{n!}{(n-r)!(r-1)!}\big[ \int^1_0 z^{r-1}(1-z)^{n-r} dz - \int^1_0 z^{r-1/2}(1-z)^{n-r} dz\big] \\ &= \frac{n!}{(n-r)!(r-1)!}\big[ \frac{\Gamma(r)\Gamma(n-r+1)}{\Gamma(n+1)} - \frac{\Gamma(r+\frac{1}{2})\Gamma(n-r+1)}{\Gamma(n+\frac{3}{2})} \big] \\ &= \frac{n!}{(n-r)!(r-1)!}\big[ \frac{(r-1)!(n-r)!}{n!} - \frac{\Gamma(r+\frac{1}{2})}{\Gamma(n+\frac{3}{2})} (n-r)! \big] \\ &= 1 - \frac{n!}{(r-1)!}\frac{\Gamma(r+\frac{1}{2})}{\Gamma(n+\frac{3}{2})} \end{align}$

一番長い区間の期待値: $\begin{align} E[g_1(x)] &= 1 - n! \cdot \frac{\Gamma(3/2)}{\Gamma((n+1)+ 1/2)} \\ &= 1 - \frac{ 2^{2n+1} n! (n+1)!}{(2n + 2)!}\\ \end{align}$

一番短い区間の期待値: $\begin{align} E[g_n(x)] &= 1 - n \cdot \frac{\Gamma(n+\frac{1}{2})}{\Gamma(n+\frac{3}{2})}\\ &= 1 - \frac{2n}{2n+1} \end{align}$

ランダムな分割

線分を s 個に分割したときの長さの期待値

線分 [0,1] をランダムに s 分割するとき、得られる線分の長さを短いものから長いものに並べ替えて $l_1, l_2, \cdots, l_s$ と書きましょう。ここで $l_1< l_2 < \cdots < l_s$ また $\textstyle \sum^s_{i=1} l_i =1$ です。

ここで r 番目の線分と r+1 番目の線分の差を $d_r$ と書きます。

$d_1 = l_2 - l_1,\ d_2 = l_3 - l_2,\ \cdots d_{s-2} = l_{s-1} - l_{s}, d_{s-1} = l_s - l_{s-1}$

このとき $\textstyle l_r = l_1 + \sum^{r-1}_{i=1} d_i$ です。全ての線分を足し合わせると長さは 1 になります。

$\begin{align} 1 &= l_1 + l_2 + l_3 + \cdots + l_{s-1} + l_s\\ &= sl_1 + (s-1)d_1 + (s-2)d_2 + \cdots + 2 d_{s-2} + d_{s-1} \end{align}$

ここで全ての線分は等しい仮定の下に置かれていて期待値が等しいことを利用します^[1]^[2]。

$\textstyle E[sl_1] = E[(s-1)d_1] = E[(s-2)d_2] = \cdots = E[d_{s-1}] = \frac{1}{s}$

ここから

$\textstyle E[l_1] = \frac{1}{s^2},\ E[d_1] = \frac{1}{s(s-1)},\ E[d_2] = \frac{1}{s(s-2)},\ \cdots E[d_i] = \frac{1}{s(s-i)},\ \cdots E[d_{s-1}] = \frac{1}{s}$

初めに仮定した l の形に戻しましょう。

$\begin{align} E[l_2] &= \textstyle l_1 + d_1 = \frac{1}{s^2} + \frac{1}{s(s-1)}\\ E[l_3] &= \textstyle l_1 + d_1 + d_2 = \frac{1}{s^2} + \frac{1}{s(s-1)} + \frac{1}{s(s-2)}\\ \cdots \\ E[l_i] &= \textstyle \frac{1}{s}\sum^{i-1}_{j=0}\frac{1}{s-j} \end{align}$

同様に長いほうから順番に並べた場合は i 番目の長さは

$\textstyle E[l_i] = \frac{1}{s}\sum^{s-i}_{j=0}\frac{1}{s-j}$

以上をまとめます。

各線分の長さの期待値 $\textstyle \frac{1}{s}$

一番短い線分の期待値 $\textstyle \frac{1}{s^2}$

一番長い線分の期待値 $\textstyle \frac{1}{s}\sum^{s}_{j=1}\frac{1}{j} \sim \frac{1}{s}\log s$

↑ Whitworth WA (1934) Choice and Chance Steicher New York
↑ Pielou (1975) Ecologial Diversity Wiley New York

[0] Whitworth WA (1934) Choice and Chance Steicher New York

[1] Pielou (1975) Ecologial Diversity Wiley New York

[1]

[2]

@@ Line 36: / Line 36: @@
 </math>
-n 回繰り返したときに、r 番目の区間長が x である確率 <math>g_r(x)</math> は r&minus;1 個が x より短く、n &minus; r 個が、より長い区間を得ることに相当します。
+n 回繰り返したときに、r 番目に長い区間が x である確率 <math>g_r(x)</math> は r&minus;1 個が x より短く、n &minus; r 個が、より長い区間であることに相当します。
 :<math>

Aritalab:Lecture/NetworkBiology/Zipf

Revision as of 13:31, 21 July 2011

Contents

Zipf の法則とランク・サイズ則

ランダムな区画取り

ランダムに 2 点をとったとき、 2 点間の距離の分布

ランダムに 2 点をとる作業を n 回繰り返したとき、r 番目の距離の分布

ランダムな分割

線分を s 個に分割したときの長さの期待値

Personal tools

Namespaces

Variants

Views

Actions

Search

Navigation

metabolites

Toolbox