Aritalab:Lecture/NetworkBiology/Zipf

Revision as of 06:35, 21 July 2011

Zipf の法則とランク・サイズ則

都市毎の人口や会社の規模、個人の所得を大きさの順に並べて順位 r をつけ、その大きさを $x_r$ とおくと

$x_r = C r^{-(1+\alpha)}\ \,(C, \alpha: const.)$

の形になります（α の値は小さい）。一般には Zipf の法則として知られる関係は、Rank-Size Rule とも呼ばれます。

ランダムな区画取り

ランダムに 2 点をとったとき、 2 点間の距離の分布

線分 [0,1] 上にランダムにとる点を y とします。一般性を失わずに $0 \leq y \leq 1/2$ とします。 y から距離 x と x + dx の間に 2 点目を取る確率を計算します。

0 または 1 から幅 x 以内に $y$ をとるとき

確率 2 x で $y$ から x 離れた地点は片側にしかとることができません。2 番目の点が x と x + dx の間に落ちる確率は $2 x \cdot dx$ です。

残りの範囲に $y$ をとるとき

確率 1 - 2 x で $y$ から x 離れた地点を両側にとることができます。2 番目の点が x と x + dx の間に落ちる確率は $(1-2x) \cdot 2 dx$ となります。

結局、2 点間の距離の確率は $\,f(x) dx = 2 x dx + 2 (1-2x) dx = 2(1-x)dx$ で与えられます。平均値は 1/3 になります。

$\int^1_0 x f(x) dx = \int^1_0 -2x^2 + 2x dx = 1/3$

ランダムに 2 点をとる作業を n 回繰り返したとき、r 番目の距離の分布

ランダムにとった区間長が $w$ より長い確率 p 、短い確率 q はそれぞれ

$\begin{align} p(w) &= \int^1_{w} f(x) dx = (1 - w)^2 \\ q(w) &= 1 - p(w) \end{align}$

となります。n 回繰り返したときに、r 番目の区間長が $x_r$ である期待値 $g_r(x)$ は $r-1$ 個が $x_r$ より短く、 $n - r$ 個が $x$ より長い区間を得ることに相当します。

$\begin{align} g_r(x) &= \frac{n!}{(n-r)!(r-1)!}p(x)^{r-1}q(x)^{n-r} f(x) \\ &= \frac{n!}{(n-r)!(r-1)!} (1 - x)^{2(r-1)}[1-(1 - x)^2]^{n-r} \cdot 2(1-x) \end{align}$

期待値を計算するのに $(1-x)^2 = z$ と変数変換します。微分すると $dz/dx = 2(x-1)$ です。

$\begin{align} E[g_r(x)] &= \int^1_0 x g_r(x) dx\\ &= \frac{n!}{(n-r)!(r-1)!} \int^0_1 (1-z^{1/2}) z^{r-1}(1-z)^{n-r} \cdot 2(1-x) dz (dx/dz) \\ &= \frac{n!}{(n-r)!(r-1)!} \int^1_0 (1-z^{1/2}) z^{r-1}(1-z)^{n-r} dz \\ &= \frac{n!}{(n-r)!(r-1)!}\big[ \int^1_0 z^{r-1}(1-z)^{n-r} dz - \int^1_0 z^{r-1/2}(1-z)^{n-r} dz\big] \\ &= \frac{n!}{(n-r)!(r-1)!}\big[ \frac{\Gamma(r)\Gamma(n-r+1)}{\Gamma(n+1)} - \frac{\Gamma(r+\frac{1}{2})\Gamma(n-r+1)}{\Gamma(n+\frac{3}{2})} \big] \\ &= \frac{n!}{(n-r)!(r-1)!}\big[ \frac{(r-1)!(n-r)!}{n!} - \frac{\Gamma(r+\frac{1}{2})}{\Gamma(n+\frac{3}{2})} (n-r)! \big] \\ &= 1 - \frac{n!}{(r-1)!}\frac{\Gamma(r+\frac{1}{2})}{\Gamma(n+\frac{3}{2})} \end{align}$

一番長い区間の期待値

$\begin{align} E[g_1(x)] &= 1 - n! \cdot \frac{\Gamma(3/2)}{\Gamma((n+1)+ 1/2)} \\ &= 1 - \frac{ 2^{2n+1} n! (n+1)!}{(2n + 2)!}\\ \end{align}$

一番短い区間の期待値

$\begin{align} E[g_n(x)] &= 1 - n \cdot \frac{\Gamma(n+\frac{1}{2})}{\Gamma(n+\frac{3}{2})}\\ &= 1 - \frac{2n}{2n+1} \end{align}$

ランダムな分割

線分 [0,1] をランダムに s 分割するとき、得られる線分の長さを短いものから長いものに並べ替えて $l_1, l_2, \cdots, l_s$ と書きましょう。ここで $l_1< l_2 < \cdots < l_s$ また $\textstyle \sum^s_{i=1} l_i =1$ です。

ここで r 番目の線分と r+1 番目の線分の差を $d_r$ と書きます。

$d_1 = l_2 - l_1,\ d_2 = l_3 - l_2,\ \cdots d_{s-2} = l_{s-1} - l_{s}, d_{s-1} = l_s - l_{s-1}$

このとき $\textstyle l_r = l_1 + \sum^{r-1}_{i=1} d_i$ です。全ての線分を足し合わせると長さは 1 になります。

$\begin{align} 1 &= l_1 + l_2 + l_3 + \cdots + l_{s-1} + l_s\\ &= sl_1 + (s-1)d_1 + (s-2)d_2 + \cdots + 2 d_{s-2} + d_{s-1} \end{align}$

ここで全ての線分は等しい仮定の下に置かれていて期待値が等しいことを利用します^[1]^[2]。

$\textstyle E[sl_1] = E[(s-1)d_1] = E[(s-2)d_2] = \cdots = E[d_{s-1}] = \frac{1}{s}$

ここから

$\textstyle E[l_1] = \frac{1}{s^2},\ E[d_1] = \frac{1}{s(s-1)},\ E[d_2] = \frac{1}{s(s-2)},\ \cdots E[d_i] = \frac{1}{s(s-i)},\ \cdots E[d_{s-1}] = \frac{1}{s}$

初めに仮定した l の形に戻しましょう。

$\begin{align} E[l_2] &= \textstyle l_1 + d_1 = \frac{1}{s^2} + \frac{1}{s(s-1)}\\ E[l_3] &= \textstyle l_1 + d_1 + d_2 = \frac{1}{s^2} + \frac{1}{s(s-1)} + \frac{1}{s(s-2)}\\ \cdots \\ E[l_i] &= \textstyle \frac{1}{s}\sum^{i-1}_{j=0}\frac{1}{s-j} \end{align}$

同様に長いほうから順番に並べた場合は i 番目の長さは

$\textstyle E[l_i] = \frac{1}{s}\sum^{s-i}_{j=0}\frac{1}{s-j}$

以上をまとめます。

各線分の長さの期待値 $\textstyle \frac{1}{s}$
一番短い線分の期待値 $\textstyle \frac{1}{s^2}$
一番長い線分の期待値 $\textstyle \frac{1}{s}\sum^{s}_{j=1}\frac{1}{j} \sim \frac{1}{s}\log s$

↑ Whitworth WA (1934) Choice and Chance Steicher New York
↑ Pielou (1975) Ecologial Diversity Wiley New York

[0] Whitworth WA (1934) Choice and Chance Steicher New York

[1] Pielou (1975) Ecologial Diversity Wiley New York

[1]

[2]

Aritalab:Lecture/NetworkBiology/Zipf

Revision as of 06:35, 21 July 2011

Contents

Zipf の法則とランク・サイズ則

ランダムな区画取り

ランダムに 2 点をとったとき、 2 点間の距離の分布

ランダムに 2 点をとる作業を n 回繰り返したとき、r 番目の距離の分布

ランダムな分割

Personal tools

Namespaces

Variants

Views

Actions

Search

Navigation

metabolites

Toolbox

@@ Line 12: / Line 12: @@
 ===ランダムに 2 点をとったとき、 2 点間の距離の分布===
-線分 [0,1] 上にランダムにとる点を <math>y</math> とします。一般性を失わずに <math>0 \leq y \leq 1/2</math> とします。 <math>y</math> から距離 ''x'' と ''x'' + ''dx'' の間に 2 点目を取る確率を計算します。
+線分 [0,1] 上にランダムにとる点を y とします。一般性を失わずに <math>0 \leq y \leq 1/2</math> とします。 y から距離 x と x + dx の間に 2 点目を取る確率を計算します。
 * 0 または 1 から幅 ''x'' 以内に <math>y</math> をとるとき
@@ Line 50: / Line 50: @@
 :<math>
 \begin{align}
-<g_r(x)> &= \int^1_0 x g_r(x) dx\\
+E[g_r(x)] &= \int^1_0 x g_r(x) dx\\
 &= \frac{n!}{(n-r)!(r-1)!} \int^0_1 (1-z^{1/2}) z^{r-1}(1-z)^{n-r} \cdot 2(1-x) dz (dx/dz) \\
 &= \frac{n!}{(n-r)!(r-1)!} \int^1_0 (1-z^{1/2}) z^{r-1}(1-z)^{n-r} dz \\
@@ Line 63: / Line 63: @@
 :<math>
 \begin{align}
-<g_1(x)> &= 1 - n! \cdot \frac{\Gamma(3/2)}{\Gamma((n+1)+ 1/2)} \\
+E[g_1(x)] &= 1 - n! \cdot \frac{\Gamma(3/2)}{\Gamma((n+1)+ 1/2)} \\
 &= 1 - \frac{ 2^{2n+1} n! (n+1)!}{(2n + 2)!}\\
 \end{align}
@@ Line 70: / Line 70: @@
 :<math>
 \begin{align}
-<g_n(x)> &= 1 - n \cdot \frac{\Gamma(n+\frac{1}{2})}{\Gamma(n+\frac{3}{2})}\\
+E[g_n(x)] &= 1 - n \cdot \frac{\Gamma(n+\frac{1}{2})}{\Gamma(n+\frac{3}{2})}\\
 &= 1 - \frac{2n}{2n+1}
 \end{align}
 </math>
+==ランダムな分割==
+線分 [0,1] をランダムに s 分割するとき、得られる線分の長さを短いものから長いものに並べ替えて <math>l_1, l_2, \cdots, l_s</math> と書きましょう。ここで <math>l_1< l_2 < \cdots < l_s </math> また <math>\textstyle \sum^s_{i=1} l_i =1</math> です。
+ここで r 番目の線分と r+1 番目の線分の差を <math>d_r</math> と書きます。
+:<math>
+d_1 = l_2 - l_1,\ d_2 = l_3 - l_2,\ \cdots d_{s-2} = l_{s-1} - l_{s}, d_{s-1} = l_s - l_{s-1}
+</math>
+このとき <math>\textstyle l_r = l_1 + \sum^{r-1}_{i=1} d_i </math> です。全ての線分を足し合わせると長さは 1 になります。
+:<math>
+\begin{align}
+&= l_1 + l_2 + l_3 + \cdots + l_{s-1} + l_s\\
+&= sl_1 + (s-1)d_1 + (s-2)d_2 + \cdots + 2 d_{s-2} + d_{s-1}
+\end{align}
+</math>
+ここで全ての線分は等しい仮定の下に置かれていて期待値が等しいことを利用します<ref>Whitworth WA (1934) Choice and Chance ''Steicher'' New York</ref><ref>Pielou (1975) Ecologial Diversity ''Wiley'' New York</ref>。
+:<math>\textstyle
+E[sl_1] = E[(s-1)d_1] = E[(s-2)d_2] = \cdots = E[d_{s-1}] = \frac{1}{s}
+</math>
+ここから
+:<math>\textstyle
+E[l_1] = \frac{1}{s^2},\ E[d_1] = \frac{1}{s(s-1)},\ E[d_2] = \frac{1}{s(s-2)},\ \cdots E[d_i] = \frac{1}{s(s-i)},\ \cdots E[d_{s-1}] = \frac{1}{s}
+</math>
+初めに仮定した ''l'' の形に戻しましょう。
+:<math>
+\begin{align}
+E[l_2] &= \textstyle l_1 + d_1 = \frac{1}{s^2} + \frac{1}{s(s-1)}\\
+E[l_3] &= \textstyle l_1 + d_1 + d_2 = \frac{1}{s^2} + \frac{1}{s(s-1)} + \frac{1}{s(s-2)}\\
+\cdots \\
+E[l_i] &= \textstyle \frac{1}{s}\sum^{i-1}_{j=0}\frac{1}{s-j}
+\end{align}
+</math>
+同様に長いほうから順番に並べた場合は i 番目の長さは
+:<math>\textstyle
+E[l_i] = \frac{1}{s}\sum^{s-i}_{j=0}\frac{1}{s-j}
+</math>
+以上をまとめます。
+* 各線分の長さの期待値 <math>\textstyle \frac{1}{s}</math>
+* 一番短い線分の期待値 <math>\textstyle \frac{1}{s^2}</math>
+* 一番長い線分の期待値 <math>\textstyle \frac{1}{s}\sum^{s}_{j=1}\frac{1}{j} \sim \frac{1}{s}\log s</math>
+<references/>