Aritalab:Lecture/NetworkBiology/Random Walk

From Metabolomics.JP
Jump to: navigation, search
Wiki Top Up one level レポートの書き方 Arita Laboratory

Contents

1次元ランダムウォーク

原点から出発して1ステップ毎に確率 p で + 1, q (= 1 − p) で − 1 動くランダムウォークを考えましょう。 n ステップ後に、正の方向に k 回進んでいる確率は

\textstyle\binom{n}{k} p^k q^{(n-k)}\

であらわされ、二項分布 (binomial distribution) B( n, p ) に従います。二項分布で正の方向に進むステップ数 k の期待値は np [1]なので、n ステップ後の位置の期待値は

E[k - (n -k)] = E[2k - n] = 2 np - n = n(p - q) \

になります。 二項分布の分散は npq です[2]。原点からの移動距離の 2 乗の期待値は


\begin{align}
E[(2 k - n)^2] &= E[4k^2 - 4kn + n^2] = 4 n^2p^2 + 4pqn -  4 n^2p + n^2\\
&= n^2 + 4 pqn (1-n) = 4pqn + (p-q)^2n^2
\end{align}

です。 p = q = 1/2 の場合は左右に同じ確率で広がり、位置の期待値は 0 です。そのとき移動距離の期待値は n1/2 です。

まとめ
  • 位置の期待値  (p-q)n \
  • 移動距離の期待値 \textstyle \sqrt{(p-q)^2n^2 + 4pqn}

再帰確率

原点から出発したランダムウォークが原点に戻ってくる確率を再帰確率といいます。一次元ランダムウォークの場合

  • 再帰確率 \, r =  1 - | p - q |
  • 再帰確率が r < 1 のときに原点に戻ってくる回数の期待値 \textstyle \frac{r}{1-r} = \frac{1}{|2p - 1|} - 1

となります。[3]


反射壁と吸収壁

反射壁や吸収壁を k* と書くと

  • 反射壁があるとき、n ステップ後に位置 k に至る経路数は  P(k, n; k^*) = P(k, n) + P(2k^* - k, n) \,
  • 吸収壁があるとき、n ステップ後に位置 k に至る経路数は  P(k, n; k^*) = P(k, n) - P(2k^* - k, n) \,

となります。(詳細)

2次元ランダムウォーク

2 次元の場合は上下左右の 4 方向に移動できます。2n ステップ後に原点に戻っている場合、左右と上下にそれぞれ k, n − k ステップずつ進むと仮定できます。


\begin{align}
p^{(2n)}_{00} &= \textstyle\sum^n_{k=0} \frac{(2n)!}{k! k! (n-k)! (n-k)!} \big( \frac{1}{4} \big)^{2n} \\
&=\textstyle\frac{(2n)!}{(n!)^2} \sum^n_{k=0} \big( \frac{n!}{k!(n-k)!} \big)^2 \big( \frac{1}{4} \big)^{2n} \\
&=\textstyle\frac{(2n)!}{(n!)^2} \sum^n_{k=0} \binom{n}{k}^2 \big( \frac{1}{4} \big)^{2n}
\end{align}

ここでヴァンデルモンドの畳み込みから \textstyle\sum^n_{k=0}\binom{n}{k}^2 = \binom{2n}{n} なので


p^{(2n)}_{00} = \textstyle \frac{(2n)!}{(n!)^2}\binom{2n}{n}\big(\frac{1}{4}\big)^{2n} = \big[ \frac{(2n)!}{(n!)^2} \big]^2 \frac{1}{4^{2n}}

さらにスターリングの公式 n! \sim n^n e^{-n} \sqrt{2\pi n} を使うと


p^{(2n)}_{00} \sim \textstyle \big[ \frac{(2n)^{2n} e^{-2n} \sqrt{4 \pi n} }{n^{2n} e^{-2n} 2 \pi n} \big]^2 \frac{1}{4^{2n}} = \big[ \frac{4^n}{\sqrt{\pi n}} \big]^2 \frac{1}{4^{2n}} = \frac{1}{\pi n}

原点に戻る回数の総計は発散しますが(再帰確実)、 p^{(2n)}_{00} \xrightarrow{n \rightarrow \infty} 0 のため、原点はゼロ再帰性を満たします。全ての点は同値類に属すので、平面全体がゼロ再帰性(定常分布 πij = 0) となります。

3次元ランダムウォーク

3 次元の場合、上下、左右、前後にそれぞれ k, j, (n − k − j) 回ずつ移動して 2n ステップ後に原点に戻ると仮定できます。


\begin{align}
p^{(2n)}_{000} &= \textstyle\sum_{(j+k)\leq n} \frac{(2n)!}{(k!)^2 (j!)^2 [(n-k-j)!]^2} \big( \frac{1}{6} \big)^{2n} \\
&=\textstyle\frac{(2n)!}{(n!)^2 2^{2n}} \sum_{(j+k)\leq n} \big( \frac{n!}{k!j!(n-k-j)!} \big)^2 \big( \frac{1}{3} \big)^{2n} \\
\end{align}

この式を閉じた形にするのは大変なので上限値を見積もりましょう。

一般に 3 項分布から以下が成立します。


\textstyle\sum_{(j+k)\leq n}\frac{n!}{k!j!(n-k-j)!} \frac{1}{3^n} = 1, \quad
\textstyle\frac{n!}{k!j!(n-k-j)!} \leq \frac{n!}{[(n/3)!]^3}

これより大雑把な見積もりですが


\begin{align}
p^{(2n)}_{000} &\leq \textstyle\frac{(2n)!}{2^{2n}(n!)^2} \frac{n!}{[(n/3)!]^3} \frac{1}{3^n}\\
&\sim \textstyle\frac{1}{2^{2n}} \frac{(2n)^{2n} e^{-2n}\sqrt{4\pi n}}{n^n e^{-n} \sqrt{2 \pi n} (n/3)^n e^{-n} (\sqrt{2\pi n/3})^3} \frac{1}{3^n}\\
&= \textstyle\frac{1}{2}\big(\frac{3}{\pi n}\big)^{3/2}
\end{align}

原点に戻る回数の総計が有限となるため \textstyle\sum^{\infty}_{n=0} p^{(2n)}_{000} = \textstyle\sum^{\infty}_{n=0} \frac{c}{n^{3/2}} < \infty \ (c = const.)、空間全体は再帰不確実 (transient) です。

ここまでのランダムウォークをみると、m 次元ランダムウォークは


p^{(2n)}_{0^m} \leq c/(\sqrt{\pi n})^{m/2}

であることが予想されます。3 次元以降はすべて非再帰的になります。


拡散係数

ランダムウォークを時間の関数として捉えるため、τ 秒毎にステップを刻むことにして歩幅を δ cm とします。つまり、ステップ数 n = t / τ です。拡散の度合いは分散であらわされます。対称な二項分布の分散は n = (t/τ) δ2 = 2 (δ2 /2 τ) t となります(分散は距離の 2 乗平均なので δ が 2 乗されるところに注意)。 拡散係数を D = δ2 /2 τ (単位は cm2/sec) と書くと、分散は 2 Dt です。拡散に要する時間は、t = (距離)2 / 2 D になります。 水中の小分子なら D ∼ 10− 5 、空気中の小分子なら D ∼ 10− 1 程度であることが知られています。

考察

コーヒークリームがカップの中で広がったり、隣の人が香水をつけているかすぐ分かるのは、分子の拡散が原因ではなく水や空気の対流 や攪拌のおかげです。拡散に必要な時間を計算してみましょう。

  • 水中の小分子が拡散のみで x = 10-4 cm = 1 μ m (大腸菌のサイズ) 進むのに必要な時間
t = x2/2D = 10-8/(2 × 10-5) = 5 × 10-4 秒 (0.5 ミリ秒)
  • 水中の小分子が拡散のみで x = 10 cm 進むのに必要な時間
t = x2/2D = (10)2 /(2 × 10-5) = 5 × 106 秒 = 2 ヶ月
  • 空気中の小分子が拡散のみで x = 1 m 進むのに必要な時間
t = x2/2D = (100)2 / (2 × 10-1) = 5 × 104 秒 = 14 時間

有限グラフ上のランダムウォーク

グラフ G( V , E ) の各頂点 u から出る辺を等確率 1/d(u) で選んで動くグラフ上のランダムウォークを考えましょう。非周期性を仮定したいので、ここでは二部グラフでない連結なものだけを考慮します。すると、グラフの全頂点をまわるのに必要なランダムウォークの平均ステップ数は 4|V| · |E| 以下であることを示せます。

[定理] 頂点 u から v に到達するステップ数の期待値を h_{u,v} と記述すると \textstyle h_{u,u} = \frac{2|E|}{d(u)} が成立する。

証明

まずランダムウォークの定常分布 \bar \pi が 各頂点 v において\pi_v = \textstyle \frac{d(v)}{2|E|} であると仮定してみましょう。 各頂点上の確率 \pi_v の総和をとると \textstyle \sum_{v \in V} \pi_v = \sum_{v \in V} \frac{d(v)}{2 |E|} = 1

また \textstyle
\bar \pi {\mathbf P} 
= \sum_{u \in adj(v)} \pi_u \frac{1}{d(u)}
= \sum_{u \in adj(v)} \frac{1}{2 |E|} = \frac{d(v)}{2|E|} = \bar \pi
 から、 \textstyle \frac{d(v)}{2|E|} は定常分布の条件を満たしています。

各頂点への再帰時間の期待値は \textstyle 1/\pi_u になるので、証明は終わりです。

[補題] 隣り合う頂点間のステップ数の期待値の上限は  2 |E| で抑えられる。

証明

各頂点への再帰時間の期待値を、二通りに計算してみます。 \textstyle h_{u,u} = \frac{2 |E|}{ d(u) }
= \frac{1}{d(u)} \sum_{v \in adj(u)} (1+ h_{v,u})

つまり \textstyle 2 |E| = \sum_{v \in adj(u)} (1+ h_{v,u}) ですから  2 |E| > h_{v,u} です。

[補題] グラフ全体を訪れるのに必要な期待値の上限は 4 |V| |E| で抑えられる。

証明

与えられたグラフ全体をスパンする木を作ります。その上を全点辿ったときの辺数は (2|V|-2) です。

\textstyle
\sum_1^{2|V|-2} h_{u,v} = (2|V|-2) \cdot 2|E| < 4|V|\cdot |E|

このように、ある頂点から出発したランダムウォークが全ての頂点を訪れるまでの期待ステップ数をグラフの被覆時間 (cover time) と呼びます。

参考:式の導出

本文中に出てくる式の導出です。

  1. 期待値の定義に従って計算します。
    
\begin{align}
E[X] &= \textstyle\sum_{k=0}^n k \binom{n}{k} p^k(1-p)^{n-k} = \sum_{k=1}^n k \binom{n}{k} p^k(1-p)^{n-k}\\
&= \textstyle\sum_{k=1}^n k \frac{n}{k} \binom{n-1}{k-1} p^k(1-p)^{n-k} = \sum_{k=1}^n k \cdot \frac{n}{k} \cdot p \binom{n-1}{k-1} p^{k-1}(1-p)^{n-k}\\
&= \textstyle np \sum^{n}_{k=1} \binom{n-1}{k-1} p^{k-1}(1-p)^{n-k} = np
\end{align}
  2. 分散の定義に従って計算します。まず
    
\begin{align}
E[X^2] &=\textstyle k^2 \sum_{k=0}^n k \binom{n}{k} p^k(1-p)^{n-k} = \sum_{k=0}^n {k(k-1)+k} \binom{n}{k} p^k(1-p)^{n-k}\\
&=\textstyle \sum_{k=0}^n k(k-1) \binom{n}{k} p^k(1-p)^{n-k} + \sum_{k=0}^n k \binom{n}{k} p^k(1-p)^{n-k}\\
&=\textstyle \sum_{k=0}^n k(k-1) \binom{n}{k} p^k(1-p)^{n-k} + np \\
&=\textstyle n(n-1) \sum_{k=2}^n k(k-1) \binom{n-2}{k-2} p^{k-2}(1-p)^{n-k}  + np \\
&= n(n-1) p^2 + np
\end{align}
    したがって
    \begin{align}
V[X] &= E[X^2] - (E[X])^2 = n(n-1) p^2 + np - n^2p^2\\
&= np (1-p)
\end{align}
  3. 再帰確率を c とおきます。一度戻ったらそこからランダムウォークをまた始めるとすれば
    • ランダムウォークが2回以上ゼロ地点に戻る確率 c2
    • ランダムウォークが3回以上ゼロ地点に戻る確率 c3
    . となります。だから
    • 戻ってこない確率 = 1 − c
    • ちょうど1回戻る確率 = c − c2 = c(1 − c)
    • ちょうど2回戻る確率 = c2 − c3 = c2 (1 − c)
    .
    • ちょうど n 回戻る確率 = cn − cn+1 = cn (1 − c)
    です。戻ってくる回数の期待値は Σ n · cn (1 − c) = c / (1 - c) です。
Personal tools
Namespaces

Variants
Actions
Navigation
metabolites
Toolbox