Aritalab:Lecture/NetworkBiology/Erdos-Renyi Model

From Metabolomics.JP
< Aritalab:Lecture | NetworkBiology(Difference between revisions)
Jump to: navigation, search
m
m
Line 2: Line 2:
  
 
=歴史=
 
=歴史=
* 1998 D. J. Watts, Steven Strogatz "Collective dynamics of 'small-world' networks". Nature 393: 440–442. [http://web.archive.org/web/20070418032327/http://www.tam.cornell.edu/SS_nature_smallworld.pdf. doi:10.1038/30918.]
+
* 1998 Watts DJ, Strogatz S "Collective dynamics of 'small-world' networks". Nature 393: 440–442. [http://web.archive.org/web/20070418032327/http://www.tam.cornell.edu/SS_nature_smallworld.pdf. doi:10.1038/30918.]
 +
 
 +
=ネットワークの指標:<math>C</math>と<math>L</math>=
 +
ネットワーク全体についての尺度として、クラスター係数<math>C</math>と平均頂点間距離<math>L</math>を紹介する。
  
=クラスター係数と平均頂点間距離=
 
Link Analysisではグラフにおける各頂点の尺度としてcentralityとprestigeを紹介した。ここではネットワーク全体についての尺度としてクラスター係数<math>C</math>と平均頂点間距離<math>L</math>を紹介する。
 
 
==クラスター係数==
 
==クラスター係数==
クラスター係数は隣接する頂点間の辺の密度の平均値にあたる。まず各頂点<math>i</math>におけるクラスター係数を以下のように定義する。辺の長さはすべて1とする<math>|e|=1</math>。
+
クラスター係数は隣接する頂点間の辺の密度の平均値にあたる。まず各頂点<math>i</math>におけるクラスター係数<math>C_i</math>を以下のように定義する。辺の長さはすべて1とする<math>|e|=1</math>。
 
:<math>\textstyle C_i=\frac{2}{deg(i)(deg(i)-1)} \sum_{j,k \in neighbor(i)} |e_{jk}|</math>
 
:<math>\textstyle C_i=\frac{2}{deg(i)(deg(i)-1)} \sum_{j,k \in neighbor(i)} |e_{jk}|</math>
 
グラフ全体のクラスター係数はその平均値になる。
 
グラフ全体のクラスター係数はその平均値になる。
Line 13: Line 14:
  
 
==平均頂点間距離==
 
==平均頂点間距離==
平均頂点間距離はその字のごとく全頂点間の最短路の平均値にあたる。ここでは頂点<math>i, j</math>間の最短経路を<math>p_{ij}</math>と書く。距離<math>L</math>以内にある頂点の数を数えることで求められる。
+
平均頂点間距離はその字のごとく全頂点間の最短路の平均値にあたる。ここでは頂点<math>i, j</math>間の最短経路を<math>p_{ij}</math>と書く。各点に注目する場合は、距離<math>L</math>以内にある頂点数を数えることで求められる。
 
:<math>\textstyle L=\frac{1}{n} \sum_{i,j\in G}|p_{ij}|</math>
 
:<math>\textstyle L=\frac{1}{n} \sum_{i,j\in G}|p_{ij}|</math>
  
==様々なグラフ==
+
==様々なグラフにおける<math>C</math>と<math>L</math>==
 
===完全グラフ===
 
===完全グラフ===
 
全ての頂点間に辺を持つグラフは<math>C=L=1</math>。
 
全ての頂点間に辺を持つグラフは<math>C=L=1</math>。
Line 23: Line 24:
 
:例. '''Z'''<sup>2</sup>において、<math>deg(i)=2d</math>
 
:例. '''Z'''<sup>2</sup>において、<math>deg(i)=2d</math>
  
クラスター係数は定義のままだと0になって面白くないので、最短距離が<math>a</math>以下の点には全て辺を持つ'''Z''''<sup>d</sup>を考えよう。
+
定義のままだとクラスター係数が0になって面白くないので、最短距離が<math>a</math>以下の点には全て辺を張るバリエーション'''Z''''<sup>d</sup>を考えよう。
 
:例. '''Z''''<sup>d</sup>のクラスター係数は<math>\textstyle C=\frac{3(a-1)}{2(2a-1)}</math>、平均頂点間距離は<math>\textstyle L=\sqrt[d]{n}/a</math>
 
:例. '''Z''''<sup>d</sup>のクラスター係数は<math>\textstyle C=\frac{3(a-1)}{2(2a-1)}</math>、平均頂点間距離は<math>\textstyle L=\sqrt[d]{n}/a</math>
  
 
===木===
 
===木===
全頂点が同じ次数を持つ木を考える。中心の頂点<math>v_0</math>を根(root)と呼ぶ。木は定義からサイクルを持たないので<math>C=0</math>。平均頂点間距離は
+
簡単のため全頂点が同じ次数を持つ木を考える。中心の頂点<math>v_0</math>を根(root)と呼ぶ。木はその定義よりサイクルを持たないので<math>C=0</math>。また平均頂点間距離は、距離L以内にある頂点を数えることで求められる。
 
:<math>n = 1 + d + d(d-1) + ... + d(d-1)^L = 1 +d (1-(d-1)^{L+1})/(1-(d-1))</math>∝<math>(d-1)^{L+1}</math>
 
:<math>n = 1 + d + d(d-1) + ... + d(d-1)^L = 1 +d (1-(d-1)^{L+1})/(1-(d-1))</math>∝<math>(d-1)^{L+1}</math>
を用いて
+
すなわち
 
:<math>\textstyle L=\propto \frac{\log n}{\log (d-1)} \propto \log n</math>
 
:<math>\textstyle L=\propto \frac{\log n}{\log (d-1)} \propto \log n</math>
  
 
=Erdős–Rényiグラフ=
 
=Erdős–Rényiグラフ=
各頂点間(全部で<math>n(n-1)/2</math>箇所)に一定の確率<math>p</math>で独立に辺を作成したランダムグラフをErdős–Rényiグラフと呼ぶ。各頂点に注目してみると<math>n-1</math>点に対して確率<math>p</math>で辺を張るため、次数は二項分布<math>{}_{n-1}\mbox{C}_k p^k(1-p)^{n-1-k}</math>に従う。すなわち次数の平均は<math>c = (n-1)p</math>と書ける。
+
全ての頂点間に一定の確率<math>p</math>で独立に辺を作成してできるランダムグラフをErdős–Rényiグラフと呼ぶ。各頂点に注目してみると<math>n-1</math>点に対して確率<math>p</math>で辺を張るため、次数は二項分布<math>{}_{n-1}\mbox{C}_k p^k(1-p)^{n-1-k}</math>に従う。すなわち次数の平均は<math>c = (n-1)p</math>と書ける。
  
 
==ネットワークの進化==
 
==ネットワークの進化==
次数の平均値<math>c</math>に基づくグラフ形状の変化を検証しよう。
+
次数の平均値<math>c</math>を変化させて生じるグラフ形状の違いを検証しよう。
;<math>\textstyle c < \frac{1}{n} </math>
+
;<math>\textstyle c \leq \frac{1}{n^2} </math>
:辺の生成される確率が<math>pn(n-1)/2 \rarr 0</math>になるため、辺を持たない。
+
:辺の生成される確率が<math>pn(n-1)/2 = cn/2 \xrightarrow{n\rarr \infty} 0</math>になるため、辺を持たない。
 
;<math>\textstyle c = 1/\sqrt{n}</math>
 
;<math>\textstyle c = 1/\sqrt{n}</math>
:木が生成され始める。
+
:木が育ち始める。
 
;<math>\textstyle c = const.</math>
 
;<math>\textstyle c = const.</math>
:閉路を持つ。ただし、<math>c</math>を定数とおいたことで二項分布をポアソン近似した場合、次数は<math>\textstyle \frac{e^{-c}c^k}{k!}</math>に従う。平均値はもちろん<math>c</math>。
+
:各頂点が定数本の辺を持つ。ちょうど1本だと二部グラフのマッチング、2本だと閉路の集合になる。3本以上持ちはじめると下記に述べる特徴を持ち始める。ここで<math>c</math>を定数とおいたことで二項分布をポアソン近似した場合、次数は<math>\textstyle \frac{e^{-c}c^k}{k!}</math>に従う。平均値はもちろん<math>c</math>。
 
;<math>\textstyle c = \log n</math>
 
;<math>\textstyle c = \log n</math>
:連結になる。ある頂点が辺を全く持たない確率は<math>\textstyle (1-p)^{n-1}=((1-\frac{c}{n-1})^{\frac{n-1}{c}})^{c} \leq e^{-c}</math>。したがって、そのような頂点がグラフ中に存在しない確率の上限は<math>ne^{-c}</math>となり、これを0に収束させるには例えば<math>c \geq 2 \log n</math>
+
:全体が連結になる。ある頂点が辺を全く持たない確率は<math>\textstyle (1-p)^{n-1}=((1-\frac{c}{n-1})^{\frac{n-1}{c}})^{c} \leq e^{-c}</math>。したがって、そのような頂点がグラフ中に存在しない確率の上限は<math>ne^{-c}</math>となり、これを0に収束させるには例えば<math>c \geq 2 \log n</math>で十分である。つまり、孤立点が消滅する。
  
この結果は、Erdős–Rényiグラフが連結であるためには次数が<math>O(\log n)</math>以上であることを意味し、現実のネットワークのモデルとしてはあまり適切でないことがわかる。
+
この結果より、Erdős–Rényiグラフが連結であるためには次数が<math>O(\log n)</math>以上必要であることを意味し、現実のネットワークのモデルとしてはあまり適切でないことがわかる。
  
 
==クラスター係数==
 
==クラスター係数==
 
辺が張られる確率は全て独立なので<math>C=p \simeq c /n</math>。
 
辺が張られる確率は全て独立なので<math>C=p \simeq c /n</math>。
 
==平均頂点間距離==
 
==平均頂点間距離==

Revision as of 14:46, 7 May 2009

ここでは頂点がすべて連結した無向グラフを扱う。

Contents

歴史

  • 1998 Watts DJ, Strogatz S "Collective dynamics of 'small-world' networks". Nature 393: 440–442. doi:10.1038/30918.

ネットワークの指標:CL

ネットワーク全体についての尺度として、クラスター係数Cと平均頂点間距離Lを紹介する。

クラスター係数

クラスター係数は隣接する頂点間の辺の密度の平均値にあたる。まず各頂点iにおけるクラスター係数C_iを以下のように定義する。辺の長さはすべて1とする|e|=1

\textstyle C_i=\frac{2}{deg(i)(deg(i)-1)} \sum_{j,k \in neighbor(i)} |e_{jk}|

グラフ全体のクラスター係数はその平均値になる。

\textstyle C =\frac{1}{n} \sum^{n}_{i=1}C_i

平均頂点間距離

平均頂点間距離はその字のごとく全頂点間の最短路の平均値にあたる。ここでは頂点i, j間の最短経路をp_{ij}と書く。各点に注目する場合は、距離L以内にある頂点数を数えることで求められる。

\textstyle L=\frac{1}{n} \sum_{i,j\in G}|p_{ij}|

様々なグラフにおけるCL

完全グラフ

全ての頂点間に辺を持つグラフはC=L=1

格子

平面の場合は三角格子、正方格子が考えられる。特に、d次元空間において辺の長さが単位距離の格子をZdと書く。

例. Z2において、deg(i)=2d

定義のままだとクラスター係数が0になって面白くないので、最短距離がa以下の点には全て辺を張るバリエーションZ'dを考えよう。

例. Z'dのクラスター係数は\textstyle C=\frac{3(a-1)}{2(2a-1)}、平均頂点間距離は\textstyle L=\sqrt[d]{n}/a

簡単のため全頂点が同じ次数を持つ木を考える。中心の頂点v_0を根(root)と呼ぶ。木はその定義よりサイクルを持たないのでC=0。また平均頂点間距離は、距離L以内にある頂点を数えることで求められる。

n = 1 + d + d(d-1) + ... + d(d-1)^L = 1 +d (1-(d-1)^{L+1})/(1-(d-1))(d-1)^{L+1}

すなわち

\textstyle L=\propto \frac{\log n}{\log (d-1)} \propto \log n

Erdős–Rényiグラフ

全ての頂点間に一定の確率pで独立に辺を作成してできるランダムグラフをErdős–Rényiグラフと呼ぶ。各頂点に注目してみるとn-1点に対して確率pで辺を張るため、次数は二項分布{}_{n-1}\mbox{C}_k p^k(1-p)^{n-1-k}に従う。すなわち次数の平均はc = (n-1)pと書ける。

ネットワークの進化

次数の平均値cを変化させて生じるグラフ形状の違いを検証しよう。

\textstyle c \leq \frac{1}{n^2}
辺の生成される確率がpn(n-1)/2 = cn/2 \xrightarrow{n\rarr \infty} 0になるため、辺を持たない。
\textstyle c = 1/\sqrt{n}
木が育ち始める。
\textstyle c = const.
各頂点が定数本の辺を持つ。ちょうど1本だと二部グラフのマッチング、2本だと閉路の集合になる。3本以上持ちはじめると下記に述べる特徴を持ち始める。ここでcを定数とおいたことで二項分布をポアソン近似した場合、次数は\textstyle \frac{e^{-c}c^k}{k!}に従う。平均値はもちろんc
\textstyle c = \log n
全体が連結になる。ある頂点が辺を全く持たない確率は\textstyle (1-p)^{n-1}=((1-\frac{c}{n-1})^{\frac{n-1}{c}})^{c} \leq e^{-c}。したがって、そのような頂点がグラフ中に存在しない確率の上限はne^{-c}となり、これを0に収束させるには例えばc \geq 2 \log nで十分である。つまり、孤立点が消滅する。

この結果より、Erdős–Rényiグラフが連結であるためには次数がO(\log n)以上必要であることを意味し、現実のネットワークのモデルとしてはあまり適切でないことがわかる。

クラスター係数

辺が張られる確率は全て独立なのでC=p \simeq c /n

平均頂点間距離

Personal tools
Namespaces

Variants
Actions
Navigation
metabolites
Toolbox